富士通がAIで記事を自動要約 8万件「教師データ」で精度は確保できるのか?

2019年7月12日 07:05

 ネット上の記事をすべて読み切るのは難しい。要点を検索エンジンにかけて、選別して読むことにしても偏りは激しい。なによりも、「検索エンジン」が文章の意味を真に理解して表示優先順位を決めている訳でもない。

【こちらも】AIによる小説執筆、実用化に近づく Books&CompanyのAIが文章生成に成功

 そのためグーグル検索で選択して読んだ記事の内容が、正確なのか、良い内容なのかもわからない。「自分の好み」で選んでいる可能性が高い。これではネットで情報が集まっても、正確に物事を理解することとは程遠いだろう。

 これまで文章の先頭付近で内容を抽出してきていたようだが、元来、先頭に「要約文章」を持ってくることが「良い文章」とも言えない。また、先頭の文で文章全体をうまく言い表しているとは限らない。むしろ、内容の是非は「文章全体」で表現するのが適切な書き方と言える。

 そこで富士通は、厄介な問題に挑戦し続けてきたようだ。AI(人工知能)技術「FUJITSU Human Centric AI Zinrai」を用いて、文章全体の要約を可能とするAIによるシステムを、高い精度で実現したと発表した。企業を対象に、トライアルサイトを提供している。

 これまでの自動要約手法では、文章の冒頭から機械的に抜粋して要約文章が作成されていた。それに対して富士通が提供する「重要文抽出」では、記事全文から、AIが重要度が高いと判断した複数の文章を抽出、180字以内の要約記事を瞬時に作成する。その際、文体などは元の文章のままとし、人が行うものと同等の高い精度での要約作成を可能にしているという。

 またもう一つ、「生成型要約機能」も提供する。こちらは、重要文摘出だけでなく、54文字以内の短文として、瞬時に要約してしまうものだ。元の学習データには約8万件の「記事全文と要約記事」が使われており、これを元に、AIが表現も含めて言い換えるという。AIは、単語の削除、語順の変更、言い換えを学習しており、単語や接続詞などの組み合わせに関しても、文章のつながりを踏まえて生成できる機能だ。

 内容理解が必要と思われてきた能力だが、AIにどのような「理解力」を持たせることが出来たのかは不明で、正確な要約文であるのかは独自に判断するしかない。もしこれが可能であるのなら、「検索エンジン」で「内容の良い記事」を先頭に選出できるはずで、良質でない記事を上位に押し上げる「SEO対策技術」がはびこる必要性がなくなってくる。

 また、やはり教師データが問題で、「本当に良い内容である」と判断できるのは「神」のみであろう。SNSなどの普及によって短文しか読まない生活スタイルが出来上がっており、つながりに論理矛盾を起こしている人々が急増している。この世界で「本当に内容が理解できる」教師データが存在するのであろうか? 富士通のシステムも、まだまだ疑問が残る「要約機能」というべきなのだろうか?(記事:kenzoogata・記事一覧を見る

関連記事

最新記事