複数人の会話音声を自動で書き起こすサービス、日立が販売開始
2018年10月17日 17:52
日立製作所は、複数人の会話音声をテキスト化する「音声書き起こし支援サービス」を、10月16日から販売開始した。
【こちらも】日立、AI活用した8大生活習慣病リスクの予測サービス 健康経営に科学の眼
この商品は、日立が世に送り出す「デジタル対話サービス」シリーズの第2弾であるという。主には会議や商談などの会話音声をテキスト化し、そのデータを編集可能にするクラウドサービスという形式である。
なお、こういったビジネスそのものは「テープ起こし」などと呼ばれて昔からあるのだが、人間が耳で聴き、そしてその人間が文字に書き起こす、というものであった。当然であるが、話者が複数いる場合の混乱などは、テープ起こしの作業をする人間が負担として引き受けなければならなかった。
それに対し日立のサービスは、同社独自の音源分離技術を用いて複数人の会話音声を話者ごとに識別・分離し、自動的にテキスト化するものであるという。
ちなみに日立では、音声認識技術の研究は以前から行っており、2018年9月、音声認識の技術評価国際イベントであるCHiME-5(The 5th CHiME Speech Separation and Recognition Challenge)なるものに於いて、音声認識率世界2位という記録を樹立しているとのことである。
技術面のことは難しい話になろうが、かいつまんでいえば、いらない音や反響音などを除去する雑音除去技術と、前述の音源分離技術がこのサービスの中核となっているという。
なお、このサービスでは、音源の分離が高度に可能であるので、「一人一人が別のマイクに向かってしゃべる」という必要性がなく、ひとつのマイクに対して複数人で喋った音源をテキスト化することが可能である。また、全てが自動でのみ行われるわけではなく、固有名詞や専門用語などを適宜覚えさせることもできるという。(記事:藤沢文太・記事一覧を見る)