NTT、デジタル分身を低コストで生成するための技術開発

2024年1月20日 17:28

印刷

記事提供元:スラド

 NTTは17日、少量のデータから個人の発話を再現する「個人性再現対話技術」と、個人の声色を反映した音声を合成できる「Zero/Few-shot音声合成技術」を開発したと発表した。これらの技術は、多様性を理解する情報処理技術の研究開発を進める中で生まれたもので、2024年3月に商用提供される予定の独自の大規模言語モデル(LLM)「tsuzumi」にも活用されるという(ASCII.jp)。

今回、新たに発表された技術は、「万人がデジタル分身を持てる世界」の実現に向けたもので、少量の学習データで本人らしい発話内容と音声を生成する技術を特徴としている。個人性再現対話技術では、ベースモデルのパラメータを変えずに新たなデータで追加学習を行う「アダプター技術」と、指定したペルソナに合った発話を生成する「ペルソナ対話技術」を組み合わせて実現。Zero/Few-shot音声合成技術では、数分~10分程度の音声から、再現度の高い声(声色・話し方)を合成する技術になるという。

 スラドのコメントを読む | ITセクション | テクノロジー | クラウド | ニュース | インターネット | 仮想化

 関連ストーリー:
神奈川県真鶴町でAI政治家が立候補 2023年11月14日
選挙ポスターにアバター、東京都武蔵野市議選で 2023年04月28日
モスバーガー大崎店、7月27日から分身ロボットによる接客サービス実験を実施 2020年07月25日
中国・新華社でAI合成アンカーがデビュー 2018年11月11日

※この記事はスラドから提供を受けて配信しています。

関連キーワード

関連記事