NTT、デジタル分身を低コストで生成するための技術開発

2024年1月20日 17:28

 NTTは17日、少量のデータから個人の発話を再現する「個人性再現対話技術」と、個人の声色を反映した音声を合成できる「Zero/Few-shot音声合成技術」を開発したと発表した。これらの技術は、多様性を理解する情報処理技術の研究開発を進める中で生まれたもので、2024年3月に商用提供される予定の独自の大規模言語モデル(LLM)「tsuzumi」にも活用されるという(ASCII.jp)。 今回、新たに発表された技術は、「万人がデジタル分身を持てる世界」の実現に向けたもので、少量の学習データで本人らしい発話内容と音声を生成する技術を特徴としている。個人性再現対話技術では、ベースモデルのパラメータを変えずに新たなデータで追加学習を行う「アダプター技術」と、指定したペルソナに合った発話を生成する「ペルソナ対話技術」を組み合わせて実現。Zero/Few-shot音声合成技術では、数分~10分程度の音声から、再現度の高い声(声色・話し方)を合成する技術になるという。

関連記事

最新記事