「指」から「声」へ 進化する音声認識技術
2013年5月19日 16:58
1988年、Appleの2代目CEOであるジョン・スカリー氏が、21世紀までの実現を目指して掲示したノートサイズのコンセプトマシン「Knowledge Navigator」は、タッチ・パネルと音声で操作する未来型の情報端末だった。
それから25年。デザイン的な違いはあるものの、タッチ・パネルと音声認識で操作するスマートフォンやタブレットはまさにKnowledge Navigatorを具現化したものといえるのではないだろうか。とくに、iPhoneのSiriを始め、音声認識技術を活用したユーザーインターフェイスは昨今、目覚しい進化を遂げている。
しかしながら、音声認識は扱いにくいと思っている人も多いだろう。しっかりと認識してくれれば便利なのだろうが、その精度は微妙なものが多い。何度も言い直した挙句、指で入力したなんて経験はよくあることだ。また、口元ギリギリまでマイク部分を近づけなければいけないのもストレスになる。結局、ほとんどの操作を指でしているようなこともある。
そんな不満を解消し、音声認識を格段に有効なインターフェイスにしてくれそうな新しい音声認識技術をNEC<6701>が開発した。
NECが今回開発に成功した音声認識技術は、雑音除去技術と音声強調技術を組み合わせることで、スマートフォン・タブレット端末などを離れたところから声で操作できるというものだ。二つのマイクを用いて音声だけを正確に検知してくれるので、従来の雑音除去技術よりも正確に音声だけを検知できるのが大きな特徴だ。機器のボタンを押したり、機器に向かって手を叩くなど、操作を開始する際に行っていたような動作も不要になり、音声だけでダイレクトにアクセスできるようになる。
認識精度の問題も、音声のモデルを用いて音声認識に最適な音に調整してくれるので、モバイル端末向け音声認識の世界標準規格よりも優れた認識精度を実現しているという。
この技術を用いれば、これまで音声操作が難しかったような場面、例えば雑踏の中や、走行中の車内などの環境下でも、約1m離れた場所から機器を操作することができる。ドライブ中や料理中などの両手がふさがっているような状態でもフリーハンドで使用することができるようになり、利便性も格段に上がる。もちろん家電にも搭載できるので、この技術が浸透すれば、キッチンまわりや洗濯機などの家電品を使うのも、格段に便利になりそうだ。
SF映画などで未来世界が描かれるとき、室内の設備を制御するコンピューターや乗り物などを音声で操作する場面が頻繁に描かれる。そんな遠い存在だった未来社会が、もう目の前に来ているのかもしれない。(編集担当:藤原伊織)