Microsoftの音声認識技術、英語では人間並みのレベルに到達

2016年10月28日 19:23

headless 曰く、　Microsoftの音声認識技術が英語では人間並みのレベルに到達したそうだ（論文概要、Next at Microsoft、The Next Web、Register）。

　論文ではNIST 2000テストのSwitchboardとCallHomeを用い、人間（文字起こし専門家）とMicrosoftのASR（Automatic Speech Recognition）システムでのエラー率（WER: word error rate）を比較している。

　SwitchboardのWERは専門家・ASRともに5.9%。MicrosoftのASRシステムは9月に6.3%に到達していたが、1か月ほどで0.4%向上したことになる。一方、CallHomeでは専門家の11.3%に対しASRは11.1%となり、人間による認識能力を上回った。

　人間並みの音声認識技術の実現は、5年前には想像もできなかったという大きなマイルストーンであり、幅広い製品の機能を大幅に拡張することが期待される。