超音波でデジタルアシスタントデバイスを操作 「DolphinAttack」攻撃
2017年9月10日 17:08
20kHz以上の超音波を用い、人の耳に聞こえないボイスコマンドでデジタルアシスタントデバイスを操作して攻撃する研究の成果を中国・浙江大学の研究チームが発表した(論文: PDF、The Vergeの記事、BetaNewsの記事、The Registerの記事)。 オーディオ機能をサポートする多くのデバイスではLPFにより20kHz以上の周波数帯域がカットされることから、超音波での操作は困難と考えられていた。超音波をデバイスが受信できるとしても、実際の人の声と異なる信号をコマンドとして認識できるのか、ユーザーの声を識別するデバイスをアクティベートできるのかといった点も問題となる。 「DolphinAttack」と名付けられた攻撃では、周波数20kHz以上のキャリア信号をボイスコマンドの音声信号でAM変調した信号を用いる。この信号を超音波スピーカーから出力してデバイスのマイクに入力すると、アナログ回路の非直線性によりADCへ入力するまでに元の音声信号が復調されてしまうのだという。 Siriの「Hey, Siri」といったアクティベーションコマンドでは、トレーニングを行ったユーザーの声を識別する。そのため、所有者が発声したコマンドの音声が必要になるが、所有者の話し声を録音できれば音素を組み合わせて有効なアクティベーションコマンドを作成できたとのこと。また、声の似ている人が他人のSiriをアクティベート可能なことから、所有者の声が入手できなくてもテキスト読み上げ(TTS)システムを使用したブルートフォース攻撃が可能だとしている。 実験ではAlexaやCortana、Google Now、Huawei HiVoice、Samsung S Voice、Siriを搭載するデバイスのほか、Audiの車載システムを加えた一般に入手可能な16デバイスを使用。デバイスごとの調整は必要だが、ほぼすべてのデバイスでコマンドを実行することに成功したとのこと。成功するかどうかは距離や音圧レベル、コマンドの長さ、バックグラウンドノイズによる影響を強く受け、言語による影響は小さかったようだ。 DolphinAttackを実行するには対象のデバイスに近づく必要があるため幅広い攻撃に使われる可能性は低いとみられるが、論文では20kHz以上の周波数をカットオフするようにマイクを改良することや、LPFの手前にAM変調された信号を検出・ブロックするモジュールの追加といったハードウェアベースの防御、復調された信号は500Hz~1kHzに元の信号と異なる特徴があることを利用したソフトウェアベースの防御を提案している。