Googleの有害コメント判定ツールを混乱させる方法

2017年3月5日 20:59

印刷

記事提供元:スラド

機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDFArs Technicaの記事The Registerの記事)。

現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。

Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、これらの単語にミススペルを加えたり、途中に「.」「-」「/」といった記号やスペースを挿入したりすると(idiiot、stu.pidなど)、人間の目には元の単語が認識できるのにもかかわらず、有害率スコアは大きく低下する。例文の多くは有害率スコアが80%台で、改変により10%台まで低下するが、中には86%(※)から2%に低下するものもある。
ただし、元の単語の意味にかかわらず、ミススペルを含む単語の多くには34%の有害率スコアが割り当てられることから、ミススペルによる改変にはある程度強いとみられる。一方、例文に「not」を加えて否定表現にしても、有害率スコアの低下は10%前後にとどまる。さらに、テスト用ツールにはフィードバック機能が用意されていることから、これを悪用したポイズニング攻撃が行われる可能性も指摘されている。

論文では対策として、adversarial exampleを使用した学習や、判定前のスペルチェック実行、判定を欺くためにさまざまなパターンを繰り返し試していると思われるユーザーの一定時間ブロックなどを挙げている。ただし、改変単語の全パターンを学習させるのは現実的でなく、スペルチェックは誤判定を増やす可能性もあるとのことだ。

このような研究結果についてJigsawのCJ Adams氏は、正確な判定が可能になるまでにはまだまだ時間がかかるとの認識を示し、研究者の参加を歓迎するコメントをArs Technicaに送っている。

※同じ例文で試したところ、87%となった

 スラドのコメントを読む | セキュリティセクション | Google | セキュリティ | 人工知能 | SNS

 関連ストーリー:
ノルウェー放送協会のWebサイト、クイズに答えなければコメントを投稿できないシステムをテスト中 2017年03月04日
Googleが機械学習を使用して投稿にスコアを付けるツールを発表 2017年02月27日
英語版Wikipediaで活発に個人攻撃をしていたのは34人、この34人が個人攻撃全体の9%を占める 2017年02月16日

※この記事はスラドから提供を受けて配信しています。

関連キーワード

関連記事