MITの研究チーム、文法や構文の注釈を入れた非ネイティブ英語話者による英文のデータベースを公開

2016年7月31日 14:16

印刷

記事提供元:スラド

米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(MIT Newsの記事The Vergeの記事)。

データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。

データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制などの区分、Universal Dependencies (UD)の手法に基づく単語間の構文上の関係、という3つのレベルで、誤りの訂正前・訂正後両方の文に対して入れられている。研究を率いたYevgeni Berzak氏はオンラインインターフェイスも作成しており、Webブラウザー上でデータセットを参照可能だ。

英語はインターネット上で最も多く使われる言語だが、英語話者や英文作成者の大半は英語を母国語としない人々が占める。しかし、科学的な英語研究や自然言語処理を行う際には、この点が軽視されがちだという。ネイティブでない英語話者には前置詞を外す/追加する。特定の時制を別の時制に置き換える、特定の助動詞を誤用するといった傾向がある。今回のようなデータセットを機械学習に用いることで、非ネイティブ英語話者をターゲットにした文法訂正ソフトウェアの開発などにつながることを研究者らは期待しているとのことだ。 スラドのコメントを読む | ITセクション | 人工知能 | サイエンス | データベース

 関連ストーリー:
Google、クラウドを使った自然言語処理APIのβ版を公開 2016年07月22日
Google、高精度の英語パーサー「Parsey McParseface」をオープンソース化 2016年05月15日
Language Creation Society、クリンゴン語は著作権保護されないとする法廷助言書を提出 2016年04月30日
Google、人工知能を利用した検索技術「RankBrain」を投入していた 2015年10月28日
Amazon、クラウド型自然言語処理サービスの開発者向けプレビューを開始 2015年08月05日
複数の言語を話す人は、思考がより柔軟であるという研究結果 2015年03月20日
ソースコードを分析してその著者を特定するシステムが開発される 2015年01月30日
Kinectを使ったリアルタイム手話翻訳システム 2013年11月05日
子供向きの母国語で使えるビジュアルプログラミング言語は? 2013年04月21日
ソースコードで最もよく使われる単語が明らかに 2012年07月29日
英語を母国語としない人向けのJavaScriptベース言語「Babylscript」 2012年07月21日
Googleの検索オプションに「読解レベル」登場 2010年12月17日
新生児は胎内で言語を覚え始め、生後すぐ母国語の「メロディ」で泣く 2009年11月11日
エンジニアが英語以外の外国語を身につけるとしたら? 2008年07月09日

※この記事はスラドから提供を受けて配信しています。

関連記事