ウィキペディアの目線で世界を眺める
配信日時: 2012-06-21 14:59:00
(独ハンブルク)- (ビジネスワイヤ) -- 技術コンピューティングのリーダー企業として信頼されるSGI(NASDAQ:SGI)は、イリノイ大学のKalev H. Leetaru氏との共同で英語版ウィキペディアのテキスト・コンテンツの分析を行い、時間と空間による歴史的マッピングと探索を初めて行いました。その成果の1つとして、インメモリー・データマイニングの活用によって1日かからずに完成した現代史の視覚化があります。英語版ウィキペディアのすべてをSGI® UV™ 2000に読み込ませたLeetaru氏は、過去2世紀の世界の変遷をウィキペディアがどのように捉えたかを示すことができました。場所、年、肯定的・否定的心理が、参照ポイントに結びつけられました。
過去に何度か行われたプロジェクトでウィキペディアの項目に編集者の手作業によって場所のメタデータが付与されたことがありましたが、このような過去の試みは、ウィキペディアの場所情報のごく一部にすぎません。このプロジェクトでは記事のコンテンツ自体を分析し、400万ページにわたるすべてのデータに含まれるすべての場所と日付を見つけ出し、その相互関係も特定して巨大なネットワークを作りました。
真新しい方法でウィキペディアを「眺める」
SGIの最高マーケティング責任者兼戦略責任者のフランツ・アマンは、次のように述べています。「この分析では個々の記事や文章から一歩退いて見ることが可能です。ページという木を見るのではなくウィキペディアに収められた莫大な知識を森として見ることができるのです。人間の知識の集積として最大級のものの1つであるウィキペディアがどのように発展してきたのかを見ることができ、特定の時間や場所に対して世界の人がどのように感じているのか、知識のカバーに空白部分はないのかといった、これまで知ることのできなかったことが分かりました。グーグルアースはズームアウトして全体を展望できる点が人々に好まれています。SGI UV 2を利用すれば、これと同じコンセプトをビッグデータに適用し、ビッグデータの全体像を把握できます。」
今回の分析では、ウィキペディアによる歴史のカバーを1001~1500(中世)、1501~1729(近世)、1730~2003(啓蒙時代)、2004-2011(ウィキペディア時代)という4つに区分しました。現在の活動は、現代についての文書化を拡大することよりも歴史的出来事のカバーを拡大することに集中している様子が見られます。ウィキペディアによる各年のカバーに見られる平均的な心理は大きな世界的出来事と密接に結びついており、過去千年の間で最も否定的に見られている時期はアメリカ南北戦争の時期であり、次が第二次世界大戦です。この分析はまた、デジタル化された出版物コレクションで20世紀の大半が空白状態になる「著作権ギャップ」の問題がウィキペディアにはなく、1924年から今日までの記事が着々と増え続けていることも示しています。
研究者はビッグデータの速度でビッグデータのデータマイニングができる
Leetaru氏は次のように述べています。「ウィキペディアのつながり方が片方向的であること、リンクが欠如していること、インフォボックスの量に片寄りがあることは、ウィキペディアのようなコレクションのデータマイニングをメタデータ・ベースで行うことの限界を示しています。SGI UV 2では巨大な共有メモリーを利用できるため、私はデータセット全体をほぼリアルタイムで調査することができました。キャッシュ・コヒーレンシが確保された大量の共有メモリーがいつでも利用できるので、思いついた質問の答えを得るためにはコードを数行書いてデータセット全体に対して実行するだけでした。スケールアウト・コンピューティングの手法では、これは不可能です。これはタイプライターの代わりにワープロを使用するようなもので、アルゴリズムではなく結果に集中できる完全に新たな方法で研究をすることができます。」
分析的アプローチ
この巨大なデータセットはSGI® UV™ 2000(ビッグブレイン)に読み込まれ、テキストの完全な地理コーディングと日付コーディングが行われました。そのために、ウィキペディアのあらゆるエントリーのテキストデータで言及されているすべての場所と日付を見つけ出すアルゴリズムが使用されました。西暦1000年から2012年までの間で8000万個を超える場所言及と4200万個を超える日付が抽出され、記事1本当たりの平均は場所情報19個と日付11個(それぞれ44ワード、75ワードに1個の割合)でした。それぞれの日付と場所との結びつきは、ウィキペディアの歴史観を示す巨大なネットワークとして保存されました。このような段取りを経て、Leetaru氏はSGI UV 2上でデータセットの全体に関してほぼリアルタイムに分析を行い、時間と空間による視覚的なマップを作ることができました。これにより歴史の展開を見て取ることができるだけでなく、過去千年間にわたる世界の全体的な心理も明らかにすることができ、さまざまな理論や研究上の問題をインタラクティブに試すことができました。そしてこのすべての作業が1日かからずに終わっています。
新しいSGI UV:ビッグブレイン・コンピューター
SGI UV 2製品ファミリーを利用すれば、1台のワークステーションを管理するのと同じような手軽さで、世界中の非常に困難な問題に対する答えをシングルシステムで見つけることができます。Intel® Xeon®プロセッサーE5ファミリーと標準のリナックスを搭載し、幅広いストレージに対応するSGI UV 2は、制限のないコンピューティングのための業界標準の完全なソリューションです。
SGI UV 2は、16コアと32ギガバイトのメモリーによる最小構成で使用を開始し、その後シームレスに拡張することができます。次世代プラットフォームのSGI UV 2は、旧世代製品と比べてコア数が2倍(最大4096コア)、コヒーレントメインメモリー容量が4倍(最大64テラバイト)であり、シングルイメージシステムでのインメモリーコンピューティングが可能です。SGI UV 2は、共有メモリーを8ペタバイトに拡張することが可能です。ピーク時のI/Oレートは毎秒4テラバイト(14 PB/時)であり、米国議会図書館の全蔵書の内容を3秒足らずで取り込むことができる速度です。
SGI UV 2000はすでに提供を開始しています。SGI UV 20は本日より受注可能で、出荷は2012年8月からとなります。価格は3万米ドルからです。
SGIについて
SGIは技術コンピューティング分野の信頼されるリーダー企業として、顧客が事業・技術上の最も困難な課題を解決できるよう支援することに注力しています。詳しい情報については、sgi.comをご覧ください。
SGIとのコンタクトは、ツイッター(@sgi_corp)、フェイスブック(facebook.com/sgiglobal)、ユーチューブ(youtube.com/sgicorp)、リンクトインで可能です。
写真と動画は、こちらをご覧ください:http://www.sgi.com/go/wikipedia
© 2012 Silicon Graphics International Corporation. SGIとSGIのロゴは、米国および/またはその他の国々におけるSilicon Graphics International Corp.またはその子会社の商標ないし登録商標です。IntelおよびXeonは、Intel Corporationの登録商標です。その他の商号および商標はすべて、各所有者の財産です。
画像はKalev Leetaru氏のご厚意により掲載
写真とマルチメディア・ギャラリーはこちらをご覧ください:http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=ja
本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。
連絡先
Ogilvy Public Relations
Meghan Fintland, 415-677-2704
SGImedia@ogilvy.com
プレスリリース情報提供元:ビジネスワイヤ
スポンサードリンク
- 新たな「SGI® UV™」ファミリーとして、ビッグブレイン・コンピューターを発表06/21 14:43
- SGIがSGI® Modular InfiniteStorage™プラットフォームを発表02/03 11:47
スポンサードリンク
最新のプレスリリース
- HAN-KUNメジャーデビュー15周年記念!第15弾「NEW ERA(R)」とコラボレーション12/26 20:00
- 【FC大阪】DF 舘野俊祐選手 契約更新のお知らせ12/26 19:15
- 【創作品モールあるる】テレビ番組「スイッチ!」で、あるるの魅力やキャンペーン情報をご紹介いただきます!12/26 19:15
- スマホ向け本格オンラインRPG『剣と魔法のログレス いにしえの女神』<年末年始もログレス♪魔晶石やへびアバターをゲットしよう!>12/26 19:15
- 【アミューズコーポレートレター】2024年の“アミューズ”を振り返る12/26 19:15
- 最新のプレスリリースをもっと見る