技術イノベーション研究所が世界最大のアラビア語NLPモデルNOORの構築を発表

プレスリリース発表元企業:Technology Innovation Institute

配信日時: 2022-04-12 19:13:00

技術イノベーション研究所が世界最大のアラビア語NLPモデルNOORの構築を発表

100億のパラメーターを持ち、現時点で最強のアラビア語の言語モデル
自動要約、チャットボット、個別化マーケティングへの応用が可能


(アラブ首長国連邦アブダビ)-(ビジネスワイヤ)-- 世界的な研究センターであり、アブダビの先端技術研究評議会の応用研究の支柱である技術イノベーション研究所(TII)は本日、現時点で世界最大となるアラビア語自然言語処理(NLP)モデルNOORの構築について発表しました。

本プレスリリースではマルチメディアを使用しています。リリースの全文はこちらをご覧ください。:https://www.businesswire.com/news/home/20220411005094/ja/

Noor, the world's largest Arabic NLP Model - AI Cross-Center Unit, Technology Innovation Institute (Photo: AETOSWire)Noor, the world's largest Arabic NLP Model - AI Cross-Center Unit, Technology Innovation Institute (Photo: AETOSWire)

TIIの先進的な研究者と人工知能(AI)専門家から成るチームが、企業のためにエクストリームスケールのマシンインテリジェンスの力を引き出す技術企業のライトオンと協力し、アラビア語NLPモデルを変革しました。NOORモデルは、言語分野を超えてタスクを実行できる能力を備えており、大規模なクローリング、フィルタリング、キュレーションなど、高品質データのエンドツーエンドのパイプラインを提供します。このモデルは、エクストリームスケールで分散型のトーレニングとサービスを促進し、効率的な推論とモデルの専門化が可能なアプリケーションを実現します。

TIIおよびASPIREの最高経営責任者(CEO)を務めるレイ・O・ジョンソン博士は、次のように述べています。「この進展により、私たちの研究能力と信頼性を高め、本格的な研究エコシステムとしてのアブダビとUAEの地位を強化する取り組みが順調に進むことになります。私たちの専門家チームは、この地域が世界に影響を与える画期的な研究開発の成果を達成できることを、またもや証明しました。」

TIIのAIクロスセンター部門ディレクターのEbtesam Almazrouei博士は、次のように語っています。「大規模な言語モデルは自然言語処理の分野を席巻していますが、100億のパラメーターを持つ最先端のモデルであり、世界最大となるこのアラビア語NLPモデルを発表できることを、私たちは誇りに思います。モデルのトレーニングを行うために収集した独自の大規模なアラビア語のデータセットは、さまざまなソースからキュレーティング、スクラッピング、フィルタリングを行うという、何カ月にも及ぶ作業の成果です。NOORがあらゆる場所の学術関係者や企業から頼りにされるアラビア語の探索モデルになるよう、このプロジェクトに取り組んだチーム全体に感謝します。」

TIIのデジタル科学研究センターおよびAIクロスセンター部門の主任研究員であるMérouane Debbah教授は、今回の構築について、次のように語っています。「TIIは、NOORにおいて、この新世代のAI研究における分野横断的な最先端の専門知識を構築するための大規模言語モデルのノウハウを活用することで、現代の標準アラビア語モデルの範囲を拡大しました。」

NOOR独自の300億語以上から成るデータセットは、複数領域において世界最大かつ高品質のアラビア語データセットを収集するために、ウェブデータに書籍、詩、ニュース記事、技術情報を組み合わせて、このモデルの適用性を大幅に広げています。

Ebtesam Almazrouei博士によると、NOORモデルは定評あるトランスフォーマー(Transformer)アーキテクチャーを基盤としています。このデコーダーのみのモデルは、GPT-3と似た構造を持ち、生成的タスクを処理できるようにプログラムされており、そのアーキテクチャーは、位置埋め込みの改善など、機械学習の分野における最新動向を反映してアップグレードされています。NOORデータセットで大規模に品質を確保できるように、TIIチームは機械学習技法に基づいて、自動化されたフィリタリングパイプラインを設計しました。これらのツールは、品質の参照先となるようなテキストを識別し、モデルがスパムコンテンツにさらされないように保護しています。

NOORは最先端の3D並列処理を活用して、128個のA100 GPUを備えたハイパフォーマンスコンピューティングのリソースでトレーニングされており、計算の分散化が可能なため、利用可能なハードウエアリソースの効率的な使用を保証します。

AIクロスセンター部門のディレクターは、人工知能の分野におけるUAEのより広範な戦略に貢献する当部門の取り組みにおいて、これは第一歩に過ぎないと述べています。

このモデルは、そのアラビア語の言語モデルと知性の啓発との相関関係をはっきりさせるため、アラビア語の「光」にちなんで名付けられました。

技術イノベーション研究所(TII)について

詳細情報については、www.tii.aeをご覧ください。

*配信元:AETOSWire

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。



businesswire.comでソースバージョンを見る:https://www.businesswire.com/news/home/20220411005094/ja/

連絡先
Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae

プレスリリース情報提供元:ビジネスワイヤ