NVIDIAの次世代AI基板「Vera Rubin」今秋出荷へ、HBM4採用でメモリ帯域3倍・トークンコストは10分の1に

2026年6月29日 18:56

印刷

記事提供元:Tech Times

(Nvidia.com)

(Nvidia.com)[写真拡大]

NVIDIAの次世代AIプラットフォーム「Vera Rubin」の製品出荷が2026年秋に開始される。主要クラウドプロバイダー8社を通じて順次提供される予定だが、一般のエンタープライズ開発者が実際に利用可能になるのは2027年以降になるとみられる。HBM4の採用などにより、超巨大モデルの推論コストを10分の1に削減する一方で、1ラックあたり約780万ドル(約12億6360万円)という高価格や、液冷専用インフラへの移行コストが課題となる。

■今秋出荷開始、主要クラウド8社が参画

NVIDIAの次世代AIプラットフォーム「Vera Rubin」の製品出荷が、2026年秋に開始される予定であることが明らかになった。AWS、Google Cloud、Microsoft Azure、Oracle Cloud、CoreWeave、Lambda、Nebius、Nscaleの計8社のクラウドパートナーを通じて提供される。これにより、米国の国立研究所や欧州のスーパーコンピューティングセンターを支える演算アーキテクチャが、2026年1月の発表以来待ち望んでいたクラウド開発者やAI研究所の手元に届くことになる。

NVIDIAは、2026年6月1日に開催された「GTC Taipei」の基調講演で、同プラットフォームがフル生産に入ったことを認めている。また、同年6月22日にハンブルクで開催された「ISC High Performance 2026」では、Vera Rubinがドイツのライプニッツスーパーコンピューティングセンター、米国エネルギー省の国立エネルギー研究科学計算センター(NERSC)、およびロスアラモス国立研究所の次世代スーパーコンピューターにも採用されることが発表された。商業用の「AIファクトリー」から、国家安全保障やオープンサイエンスの領域へと、わずか1週間で導入実績を拡大した形だ。

■「メモリの壁」を打ち破るアーキテクチャ

AIハードウェアの進化は、これまでエクサフロップスやペタフロップスといった演算性能(スループット)の数値を中心に語られがちだったが、大規模モデルの学習や推論における真のボトルネックは別の場所にある。72基のGPUを搭載したラックで1兆パラメータ規模のMixture-of-Experts(MoE:混合専門家)モデルを実行する場合、GPUは演算処理の完了を待っているのではなく、メモリからのデータ転送を待ってアイドル状態になっているのが実態だ。

前世代の「Blackwell」プラットフォームでは、GPUあたり毎秒8テラバイトのHBM3eメモリが使用されていた。これに対し、Vera Rubinは「HBM4」を採用。インターフェース幅を1024ビットから2048ビットへと倍増させ、GPUあたり毎秒22テラバイトという、約3倍のメモリ帯域幅を実現している。各Rubin GPUには、この高速メモリが288ギガバイト搭載される。

同時に、GPU間の相互接続技術「NVLink 6」により、GPU間の双方向帯域幅はBlackwell世代(NVLink 5)の毎秒1.8テラバイトから、毎秒3.6テラバイトへと倍増した。これにより、単一の「NVL72」ラックに搭載された72基のGPU全体での総ファブリック帯域幅は、毎秒260テラバイトに達する。

これらの改良により、Vera Rubin NVL72を使用すれば、同等のBlackwellシステムと比較して4分の1のGPU数でMoEモデルを学習できるようになるとされる。GPUの割り当て制限に直面している最先端のAI研究所にとって、この効率向上は極めて大きな経済的メリットをもたらす。推論においては、Blackwell世代と比較してワットあたりのスループットが10倍向上し、100万トークンあたりのコストが10分の1に削減されるとNVIDIAは報告している。

■液冷専用システム「Vera Rubin NVL72」の全貌

パートナー企業による導入の中心となるラック規模のユニット「NVL72」は、72基のRubin GPUと36基のカスタム「Vera CPU」を、完全に液冷化された単一のエンクロージャーに統合している。NVIDIAがGPUとCPUの双方を自社設計したのは、同社のデータセンター向けプラットフォームとしては初となる。

Rubin GPUは、TSMCの3ナノメートル(nm)プロセスで製造され、3360億個のトランジスタを搭載。カード1枚あたり50ペタフロップスのNVFP4推論性能を提供する。一方、Vera CPUは、カスタム設計されたArmベースの「Olympus」コアを88基搭載し、毎秒1.8テラバイトの「NVLink-C2C」を介してRubin GPUと接続される。このチップ間接続により、商用のラック規模システムとしては初めて、両チップが単一のコヒーレントメモリファブリック下に置かれる。これにより、CPUでの前処理とGPUでの演算の間でPCIe境界を越える必要がなくなり、1つのプロンプトから数百ステップの推論やツール利用を行う「エージェント型AI」のワークロードで課題となっていた遅延(レイテンシ)が解消される。

なお、NVL72ラックは100%液冷仕様であり、空冷構成は存在しない。導入するデータセンターは、チップへの直接液冷(ダイレクト・トゥ・チップ)インフラや、従来の48V規格から移行した800VのDC電源アーキテクチャをサポートする必要がある。これに伴う電気設備の改修費用は、ラック本体の購入費とは別に、1ラックあたり約6万〜19万5000ドル(約972万〜3159万円、1ドル=162円換算)に上るとみられる。

また、同プラットフォームは現在、7つのチップで構成されている。2026年1月のCESで発表された当初の6つのチップに加え、3月のGTCでGroqの「Groq 3 Language Processing Unit(LPU)」が追加された。NVIDIAによると、低遅延で決定論的な推論を処理する「Groq 3 LPX」ラックをNVL72ラックと組み合わせることで、1兆パラメータモデルにおけるメガワットあたりの推論スループットが35倍向上するという。

■1ラック約12.6億円、高騰するメモリコスト

モルガン・スタンレーが2026年5月22日に公開したリサーチレポートによると、シングルラックの「VR200 NVL72」の部品コスト(BOM)は、約780万ドル(約12億6360万円、1ドル=162円換算)と推定されている。これは、前世代のBlackwell NVL72の推定コスト(約400万ドル、約6億4800万円)のほぼ2倍に相当する。

このコスト上昇の主な要因は、GPU自体の価格ではない。ハイパースケーラー向けの大量購入において、Rubin GPUは1基あたり約5万5000ドル(約891万円)と推定されているが、HBM4やLPDDR5Xといったメモリコンポーネントがラック総コストの約26%にあたる約200万ドル(約3億2400万円)を占めている。

これはBlackwell世代と比較してメモリコストが435%増加したことを意味しており、AIインフラの経済構造における構造変化を示している。AIサーバーの価格を左右する最大の要因が、GPUではなくメモリのサプライチェーンになったのは今回が初めてだ。これは、「メモリ帯域幅がモデル性能の制約になっているのであれば、より多くのメモリを搭載し、そのプレミアムコストを受け入れるべきだ」というVera Rubinの設計思想を体現している。

24時間体制でAI推論ワークロードを実行する組織にとって、Vera Rubinの効率向上による10分の1のトークンコスト削減は、この巨額の初期投資を正当化するものとなる。NVIDIAの創業者兼CEOであるジェンセン・フアン氏は、GTC Taipeiにおいてこれを「トークンファクトリーの経済学」と表現した。すべてのデータセンターは、ワットあたりのトークン排出量で出力が測定される「AI工場」であり、その電力枠内のインフラが収益力を決定するという考え方だ。

■競合との比較と、一般開発者のアクセス時期

Vera Rubinは、NVIDIAのデータセンター事業史上、最も競争が激化しているタイミングで市場に投入される。AMDが提供するMI450Xアーキテクチャベース of 「Helios」ラックシステムは、Vera Rubin NVL72に匹敵する推論性能を謳い、GPUソケットあたり432ギガバイトのHBM4メモリ(Rubinの288ギガバイトより50%多い)を提供する。これにより、単一ラックでより大規模なモデルを処理できる可能性がある。また、Googleも自社製TPUファミリーを、学習向けの「TPU 8t」と推論向けの「TPU 8i」に分割して拡張を続けており、NVIDIA製シリコンに依存しない選択肢を確保している。

しかし、主要クラウド4社とAI専門プロバイダー4社を網羅するVera Rubinの広範なエコシステムは、競合がまだ到達していない商業的現実を示している。CUDAのソフトウェアエコシステム、30カ国・350以上の工場にまたがるNVIDIAのサプライチェーン調整力、および主要ハイパースケーラーとの強固な関係が、単なるGPUの性能数値を超えた導入の勢いを生み出している。

一方で、競争環境における制約も存在する。NVIDIAは2026年度の年次報告書において、米国政府による相次ぐ輸出規制により、中国のデータセンター市場から事実上排除されていることを認めた。現在の規制枠組みの下では、中国の購入者は、NVIDIAが現在中国向けに販売を許可されているチップの約22倍の性能を持つVera Rubin NVL72を入手することはできない。

2026年後半の導入枠は、前述の8社によって確保されているが、ハイパースケーラー規模の契約を持たない一般のエンタープライズ開発チームが実際にアクセスできるようになるのは、それよりも後になる。TechInsightsの半導体アナリストであるマニッシュ・ラワット氏は、供給の制約によりクラウドでの利用可能性が逼迫し、予約容量の重要性が高まると指摘。企業は、ハイパースケーラーが提示するスケジュールよりも遅れて次世代インスタンスを利用することになる可能性が高いとみている。

供給制約は2つの側面から生じる。1つは、Appleの最新プロセッサやAMDのMI450XもサポートするTSMCの3nmプロセスにおけるウェハー容量の限界だ。NVIDIAの2026年におけるRubin GPUの推定出荷数は20万〜30万基にとどまり、そのうち60〜70%が初年度にハイパースケーラーへ割り当てられる。もう1つはHBM4のサプライチェーンだ。各Rubin GPUは288ギガバイトのHBM4を必要とするが、TSMCにおけるHBM4の歩留まりは、Blackwellを支えた成熟したHBM3eのレベルにはまだ達していない。

多くのエンタープライズAIチームにとって、Vera Rubinに実際にアクセスできる時期は2027年になると予想される。これは、近年のNVIDIA GPU世代で見られた6〜12カ月の立ち上がり期間と一致する。既存のBlackwell環境で700億パラメータ未満のモデルを実行しているチームにとって、2026年中に急いでアップグレードする理由は乏しい。Vera Rubinの効率向上の恩恵が最も大きくなるのは、2000億パラメータを超えるモデルの運用や、大規模な分散推論、トークンあたりの演算コストが最大の制約となっているワークロードである。

■注目ポイントQ&A

●NVIDIAのVera Rubinプラットフォームとは何ですか?

Blackwellアーキテクチャの後継となる、NVIDIAの次世代AIコンピューティングプラットフォームです。Rubin GPUやVera CPUをはじめとする、共同設計された7つのチップをラック規模のスーパーコンピューターに統合しています。代表的な「NVL72」構成では、72基のRubin GPUと36基のVera CPUを単一の液冷ラックに搭載し、3.6exaflopsのNVFP4推論性能を提供します。名称は、暗黒物質(ダークマター)の存在を示す観測的証拠を提示した米国の天文学者ヴェラ・フローレンス・クーパー・ルービンにちなんでいます。

●Vera RubinはBlackwellと比べてどのように進化していますか?

主に3つのアーキテクチャ変更があります。1つ目は、HBM4メモリの採用により、GPUあたりのメモリ帯域幅がBlackwellの毎秒8テラバイトから毎秒22テラバイトへと約3倍に向上した点です。2つ目は、「NVLink 6」によりGPU間の双方向帯域幅が毎秒3.6テラバイトに倍増し、ラック全体の総帯域幅が毎秒260テラバイトに達した点です。3つ目は、Vera CPUとRubin GPUを毎秒1.8テラバイトの高速リンクで接続し、CPUとGPUのメモリ領域を統合した点です。これにより、大規模なMoEモデルをBlackwellの4分の1のGPU数で学習でき、推論コストを10分の1に削減できます。

●クラウドでの提供時期はいつですか?

AWS、Google Cloud、Microsoft Azure、Oracle Cloud、CoreWeave、Lambda、Nebius、Nscaleの8社において、2026年秋から製品出荷が開始される予定です。CoreWeaveは2026年6月1日に最初のラック規模の検証を完了しています。ただし、大口契約を持たない一般のエンタープライズチームが実際に利用できるようになるのは、供給制約の影響もあり、2027年以降になると予想されます。

●なぜAIにおいてメモリ帯域幅が演算性能よりも重要視されるのですか?

現代の超巨大言語モデル(特にMoEアーキテクチャ)では、GPUが演算を行う時間よりも、メモリとGPU間でデータを移動させる待ち時間の方が長くなる「メモリ帯域幅の壁」が発生するためです。1兆パラメータ規模のモデルを処理する際、メモリからGPUコアへモデルの重みを高速に転送する必要がありますが、従来のメモリ帯域では追いつきませんでした。Vera Rubinは、HBM4の採用とGPU間接続の高速化によってこのボトルネックを解消し、演算性能を最大限に引き出せるように設計されています。

元記事: NVIDIA Vera Rubin Ships This Fall: 8 Cloud Partners, 10x Lower Token Cost, HBM4 Triples Bandwidth

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事