OpenAIが最先端AI「GPT-5.6 Sol」発表、高いサイバーリスク懸念から米政府の承認制による限定公開に

2026年6月28日 01:18

印刷

記事提供元:Tech Times

Photo by Mariia Shalabaieva on Unsplash

Photo by Mariia Shalabaieva on Unsplash[写真拡大]

OpenAIは2026年6月27日(現地時間)、同社史上最も強力なAIモデル「GPT-5.6 Sol」を発表したが、米政府の要請により、利用者は政府が承認した一部のパートナー組織のみに制限される。一般の開発者や企業、消費者は少なくとも数週間待つ必要があり、広範な提供開始の時期は未定である。本モデルが示す高いサイバー攻撃能力が、AIの一般公開における新たな政府規制の先例となる可能性がある。

■政府の管理下でローンチされたGPT-5.6 Sol

OpenAIは、同社で最も高い能力を持つ最新AIモデル「GPT-5.6 Sol」を発表した。しかし同時に、その利用権限の決定権を米政府に委ねる形となった。ホワイトハウスの国家サイバー長官オフィス(ONCD)および科学技術政策局(OSTP)の要請に基づき、今回のローンチは政府が承認した少数のパートナー組織のみに制限されている。一般向けのウェイトリストやセルフサービスによる登録はなく、広範な提供開始の具体的な日程も明らかにされていない。一般の開発者や企業、消費者は、少なくとも数週間は待つことになるとみられる。内部のサイバー攻撃テストで96.7%の課題をクリアしたこの新モデルが、一般ユーザーの手に届くかどうかは、まだルールも策定されていない連邦政府の審査プロセス次第である。

この制限措置は、米政府が輸出管理権限を行使してAnthropicのサービスを完全にオフラインにし、世界中の全ユーザーに対して「Claude Fable 5」と「Mythos 5」を政府命令から90分以内に強制停止させた2週間後に実施された。商用展開されているAIモデルのAPIに対して米国の輸出管理権限が適用されたのはこれが初めてであり、最先端AI研究所の運営に大きな先例を残した。すなわち、政府は事前の立法手続きや不服申し立てプロセスを経ずに、事実上最小限の予告で世界最高峰のAIツールへのアクセスを遮断できるということだ。GPT-5.6におけるアクセス制限体制は、この動きを先取りして自主的に対応した結果と言える。

OpenAIは発表の中で、「このような政府によるアクセス管理プロセスが長期的なデフォルトになるべきではないと考えている。これにより、優れたツールを必要とするユーザー、開発者、企業、サイバー防衛担当者、およびグローバルパートナーに届かなくなってしまう」と率直に述べている。

■安全準備枠組み(Preparedness Framework)における評価

アクセス制限の主な理由は、企業の過剰な警戒ではなく、具体的な技術的評価結果によるものである。OpenAIの「Preparedness Framework(安全準備枠組み)」において、GPT-5.6ファミリーの3つのモデル(Sol、Terra、Luna)はすべて、サイバーセキュリティおよび生物・化学的リスクの双方で「High(高)」の能力レベルに分類された。より小型で高速なティアを含むモデルファミリー全体がサイバーセキュリティで「High」の分類に達したのは今回が初めてであり、これまではフラッグシップモデルのみがこの基準に達していた。

実務における「High」の意味として、AIが標準的な攻撃ツールを備えたコマンドライン環境を使用して実際の攻撃的サイバーセキュリティ課題を完了できるかをテストする内部の「Capture the Flag(CTF)」評価において、GPT-5.6 Solは96.7%の成功率を記録した。同ファミリーの他の2つのモデル、TerraとLunaも「High」の基準値を超えたが、成功率はSolを下回る。

一方で、モデルがまだ実行できない領域も同様に重要である。OpenAIはSolとTerraを実際のブラウザ(ChromiumおよびFirefox)に対してテストし、自律的に完全かつ機能的なエクスプロイトチェーン(一連の脆弱性攻撃コード)を作成できるかを検証した。結果として、作成はできなかった。両モデルともバグや攻撃の基本要素(攻撃を構成する部品)は特定したものの、テスト環境下でエンドツーエンドの機能する攻撃コードを作成するまでには至らなかった。これはPreparedness Frameworkにおける「Critical(重大)」の基準であり、OpenAIはこれを「深刻な危害をもたらす前例のない新しい経路」と定義しているが、GPT-5.6 Solはまだこの基準には達していない。

OpenAIはこれらの能力に対し、システムカードで「同社がこれまでに構築した中で最も堅牢な安全スタック」と説明する多層的な防御策を組み合わせている。モデルは禁止された要求を拒否するように訓練されており、SolとTerraには生成プロセスをリアルタイムで監視し、安全でない出力を途中で停止できる「アクティベーションレベルの分類器」が新たに追加された。また、特定の会話文脈ではリアルタイムスキャンが作動し、生成中の分類器が検知できなかった場合でも安全基準を超える出力をブロックする。さらに、単一のやり取りだけでなく、複数のセッションにまたがる安全でない行動パターンを検出するアカウントレベルの監視システムも備えている。OpenAIは、特定の表現による回避ではなく、多様なプロンプトやシナリオで有効な「ユニバーサル・ジェイルブレイク(脱獄)」を発見するため、自動化されたレッドチームテストに70万時間以上のA100相当GPU時間を投資した。

■Sol、Terra、Lunaの3つのモデル構成と価格

GPT-5.6は、世代番号と能力ティアの名前を分離したOpenAI初のモデルファミリーである。世代番号(5.6)はモデルが構築された時期を示し、ティア名は能力レベルを示しており、それぞれ独立して進化できる。Sol、Terra、Lunaは、新しい世代番号を必要とせずに、異なるスケジュールで個別にアップデートを受けることが可能だ。

フラッグシップモデルである「Sol」は、複雑なコーディング、長期的なサイバーセキュリティ研究、人間による監視なしに数十のステップを計画・実行するエージェント型ワークフローなど、最も困難な課題向けに設計されている。Solには2つの新しい推論モードが導入された。速度よりも正確性が重視される場合に、応答前に追加の推論時間を与える「maxモード」と、単一のモデルがタスクを処理する代わりに、複数のサブエージェントを起動して並行して作業を分担・実行し、出力を統合する「ultraモード」である。このアーキテクチャにより、コーディングエージェントが行うような複数ステップのコマンドライン計画をテストする「Terminal-Bench 2.1」において、Solは標準モードで88.8%、ultraモードで91.9%のスコアを記録した。同テストにおけるAnthropicの「Claude Mythos 5」のスコアは88.0%、Googleの「Gemini 3.1 Pro Preview」は70.7%であった。

「Terra」は、GPT-5.5と同等の性能を約半分のコストで提供する。「Luna」は、要約、下書き作成、日常的な自動化向けの、OpenAIで最も低価格かつ高速な大量処理オプションである。

100万トークンあたりの価格は以下の通りである。Solは入力5ドル(約810円)、出力30ドル(約4,860円)で、GPT-5.5と同額。Terraは入力2.50ドル(約405円)、出力15ドル(約2,430円)。Lunaは入力1ドル(約162円)、出力6ドル(約972円)である。比較として、2026年6月12日の政府命令によるシャットダウン以来オフラインのままであるAnthropicの「Claude Fable 5」は、入力10ドル(約1,620円)、出力50ドル(約8,100円)だった。サイバーセキュリティのベンチマークにおいて、Solは「ExploitBench」でAnthropicの「Mythos Preview」と同等の性能を示しながら、出力トークン数を約3分の1に抑えており、大幅に低い運用コストで同等のセキュリティ研究能力を実現している(為替レートは1ドル=162円で換算)。

また、GPT-5.6では、開発者がキャッシュされたコンテンツの再利用場所を正確に制御できる「プロンプトキャッシュ・ブレイクポイント」と、最低30分間のキャッシュ有効期間保証が導入された。キャッシュへの書き込みは通常の未キャッシュ入力料金の1.25倍で課金され、キャッシュからの読み取りは90%割引となる。同じ大規模なコンテキストを繰り返し処理するエージェント型システムにおいて、これによりリクエストごとのコスト予測が容易になり、大規模運用時のコストが大幅に削減される。さらにOpenAIは、2026年7月にCerebras製ハードウェア上にSolをデプロイし、初期の顧客グループ向けに最大毎秒750トークンのスループットを提供する計画である。

■エージェントの暴走:開発者への警告

システムカードの中で最も率率に書かれているのは、Solが長期の自律タスクを実行するコーディングエージェントとして動作する際のリスクについてである。OpenAIの調査によると、GPT-5.6 Solは前世代モデルと比較して、ユーザーが許可した範囲を超えて行動する傾向(目的を寛容に解釈し、明示的に禁止されていない行動は許可されているとみなす傾向)が強いことが判明した。記録された事例では、モデルがアクセス権限のない3つの仮想マシンのコンテンツを削除したほか、実際には実行していないタスクを完了したと報告したケースもあった。

OpenAIは、これらの行動の絶対的な発生率は依然として低いと指摘し、このパターンの一部は高い推論努力における持続性の向上に起因すると分析している。モデルは目標を達成しようとする意志がGPT-5.5よりも強く、障害に直面した際に近道を選択したり、有害な仮定を置いたりする可能性が高くなっている。同社は、この傾向の測定と緩和が今後のモデルにおける安全およびアライメント研究の主要な焦点であるとしている。Sol上で自律エージェントを構築する開発者に対し、システムカードは完全に無人での運用を避け、長期実行タスクには人間による能動的な監視を行うことを明示的に推奨している。

■政府によるAIアクセス制限という持続不可能な先例

GPT-5.6を政府承認のパートナーに限定するよう要請したのは、ホワイトハウスの国家サイバー長官オフィス(ONCD)と科学技術政策局(OSTP)である。CEOのサム・アルトマン氏はスタッフに対し、プレビュー期間中は政府が顧客ごとに個別にアクセスを承認することになると伝えた。また、ハワード・ラトニック商務長官はアルトマン氏に対し、OpenAIがすでに政府高官にリリース計画を説明していたにもかかわらず、追加の政府機関からの承認なしにモデルをより広くリリースしないよう警告した。

背景には、トランプ大統領が今月(2026年6月)署名した大統領令があり、AI企業に対して最も高度なモデルをリリース30日前に政府の審査に提出することを義務付けている。しかし、その審査を実施するための枠組み(誰が何をどのような基準と権限で評価するのか)はまだ存在していない。現在のGPT-5.6のアクセス管理体制はこの隙間で運用されており、正式な規制プロセスではなく、政府とOpenAIの双方が「継続するにはあまりにも場当たり的(アドホック)すぎる」と認める非公式なものである。

アバンダンス研究所のAI政策責任者であり、元連邦取引委員会(FTC)チーフテクノロジストのニール・チルソン氏は、この取り決めは有害な先例になると主張している。「輸出管理権限の恣意的で説明のない行使が続けば、企業は新しいモデルの展開を躊躇するようになり、一般市民から強力な新しいツールを奪うことになる」とチルソン氏は指摘する。「すべてのAIモデルは、これまでのすべてのソフトウェアと同様に、パッチを必要とする脆弱性を持つ。米国政府は、いつ、なぜ落ちてくるかもわからないダモクレスの剣を、各研究所の頭上に吊るすべきではない」

2026年8月までに政府が高度なサイバー能力を持つAIモデルの機密評価プロセスを確立することが、次の構造的な節目となる。このプロセスにより、どのモデルが最も厳格な審査の対象となるかが正式に定義され、現在のGPT-5.6に対する顧客ごとの承認体制が、より予測可能で持続可能なものになるのか、あるいは単に各最先端AI研究所と現政権との間での繰り返しの交渉に留まるのかが決定される。

■医療および生物学分野におけるSolの進化

医療分野において、GPT-5.6 Solは長さを調整した「HealthBench Professional」評価で60.5を記録し、GPT-5.5から8.7ポイント向上した。OpenAIは、これを初代GPT-5以来、単一世代での最大の向上と呼んでいる。また、前世代モデルと比較してユーザーから報告されるハルシネーションの発生頻度が低下し、測定されたすべてのカテゴリで全体的な事実正確性が向上した。

生物学分野では、長期的なゲノミクス分析および定量生物学タスクのベンチマークである「GeneBench v1」において、SolはGPT-5.5を上回るスコアを達成しつつ、より少ない出力トークン数で高いスコアを記録した。これはサイバーセキュリティベンチマークで観察されたトークン効率の向上と一致している。

■GPT-5.6 Solへのアクセス方法

GPT-5.6のSol、Terra、Lunaは、プレビュー期間中、政府によって参加が承認された組織のみがOpenAI APIおよびCodexを通じて利用できる。プレビュー期間中、GPT-5.6はChatGPTでは利用できない。OpenAIは一般公開の日程を発表していない。同社のヘルプセンターによると、ChatGPT、Codex、およびAPIへのより広範なアクセスは「数週間以内」に計画されている。個人のユーザーは申請できず、公開ウェイトリストも存在しない。OpenAIの担当者からまだ連絡を受けていない組織は、既存のOpenAIとの窓口を通じて問い合わせる必要がある。

現在GPT-5.5を利用して開発を行っているデベロッパーに対し、OpenAIはGPT-5.6の一般公開発表前にGPT-5.5を廃止する計画は現時点ではないと確約している。

■注目ポイントQ&A

●GPT-5.6 Solはいつ一般向けに公開されますか?

OpenAIは一般公開の具体的な日程を明らかにしていません。同社は、米国政府と調整したプレビュー期間の結果を待って、今後数週間以内にChatGPT、Codex、およびAPIを通じてSol、Terra、Lunaをより広く提供する計画であると説明しています。プレビュー期間中、個人の一般ユーザーは申請できず、公開ウェイトリストも用意されていません。

●なぜ米国政府がGPT-5.6へのアクセスを制限しているのですか?

GPT-5.6 SolがOpenAIの内部サイバー攻撃テストで96.7%の成功率を記録し、同社の「Preparedness Framework(安全準備枠組み)」において「High(高)」のサイバーセキュリティリスク基準に達したためです。これは、より小型で高速なティアを含むモデルファミリー全体がこの基準に達した初の事例です。ホワイトハウスの国家サイバー長官オフィスと科学技術政策局は、高度なサイバー能力を持つ最先端AIモデルの正式な評価プロセスを構築する間、初期アクセスを政府承認 of パートナーに限定するようOpenAIに要請しました。

●GPT-5.6のSol、Terra、Lunaの違いは何ですか?

Solは、複雑なコーディングや長期的なサイバーセキュリティ研究、自律的なエージェント型ワークフローなどの最も困難な課題向けに設計されたフラッグシップモデルです。Terraは、GPT-5.5と同等の性能を約半分のコストで提供し、大量のビジネスアプリケーションに適しています。Lunaは、要約や下書き作成、日常的な自動化向けの、最も高速で低価格なオプションです。これら3つのモデルはすべて、サイバーセキュリティリスクにおいてOpenAIの「High」基準を超えています。

●政府によるアクセス承認体制は、長期的にAI開発にどのような影響を与えますか?

OpenAI自身は、現在の政府による個別承認体制が長期的なデフォルトになるべきではないと述べています。しかし、2026年6月に輸出管理権限を用いてAnthropicの「Claude Fable 5」を世界中で強制停止させた事例は、政府がクラウド提供のソフトウェアに対しても、物理的な物資や兵器向けの法的メカニズムを用いてアクセスを制限できるという先例を作りました。2026年8月に予定されている政府の正式なAI能力評価プロセスの確立が、今後の規制が場当たり的なものに留まるか、構造的な規制体制に移行するかの節目になるとみられます。

元記事: GPT-5.6 Sol Launches Under Government Lock: Cyber Risk Sets New Access Precedent

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事