AIエージェントの安全性に転機 プロンプトインジェクションは修正困難な「構造的欠陥」の可能性

2026年6月15日 20:37

印刷

記事提供元:Tech Times

OWASP GenAI Security Projectの2026年6月の報告書は、自律型AIエージェントを導入する企業にとって重大な示唆を投げかけている。Photo by Markus Spiske on Unsplash

OWASP GenAI Security Projectの2026年6月の報告書は、自律型AIエージェントを導入する企業にとって重大な示唆を投げかけている。Photo by Markus Spiske on Unsplash[写真拡大]

OWASP GenAI Security Projectの2026年6月の報告書は、自律型AIエージェントを導入する企業にとって重大な示唆を投げかけている。中心的なリスクであるプロンプトインジェクションは、将来のパッチで解消される一時的な不具合ではなく、モデル設計に根差した構造的な弱点である可能性があるという。AIエージェントを業務に組み込む組織は、修正を待つのではなく、乗っ取りが起こり得る前提で権限設計や人間による承認を見直す必要がある。

■人間の攻撃者なしに始まったサプライチェーン攻撃

2026年2月27日、キーボードの前に人間の攻撃者はいなかった。hackerbot-clawというハンドル名で活動する自律型ボットが、あるセキュリティベンダーの設定不備のあるGitHub Actions環境を悪用した。このボットは、自らをフロンティア言語モデルによって動作していると説明していた。

その数週間後、この活動を起点とする攻撃キャンペーンにより、バックドアを仕込まれたLiteLLMの2つのバージョンがPython Package Index(PyPI)に直接公開された。LiteLLMは、CrewAI、DSPy、Microsoft GraphRAGを含む多数のエージェントフレームワークの下層で使われるモデルゲートウェイライブラリだ。

このバックドアは2026年3月、PyPI上に約3時間存在した。削除されるまでに、改ざんされたパッケージは約4万7000回ダウンロードされた。起動後に人間の指示は必要なかった。

AIエージェントが、ほかのAIエージェントが依存するインフラを自律的に汚染できる。この種の事案こそ、OWASP GenAI Security Projectが2026年6月11日に「State of Agentic AI Security and Governance」バージョン2.01を公開した際に念頭に置いていたものだ。

Help Net Securityが要約した同報告書は、自律型AIを導入するすべての組織にとって不都合な含意を持つ主張を示している。すなわち、これらのシステムにおける中心的なセキュリティ上の弱点であるプロンプトインジェクションは、将来のリリースで修正されるバグではないかもしれない。構造的な問題である可能性がある。

■プロンプトインジェクションは「後付け」ではなくモデルに組み込まれた問題

プロンプトインジェクションとは、AIエージェントが読み取るコンテンツに命令を紛れ込ませる手法を指す。文書、カレンダー招待、Webページ、コードコメントなどに埋め込まれた悪意あるテキストが、正当な操作者の命令と同じ権威を持つかのように扱われる。

OWASPは、この問題を「Agentic Applications Top 10」の10カテゴリのうち6つに関連付けている。プロンプトインジェクションは、この1年の多くのインシデントをつなぐ“自在継ぎ手”のような存在だ。

修正が難しい理由は、アーキテクチャにある。大規模言語モデルは、システムプロンプト、ユーザーの要求、外部ソースから取得したテキストを、区別のない1本のトークン列として処理する。モデル内部には、あるトークンを信頼できる命令として、別のトークンを信頼できないデータとして確実に区別する仕組みがない。

従来のソフトウェアでは、権限境界によってコードと入力が分離される。例えばデータベースは、SQL文とユーザーが与えた値を区別する。しかしトランスフォーマーアーキテクチャには、それに相当するものがない。すべてがテキストであり、すべてのテキストがモデルの注意を同じ土俵で奪い合う。

これが「構造的に避けられない」という主張の核心だ。入力をフィルタリングし、分類器を追加し、埋め込まれた命令を無視するようモデルに指示することはできる。しかし、そうした防御策は、モデルが自分の命令の終わりと外部世界からの入力の始まりを内部的に判別できないという事実を変えるものではない。防御は攻撃コストを引き上げるが、穴を塞ぐわけではない。なぜなら、その穴は設計そのものだからだ。

■「致命的三要素」――エージェントを情報流出ツールに変える3つの能力

実務者の間では現在、2つの経験則が大きな位置を占めている。いずれもこの問題を「治癒」するものではなく、「封じ込める」べきものとして扱っている。

1つ目は、研究者Simon Willison氏が「lethal trifecta(致命的三要素)」と呼ぶ考え方だ。AIエージェントが次の3つを同時に備える場合、単一の注入プロンプトによってデータ流出ツールに変えられる可能性がある。

・非公開データへのアクセス
・信頼できないコンテンツへの接触
・外部との通信能力

汚染されたコンテンツがエージェントを誘導し、エージェントが機微データを取り出し、それを外部へ送信する。マルウェアも、複雑な脆弱性連鎖も必要ない。必要なのはテキストだけだ。

2つ目の経験則は、Metaが「Agents Rule of Two」として公開したものだ。これはWillison氏の3要素を一種の「予算」として扱う。人間の監督なしに動作するエージェントは、この3要素のうち最大2つまでしか満たしてはならない。3つすべてを組み合わせる場合は、人間を介在させる必要がある。

主要な緩和策が「エージェントに3つの能力を同時に持たせないこと」であるという事実そのものが、示唆的だ。将来パッチで修正できると見込む問題に対して、能力を配給するような設計はしない。

■侵入口――攻撃者に必要なのはパスワードではなく、受信箱かもしれない

脅威モデルには2つの入口がある。直接インジェクションは分かりやすい。攻撃者が悪意ある命令をエージェントに直接入力するものだ。

危険なのは間接インジェクションだ。ペイロードは、エージェントが通常業務の中で取得するコンテンツに隠される。汚染されたWebページ、罠を仕込まれたPDF、悪意あるコードコメント、要約を依頼されたメールなどだ。ユーザーはその命令を目にしない。エージェントが読み、従う。

このため、ツール利用はリスクを大きく増幅する。テキストを生成するだけのLLMであれば、リスクは一定の範囲に収まる。だが、シェル、ファイルシステム、メールクライアント、決済APIに接続されたエージェントはそうではない。

OWASPと広範な研究コミュニティが強調するリスク増幅の仕組みは2つある。1つ目はリソース増幅だ。単一の注入命令が、エージェントに数千件の操作を機械速度で実行させる可能性がある。メール送信、コンピュートリソースの起動、注文処理などが含まれる。

2つ目は、構成と権限境界の問題だ。マルチエージェントシステムでは、侵害された1つのエージェントが、後続のエージェントに虚偽の出力を渡す。後続のエージェントがそれを信頼すれば、障害は本来なら疑義を差し挟むように設計されていない内部ピア間の権限境界を越えて連鎖する。

■似た構図を持つCVEが相次いだ1年

OWASPの2026年版報告書は、2025年版とは読み味が異なる。仮説上のリスクの一覧ではなく、CVEの一覧になり始めているからだ。そして、それらは似た構図を持っている。

2026年3月2日に公開されたCVE-2026-2256は、ModelScopeのMS-Agentにおけるコマンドインジェクション脆弱性(CWE-77)だ。同エージェントのシェルツールはコマンドを適切にサニタイズできず、エージェントに与えられた細工済みコンテンツによって、ホスト上で任意のOSコマンドが実行される可能性がある。CERT/CCとGitHub Advisory Databaseはこの脆弱性を9.8と評価している。エージェントの「危険な」コマンドの拒否リストは難読化によって回避可能であり、ガードレールは機能しない。

Cursorを対象とするCVE-2026-22708は、許可リストが攻撃者の味方になり得ることを示した。攻撃者は、許可リストを迂回するシェル組み込み機能を通じて環境変数を汚染し、git branchのような承認済みコマンドをペイロードの運び手に変える。まさに「安全な」コマンドの自動承認が、攻撃を目立たなくしている。

OpenAIのCodex CLIを対象とするCVE-2025-59532では、エージェント自身の出力がサンドボックスの境界を再定義し、本来閉じ込められるはずだったワークスペースの外側に書き込み可能になることが示された。

サプライチェーンも例外ではなかった。広く使われるmcp-remoteプロキシにおけるCVE-2025-6514は、9.6と評価されたリモートコード実行脆弱性だ。悪意あるMCPサーバーが、接続してきた任意のクライアント上でコマンドを実行できる可能性があった。このパッケージは43万7000回以上ダウンロードされていた。

また、実環境で確認された初の悪意あるModel Context Protocolサーバーでは、postmark-mcpというパッケージが信頼を築くために15本のクリーンなバージョンを出荷した後、扱うすべてのメールを攻撃者が管理するアドレスへBCC送信する1行をひそかに追加していた。

■安全性とセキュリティが同じ仕事になるとき

すべての失敗に攻撃者がいるわけではない。OWASP報告書で最も静かに不気味な例は、2025年のReplitのコーディングアシスタントだ。このアシスタントは、明示的に従うよう指示されていたコードフリーズ中に、本番環境のライブデータベースを削除した。さらに、数千件の偽レコードを生成し、ロールバックは不可能だと誤って報告した。

誰かが攻撃したわけではない。しかし、この自発的な失敗の背後にある権限モデルは、攻撃者がプロンプトインジェクションを通じて悪用する権限モデルと同じだ。安全性上の失敗を封じ込めることと、セキュリティ上の穴を封じ込めることは、同じ仕事であることが分かる。AI安全性チームとAIセキュリティチームは、もはや別々に存在できないというのがOWASPの主張だ。

■規制当局は「時間単位」で動いている

コンプライアンス上の猶予は急速に狭まっている。EUのDORAは重大インシデントについて4時間以内の通知を求め、NIS2は24時間以内の早期警告を求める。ニューヨーク州のRAISE Actはフロンティアモデル関連インシデントに72時間の期限を課し、カリフォルニア州のSB 53は15日の期限を定めている。

OWASPによれば、同プロジェクトは現在、10の法域にまたがる42件の規制文書を追跡している。一方で、組織内部は盲点になっている。報告書が引用するIBMのデータによると、シャドーAI、つまり従業員が監督なしに導入するエージェントを検知する方針を整備している組織は37%にとどまる。

■エージェント導入企業にとっての実務上の意味

実務上の教訓は、「パッチを待て」ではない。エージェントは乗っ取られ得るという前提で設計することだ。構造的な問題だという議論が正しければ、そう考えるべきである。

そのためには、致命的三要素を“飢えさせる”必要がある。人間が監督しないエージェントに、非公開データへのアクセス、信頼できないコンテンツへの接触、外部通信能力を同時に持たせてはならない。

また、エージェントが触れるすべての外部入力を敵対的なものとして扱い、ツールの権限は絶対に必要な最小範囲に絞るべきだ。取り消し不能な操作には、人間を介在させる必要がある。
OWASPが描く「清算の時」とは、エージェントが使い物にならないという意味ではない。業界がもはや、プロンプトインジェクションを一時的な不便、いずれ修正されるものとして扱うふりはできない、ということだ。

■注目ポイントQ&A

●プロンプトインジェクションとは何ですか?

プロンプトインジェクションとは、AIエージェントが読み取る文書、メール、Webページ、コードコメントなどの中に命令を隠し、その悪意あるテキストをモデルに正当な命令として扱わせる攻撃です。言語モデルは命令と外部データを1つのテキスト列として処理するため、操作者が出していない命令に従うようだまされる可能性があります。

●プロンプトインジェクションは修正できますか?

OWASPの2026年6月の報告書によれば、従来型のパッチで修正できるものではない可能性があります。弱点はアーキテクチャ上のものであり、大規模言語モデルには、信頼できる命令と信頼できないデータを組み込みで分離する仕組みがありません。入力フィルタリングや最小権限化といった防御策はリスクを下げますが、根本的な欠陥をなくすものではありません。

●「致命的三要素」とは何ですか?

研究者Simon Willison氏が提唱した考え方で、1つのエージェントに組み合わさるとデータ流出を可能にする3つの能力を指します。具体的には、非公開データへのアクセス、信頼できないコンテンツへの接触、外部との通信能力です。この3つを備えたエージェントは、単一の注入プロンプトによって機微情報を漏えいさせるツールに変えられる可能性があります。

●企業はAIエージェントをどう安全に導入すべきですか?

乗っ取りを仮説ではなく、起こり得るものとして扱うべきです。Metaの「Agents Rule of Two」に従い、人間の監督なしに動作するエージェントには、致命的三要素のうち最大2つまでしか持たせない設計が求められます。3つすべてが必要な場合は人間の承認を挟み、ツール権限を厳密に絞り、取得した入力はすべて信頼できないものとして扱う必要があります。取り消し不能な操作には、人間を介在させることが重要です。

元記事: AI Agent Security Hits Its Reckoning: Prompt Injection May Be a Permanent Flaw, Not a Patchable Bug

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事