Cloudflare、AIクローラーを用途別に3分類して制御可能に――直接課金ゲートウェイのウェイティングリストも公開

2026年7月4日 07:15

記事提供元：Tech Times

(Growtika/Unsplash)

Cloudflareは2026年7月1日、従来のシンプルなAIボット一括ブロック機能を刷新し、用途に応じた3つのカテゴリで個別に制御できる新しい管理パネルを公開した。さらに、Webサイト運営者がAIエージェントに対してコンテンツアクセスへの直接課金を可能にする「Monetization Gateway」のウェイティングリストも公開。これにより、機械トラフィックからWebサイトが収益を得るための新たな仕組みが提供されることになる。

■一括ブロックがもたらした新たな課題

Cloudflareが2025年7月に提供を開始した「Content Independence Day」機能は、Webサイト運営者にAIクローラーの一括オン／オフスイッチを提供するものだった。同社のレポートデータによると、100万以上の顧客がこの機能を有効にし、活発なトレーニング用クローラーの1つである「Bytespider」のトラフィックが同社ネットワーク全体で71％以上減少するなど、測定可能な成果を上げた。

しかし、この単純な一括ブロックは新たな問題を引き起こした。トレーニング目的のスクレイパーを排除するルールが、AI搭載検索エンジンのインデックス作成ボットや、人間のユーザーに代わってページを取得するエージェント、さらにはパブリッシャーに正規の参照トラフィックをもたらすクローラーまで一律に排除してしまったのだ。

根本的な問題は、従来の設計におけるカテゴリ分類の誤りにあった。「AIボット」は単一の存在ではない。検索インデックスを作成するクローラー、ChatGPTで質問したユーザーのためにページを取得するエージェント、言語モデルのトレーニング用にデータを収集するスクレイパーは、それぞれ根本的に異なる機能を持ち、パブリッシャーのビジネスに与える影響も異なる。これらを同一に扱ったことで、Webサイト運営者は「コンテンツをロックダウンして発見可能性を失うか、すべてを開放して全員を受け入れるか」という、いわばファウストの契約を強いられていた。

■3つのカテゴリで個別の設定が可能に

「Content Independence Day 2」の目玉は、すべてのCloudflare顧客向けに提供が開始された新しいAIトラフィック管理インターフェースだ。パブリッシャーは単一のトグルスイッチの代わりに、以下の3つの異なるクローラーカテゴリに対して、個別に「許可」「ブロック」「広告ページでのブロック」のルールを設定できる。

1. 検索ボット（Search bots）：後から質問に答えるために、コンテンツを能動的に収集しインデックスを作成する。Cloudflareの枠組みでは、検索ボットを許可するパブリッシャーは、見返りとして参照トラフィックや何らかの報酬を期待できる。これは、クローラーがアクセスする代わりにユーザーが訪れるという、オープンなWebを支えてきた30年来の社会的契約に対応する。

2. エージェントボット（Agent bots）：特定のユーザーに代わってリアルタイムで動作する。ChatGPTにページを閲覧させている人や、タスクを完了するためにブラウザを操作しているGeminiなどがこれに該当する。特徴は即時性と人間の存在だ。トレーニング用ボットとは異なり、エージェントは通常、即座の応答を必要とし、モデルの構築ではなくユーザーの代理として行動する。

3. トレーニングボット（Training bots）：AIモデルのトレーニングや微調整のためにコンテンツを収集する。Cloudflareの定義では、その特徴は「永続性」にある。データはモデルのアーキテクチャに吸収され、モデルを賢くしたパブリッシャーに直接的な利益が還元されることはない。このカテゴリは、相互の価値交換がない一方的な価値抽出の典型例として、歴史的に最も懸念されてきた。

各カテゴリはサイトごとに設定でき、広告が掲載されているページではさらに制限を強化できる。Cloudflareは、広告掲載ページはサイト所有者が人間のアテンション（関心）を集めて収益化することを意図した場所であると主張している。

■ボットの実際の挙動をどのように分類するか

この新しいカテゴリシステムは、クローラーごとの自己申告によるIDチェックではなく、行動ベースの分類法に基づいている。この分類を支えるのが、追跡されたすべてのボットを検索できる同社の新しいディレクトリ「BotBase」だ。Cloudflareのボット分類は、世界330都市で毎秒5,700万件以上のリクエストを処理するグローバルな機械学習モデルに依存しており、ボット運営者が使用するツールやフレームワークからフィンガープリントを構築する。ボットの分類は、単に誰が送信したかではなく、サイト上で何を行っているかを反映する。

Enterprise Bot Managementの顧客が利用できるBotBaseの完全な分類は、ユーザーが設定可能な3つのカテゴリを超え、合計11の行動（検索、エージェント、トレーニング、トランザクション、データ収集、セキュリティテスト、SEO、広告検証、ソーシャル/リンクプレビュー、フィード取得、監視・運用）に及ぶ。エンタープライズ顧客は、特定のボットでトラフィックをフィルタリングし、検出IDをセキュリティルールに直接コピーして、各ボットの完全な行動プロファイルを確認できる。Cloudflareは、BotBaseを今年後半に、顧客サイト上の既知の自動化コンテンツを直接制御するセンターへと拡張する予定だとしている。

また、同じくエンタープライズ顧客向けに提供される新しい「Attribution Business Insights」ダッシュボードは、各クローラーがパブリッシャーに実際にどれだけの価値を還元しているか（参照トラフィック量、商業的意図のシグナル、クローリングと参照の比率など）を可視化し、サイト所有者がライセンス交渉に臨むためのデータを提供する。Cloudflareのデータによると、全クローラー活動の36％は、検索機能とトレーニング機能を1つのボットに統合した「複合用途クローラー」によって駆動されている。この統合こそが、新しいデフォルト設定における最大の複雑さの要因となっている。

■9月15日の期限：板挟みになるGooglebot

2026年9月15日（火）以降、Cloudflareに新規登録されるすべてのドメインでは、検索ボットのアクセスは許可される一方、広告が掲載されているページでのトレーニングボットとエージェントボットのアクセスがデフォルトでブロックされる。既存の顧客には事前通知が送られ、その日付より前であればいつでもゾーンのセキュリティ設定から新しいデフォルト設定をオプトアウトできる。

9月15日の変更でより大きな影響を与えるのは、多目的クローラーの扱いだ。検索機能とトレーニング機能を併せ持つクローラーは、適用される最も制限の厳しいルールに従って処理される。新しいデフォルト設定の下では、検索インデックス作成とAIトレーニングの両方を単一のボットで行う「Googlebot」「Applebot」「BingBot」は、新しいコントロールまたは従来の「AIボットのブロック」設定を通じてトレーニングボットのブロックを有効にしている顧客の広告収益化ページにおいて、すべてブロックされることになる。

これは、Googleなどの大手検索プロバイダーが独立系AI企業に対して保持してきた構造上の優位性に対する直接的な挑戦となる。GoogleのGooglebotは検索とAIの両方の目的で同時にクローリングを行うため、Webサイトは検索結果から消えることなしにAIトレーニングをオプトアウトすることができなかった。Cloudflareはブログポストで、「既存の検索プロバイダー」はこの抱き合わせによって「不当に有利な立場にある」とし、混合ボットをブロックすることは「競争上のギャップを埋めようとする新規参入者が（検出を）回避しようとする動機を抑えることになる」と述べている。

Googleはこの見方に反論している。同社はかねてより、robots.txtにおいてGoogle検索への掲載に影響を与えない個別のAIオプトアウト指示として「Google-Extended」を提供していると主張してきた。しかし、米TechCrunchが指摘するように、その分離には限界がある。Google-Extendedをブロックしているパブリッシャーであっても、そのコンテンツが「AI Overviews（AIによる概要）」に表示されることがある。なぜなら、AI OverviewsはGooglebotが検索用にインデックスしたコンテンツを利用しているからだ。この分離はオプトアウトベースの推奨事項にすぎず、構造的または検証されたものではない。

Cloudflareの目標は構造的な変革だ。クローラー運営者が行動ごとに個別のボットを実行するように仕向けることで、Webサイト所有者が特定のクローラーが訪れる理由を把握し、どの機能を許可するかについて十分な情報に基づいた意思決定を行えるようにしたいと考えている。Google、Apple、Microsoftがこの基準に準拠するために自発的にクローラーを分離するかどうかは未解決の課題であり、CloudflareのCEOであるマシュー・プリンス氏は、これが新しいカテゴリシステムが真の選択肢となるか、あるいは強制的なトレードオフが続くかを決定づけると述べている。Cloudflareは、現在全活動の3分の1を占める複合用途クローラーのトラフィックを、2027年中頃までにゼロにすることを目指して取り組むとしている。

■なぜ今、ボットへの直接課金が可能になるのか

今回の発表でアーキテクチャ上最も重要なのは、カテゴリ制御ではなく、パブリッシャーがボットをブロックするだけでなく課金できるようにするインフラ「Monetization Gateway」のウェイティングリスト公開だ。これが2026年に実現可能となった理由を理解するには、プロトコルの歴史を少し振り返る必要がある。

HTTP 402「Payment Required（支払いが必要）」は、1997年からWebの技術仕様に存在しており、将来のマイクロペイメント（超少額決済）層のためのプレースホルダーとして含まれていた。しかし、33年間使われることなく休眠状態にあり、開発者からは「時間に忘れられたHTTPステータスコード」とさえ呼ばれていた。これが使われなかった技術的な理由は、想像力の欠如ではなく、人間の心理にあった。人間のユーザーを中心に設計されたWebにおいて、ページを読み込むたびに支払いを承認するよう求めるのは現実的ではない。その摩擦（手間）が大きすぎるからだ。

AIエージェントはこの摩擦を完全に排除する。エージェントはプログラムによって402応答を承認し、指定された金額を1秒未満で支払い、暗号技術による支払い証明を添えてリクエストを再試行することができる。これらすべてが人間の介入なしに行われる。人間にとっては不実用的だった取引が、機械にとっては日常的な処理となるのだ。

これこそが、Monetization Gatewayが活用する具体的なメカニズムだ。AIエージェントや開発者のスクリプト、自律システムなどのクライアントが保護されたリソースを要求すると、Cloudflareのエッジネットワークは、機械読み取り可能なJSON形式の価格マニフェストを含むHTTP 402応答を返す。これには、USDCステーブルコインでの価格、対応するブロックチェーン（ローンチ時はBaseまたはSolana）、送信先ウォレットアドレス、支払いのタイムアウトが含まれる。クライアントはオンチェーンで支払いを行い、その暗号決済証明を次のリクエストに添付してリソースを受け取る。このフロー全体が標準的なHTTP内で完結する。決済ページも、アカウント作成も、事前の関係構築も不要だ。支払いの検証と執行はCloudflareのエッジで行われるため、オリジンサーバーが大量の決済処理の負荷に直接さらされることはない。

このプロトコルを支えるのは、Coinbaseが2026年4月にLinux Foundationに寄贈したオープン標準「x402」だ。Cloudflare、Stripe、Amazon Web Services（AWS）、Google、Microsoft、Visaなどが創設メンバーおよび支持メンバーとして名を連ねている。AWSは6月15日に同様のプロトコルをCloudFrontに統合しており、インターネットインフラの4分の1を支えるパブリッシャーに同様のリクエスト課金オプションを提供している。CoinbaseのCEOであるブライアン・アームストロング氏によると、x402は過去1年間で、すでに1億6,000万件の自律的な取引を処理したという。

CloudflareのMonetization Gatewayは、ルートごとの価格設定、計算負荷の高いタスクに対する変動料金、未認証の呼び出し元のみに適用されるポリシーなどをサポートし、パブリッシャーに固定価格のトグルではなく、柔軟な料金設定APIを提供する。ローンチ時、支払いはステーブルコインで決済される。Cloudflareは1秒未満での決済を目指しており、販売者はウォレットで直接資金を受け取るか、法定通貨に変換することができるとしている。

■問題の実際の規模

これらのポリシー変更は、過去1年間で加速したパブリッシャーの経済状況の悪化に対応するものだ。Cloudflareのレポートによると、現在人々がオンラインで情報を検索する時間のうち、オープンなWebに費やされるのは1時間あたりわずか15分にすぎず、残りはAI検索や直接的なモデルへのクエリ、エージェントを介したアクセスに費やされている。これらは、情報を生み出したソースにユーザーを誘導することなく情報を取得している。

2025年6月にCloudflareのネットワーク全体で測定されたOpenAIの「クローリング対参照」の比率は、パブリッシャーへの1回の訪問（アクセス還元）に対して1,700ページがクローリングされるというものだった。Anthropicの比率は73,000対1に達していた。2023年以降、50以上のパブリッシャーとAI企業の間でライセンス契約が締結されているが、業界関係者は現在、AIシステムがユーザーをどこにも送らずにクエリに完全に回答できるようになることで、検索からの参照トラフィックが事実上ゼロになるシナリオを「Google Zero」と呼び、仮説ではなく現実的なものとして扱うようになっている。

パブリッシャーは構造的な罠に直面している。Cloudflareの対策以前に唯一無料で利用できたツールであるrobots.txtを介したトレーニング用クローラーのブロックは、発見可能性において実質的なコストを伴う。複数の業界情報源が引用した調査によると、robots.txtでAIクローラーをブロックしたパブリッシャーは、月間訪問数が約23％減少した一方で、AIが生成する回答に自社のコンテンツが表示される頻度には対応する減少が見られなかった。1994年に開発されたrobots.txt規格は、自主的なシグナルを尊重する「礼儀正しい」ボットが存在するWebを想定して設計されたものだ。独立した研究によると、AIクローラーは3週間の期間中に1サイトあたり平均156回robots.txtに違反しており、2026年初頭の時点で約13％のボットがこれを完全に無視していることが分かっている。

Cloudflareのエッジネットワークによる強制力は、ブロックを単なる推奨事項ではなく技術的に有効なものにすることで、この構図を変化させる。robots.txtで表明された意図は、クローリングボットがそれを尊重することを選択して初めて意味を持つが、ネットワーク層で強制されるブロックは、ボットの意図に関係なく効果を発揮する。

■「検証済みボット」ステータスの再定義

カテゴリ制御と並行して、Cloudflareは「検証済み（Verified）」ボットステータスの意味を更新している。従来、検証済みボットはデフォルトで許可されており、Cloudflareの検証プロセスを信頼するサイト所有者の元には、これらのボットが自動的に通過していた。新しいシステムでは、検証済みとは単に「許可することが可能である」ことを意味し、実際にアクセスできるかどうかは関連するカテゴリ設定によって決定される。

この変更により、検証済みステータス自体のハードルは下がる一方で、それを失った場合の代償は大きくなる。宣言されたコンテンツ利用レベルに違反したボット（例えば、参照用のインデックス作成のみを行うと主張しながら、コンテンツを丸ごと複製する場合など）は、検証済みステータスを失い、その指定に依存して許可リストを運用しているすべてのサイトへのアクセス権を失うことになる。Cloudflareはブログポストで、「Webドメインの20％以上で信頼されたステータスを失うことは、強力な抑止力になる」と述べている。

これをサポートするため、Cloudflareはrobots.txtにおける「Content Signals」規格を拡張し、4つ目のオプションフィールドとして「use（用途）」を追加する。許可される3つの値は、最も制限の厳しいものから順に「immediate（対話し、何も保存しない）」「reference（インデックスを作成し、抜粋し、リンクを返す。Cloudflareが管理するrobots.txtの新しいデフォルト）」「full（要約し、複製する）」となっている。参照用途を主張しながらコンテンツを丸ごと複製するボット運営者は、BotBaseの追跡により、その挙動において検証済みステータスを失うことになる。この拡張規格自体は決済を強制したりアクセスをブロックしたりすることはできないが、Cloudflareのエッジ強制力と組み合わせることで、意図の表明、行動追跡、アクセス制御が一体となったシステムを構築する。

また、CloudflareはRFC 7239の「Forwarded」HTTPヘッダーに基づく「推移的信頼（transitive trust）」フレームワークも提案している。Webサイト所有者が「この運営者を許可する」と設定すると、その設定は中間層を越えて元の運営者に追随する。これにより、サイトの入り口にいるエージェントが、ツールを開発した企業によって直接実行されているのではなく、その企業のツールを週末のプロジェクトに組み込んだサードパーティの開発者によって実行されているという、ますます一般的になっている問題が解決される。ヘッダーは元の運営者の身元と宣言されたコンテンツ利用レベルを伝達するため、プロキシチェーン全体で信頼をポータブルかつ取り消し可能にできる。

■Cloudflareに権力が集中しすぎる懸念も

Internet Governance Projectの研究者は、Cloudflareの役割が拡大していることに対して、構造的な懸念を提起している。同社は現在、執行者と市場運営者の両方の立場に座っている。同組織が2025年に発表した分析で指摘しているように、「執行者と市場運営者の両方としてのCloudflareの立場は、中立性と市場支配力に関する疑問を生じさせる」。世界のWebドメインの20％以上の前面に位置しながら、それらのドメインへのアクセスに関する決済レール、分類システム、検証フレームワークを運営することは、10年前にアドテック分野で独占禁止法の監視を招いたような構造的なポジションである。

Cloudflareのインフラが形成を支援しているコンテンツライセンス市場について、ブルッキングス研究所は「現在確立されつつある取引構造、価格の先例、仲介手数料率、ガバナンス規範は、一度正常化されると排除することが困難になる」と指摘している。また、リクエストごとのコンテンツ料金を支払う余裕のない小規模なAI企業が、Webの最も価値あるコンテンツへのアクセスから締め出される一方で、大規模なプレイヤーはコストを日常的な運営費として吸収できるようになるという懸念も批判派から上がっている。

これに対するCloudflareの回答は、x402 Foundationのガバナンス構造に組み込まれており、基礎となる決済プロトコルは中立的なLinux Foundationの管理下にあるオープン標準であるというものだ。これは、特定の企業が所有することなく、SSL/TLSを普遍的な暗号化層にしたのと同じモデルである。オープンなプロトコルと単一企業の執行インフラの組み合わせが、真にオープンな市場を生み出すかどうかは、今後の動向が注目される。

■Webサイト運営者が今すべきこと

検索、エージェント、トレーニングボット向けの新しいカテゴリ制御は現在すでに利用可能であり、すべての既存顧客がゾーンのセキュリティ設定で構成できる。Monetization Gatewayのウェイティングリストはcloudflare.comで公開されているが、Cloudflareは製品自体の価格設定やローンチのタイムラインをまだ公表していない。

昨年提供された「AIボットのブロック」トグルを有効にしていた既存顧客は、9月15日までに設定を確認する必要がある。新しい多目的クローラーのルールが適用されると、そのレガシー設定によって、広告が掲載されているページでGooglebot、Applebot、BingBotがブロックされることになる。これは、一部の顧客にとっては望ましい結果かもしれないが、そうではない顧客もいるだろう。検索機能も担う複合用途クローラーに対して現状を維持したい顧客は、9月15日の期限までにセキュリティ設定でその意図を明示し、新しいデフォルト設定をオプトアウトする必要がある。Cloudflareは、期日が近づくにつれて顧客への通知を継続するとしている。

Cloudflareが描く大まかな方向性は、Webの経済モデルが「広告主が資金を提供する人間のアテンション」から「利用ベースの機械による支払い」へと移行するというものだ。同社は、この移行がオリジナルコンテンツを作成するパブリッシャーや透明性をもって運営するAI企業に利益をもたらす一方、説明責任を回避するために機能を混在させる企業にとっては厳しい環境を作り出すと考えている。この移行がより健全なオープンWebを生み出すか、あるいはさらなる集中を招くかは、最大手の複合用途クローラー運営者がボットを分離することを選択するかどうか、そして米国や英国の規制当局が、現在バンドルされた検索・トレーニング用クローラーが提供している構造上の優位性に対してどのような措置を取るかに一部かかっている。

■注目ポイントQ&A

●Cloudflareの新しいシステムにおける、検索ボット、エージェントボット、トレーニングボットの違いは何ですか？

Cloudflareの新しい分類法では、ボットを送信元だけでなく、アクセス後のコンテンツの扱い方によって区別します。「検索ボット」は、後からクエリに答えるためにサイトを能動的にインデックスし、パブリッシャーには参照トラフィックが還元されることが期待されます。「エージェントボット」は、ChatGPTにページを閲覧させているユーザーなど、人間の代理としてリアルタイムで動作します。「トレーニングボット」は、AIモデルのトレーニングや微調整のためにコンテンツを収集し、データをモデルに永続的に吸収させますが、パブリッシャーへの直接的な利益還元はありません。これらのカテゴリは、サイトごと、またはページごとに個別に許可・ブロックを設定できます。

●以前は技術的に不可能だった「HTTPリクエストごとのAIエージェントへの課金」が、なぜ今可能になったのですか？

HTTP 402「Payment Required」は1997年から仕様に存在していましたが、人間がページを読み込むたびに支払いを承認するのは手間がかかりすぎるため、33年間使われていませんでした。しかし、AIエージェントの登場によりこれが変わりました。エージェントはプログラムによって402応答を自動で受け入れ、ステーブルコインで指定額を支払い、暗号技術による支払い証明を添えて1秒未満でリクエストを再試行できます。CloudflareのMonetization Gatewayが採用している「x402」プロトコルは、このHTTP 402を実用化するものであり、Webトラフィックの主流が人間からエージェントに移行したことで初めて実現可能となりました。

●トレーニングボットのブロックを有効にすると、Google検索への掲載に影響しますか？

影響を与える可能性があります。GoogleのGooglebotは、検索インデックス作成とAIトレーニングを1つのボットで同時に行っています。2026年9月15日以降、トレーニングボットのブロックを有効にしている場合（従来の「AIボットのブロック」トグルを含む）、Cloudflareは最も制限の厳しいルールを適用するため、広告掲載ページでGooglebotもブロックされます。Googleはrobots.txtでAI利用のみを拒否できる「Google-Extended」を提供していますが、これを使用しても「AI Overviews」への表示は防げません。Googlebotへの影響を避けたい場合は、9月15日までにセキュリティ設定から新しいデフォルト設定をオプトアウトする必要があります。

●Cloudflare Monetization Gatewayとは何ですか？現在利用できますか？

Monetization Gatewayは、Webサイト運営者がアカウント作成や決済ページを挟むことなく、AIエージェントやAPI呼び出し元に対してコンテンツやデータへのアクセス料金を直接請求できるインフラです。決済はオープンプロトコル「x402」を介してステーブルコインで行われます。2026年7月1日にウェイティングリストが公開されましたが、正式なローンチ日や価格体系はまだ発表されていません。なお、AWSも6月15日に同様の機能をCloudFront向けに提供開始しています。

元記事: Cloudflare Separates AI Crawlers by Purpose and Opens Door to Charging Them Directly

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

スポンサードリンク