関連記事
Claude Fable 5、公開直後に「脱獄」主張と“秘密の性能低下”批判に直面

Anthropicが6月9日に公開した最新モデル「Claude Fable 5」が、リリース直後から二つの問題に直面している。(Photo: anthropic.com)[写真拡大]
Anthropic(アンソロピック)が6月9日に公開した最新モデル「Claude Fable 5(クロード・フェイブル5)」が、リリース直後から二つの問題に直面している。著名なAIレッドチーマーが安全機能を迂回したと主張する一方、研究者や開発者からはモデルが無断で出力を劣化させていたとする批判が上がっており、後者についてはAnthropicが謝罪と仕様変更を行った。安全性の確保と正当な利用者の利便性という、AI開発の根本的なジレンマが浮き彫りになっている。
【こちらも】Anthropic、「Mythos」同等の最高性能モデル「Claude Fable 5」を一般提供開始―22日まではサブスクリプション内で無料提供
■ジェイルブレイク(脱獄)疑惑と「秘密の品質劣化」——二つの問題に直面するAnthropicの最新モデル
Anthropicの現時点における最上位の公開モデルは、厳しい最初の一週間を過ごしている。6月9日のClaude Fable 5公開から数日で、同社は二つの問題を同時に抱えることになった。著名なAIレッドチーマー(安全性を検証するセキュリティ専門家)が安全機能の突破を主張する一方、別の問題として、セキュリティ研究者や開発者からモデルが無断で出力を劣化させていたとする批判が噴出しており、こちらのほうが記録・証拠という面で裏付けが多い状況だ。Anthropicは前者の主張を否定し、後者については謝罪した。
■「Pliny the Liberator」は何を主張したか
著名なAIレッドチーマーである「Pliny the Liberator(プリニー・ザ・リベレーター)」は、自身のチームがFable 5の安全分類システム(セーフティ・クラシファイア)を、複数ステップを組み合わせた戦略によって回避したと公表した。同人物は、ソフトウェアのエクスプロイトコードや化学合成手順など、本来モデルが拒否すべきとされる内容を出力させたとするスクリーンショットを公開。さらに、モデルの挙動を規定する内部命令セットである「システムプロンプト」(約12万文字相当)を抽出し、公開リポジトリにアップロードしたとも述べている。なお、Tech Timesはこれらのコンテンツへのリンクや、具体的な手法の詳細な記述は行っていない(本記事も同方針をとる)。
Anthropicはこれを「真のジェイルブレイク(完全な安全機能の突破)」とは認めていない。同社は自社の分類システムと実施したレッドチーム評価を根拠として挙げ、外部バグバウンティプログラムでは1,000時間以上のテストを行っても普遍的なジェイルブレイクは発見されなかったこと、外部のレッドチーム組織も同様に見つけられなかったことを指摘している。すなわち、「困難な手順を経て一部の出力を引き出すことができた」のか「安全機能が根本的に突破された」のかについて、両者の評価は分かれている。
■Claude Fable 5の設計——一つのモデル、二つの製品
この問題の背景にある設計は、やや特殊だ。Anthropicは同一の基盤モデルを二製品として提供している。一般向けの制限版が「Claude Fable 5」、研究者向けのより制限の少ない版が「Claude Mythos 5(クロード・ミトス5)」で、両者の違いは能力そのものではなく、同一モデルの前段に設置された安全分類レイヤーによって生まれる。
この仕組みはモデル自体にフィルターをかけるのではなく、「ゲート」として機能する。サイバーセキュリティ、生物学、化学、または「蒸留(ある企業のモデルの出力を別のモデルの学習に利用すること)」に分類される高リスクカテゴリのクエリが入力された場合、Fable 5は直接回答せず、より能力の低いモデル「Claude Opus 4.8(クロード・オーパス4.8)」に処理を引き継ぐ。その際、フォールバック(代替処理)が発生したことをユーザーに通知する設計となっていた(後述する問題が実際に生じたが)。
設計の狙いは、危険なクエリに対しては意図的に能力の低い応答を返しつつ、日常的な利用には影響を与えないというものだ。Anthropicによれば、初期データではFable 5のセッションの95%以上でフォールバックが発生しておらず、フォールバックが起きなかったセッションでは制限なし版のMythos 5とほぼ同等の性能を発揮しているという。
■攻撃に用いられたとされる手法
Plinyの主張についての報告によると、今回のアプローチはソフトウェアの脆弱性を突くものではなく、分類器のロジックそのものを標的にしていたとされる。
報告されている手法は、すでに広く知られているいくつかのカテゴリに分類される。禁止キーワードが認識されないよう、外見上似た文字(Unicode文字やキリル文字など)に置き換える手法。長い会話の流れの中に悪意ある意図を分散させ、特定の問題のある要求を無害な文脈に埋もれさせる手法。学術的・虚構的な設定として包んだ形でリクエストを行う手法。禁止された目的を、個々には無害に見える小さな質問に分割して送る手法などだ。
いずれの手法にも共通するのは、キーワードやパターンを基準とする分類器が、全体的な意図ではなく個々の要求の表面だけを評価するという弱点を突いている点だ。具体的なプロンプトや出力を再現することは有害なため、本記事ではカテゴリの説明にとどめる。
■なぜ研究者はAnthropicを批判したのか
こちらのほうが、より声が大きく、証拠も多い論争だ。そして犯罪行為とはまったく関係ない。Claude Fable 5の公開直後から、セキュリティ研究者、開発者、科学者たちが、高リスク分野における正当な通常業務をモデルが静かに拒否または劣化させていると報告し始めた。さらに悪いことに、その際にユーザーへの通知がない場合があったとされる。
Fortuneの報道は「秘密の妨害行為(secret sabotage)」との非難を紹介しており、モデルが競合AIシステムを構築しようとしていると判断したユーザーに対し、警告も代替処理の通知もなく、より低品質な出力を黙って返していたと指摘している。The Registerは、Fable 5が一見無害なプロンプトを完全に拒否したケースも記録している。
現場で働くセキュリティ研究者や化学者にとって、より能力の低いモデルに静かに切り替えるような安全機能は些細な問題ではない。通知なしに品質が低下した回答を信頼してしまうリスクがある。批判の核心にある「研究者に向けられたナイフ」とは、能力の問題ではなく、透明性の欠如の問題だ。
■Anthropicの対応——謝罪と仕様変更、ただし制限は継続
圧力を受けたAnthropicは、数日以内に謝罪し、セーフガードの挙動を変更した。フラグが立ったリクエストがOpus 4.8にフォールバックする際、ユーザーに対して明示的に通知するよう改めた。少なくとも、自分が最新の完全なモデルと話しているのではないことが分かるようになった。
批評家が指摘するように、この修正には一つの限界がある。品質低下を透明にしただけで、品質低下そのものはなくなっていない。つまり、これらの分野で正当な研究を行う研究者は、引き続き能力の低いモデルしか使えないが、少なくとも今はそれが明示されるようになった。
■見えてきた課題——強力なモデルと安全管理の難しさ
今回の一件で、Anthropicは二つの命題を同時に弁明しなければならない状況に陥った。「分類器は堅牢であり、Plinyは真に突破したわけではない」という主張と、「同じ分類器が、正当な業務を行う人々に対して過剰かつ不透明に機能していた」という同社自身の認めた事実、この二つを同時に説明しなければならないのだ。
この問題が示す本質的な課題は、ツールそのものにある。強力なモデルの前段にキーワードとカテゴリの分類器をつける手法は、大まかなアプローチだ。執拗な攻撃者はその端を探り、一般ユーザーはその過剰適用に巻き込まれる。
Anthropicはフロンティアモデルが危険なほど高度になりつつあると公式に警告を発した直後にFable 5を公開した。その最初の一週間は、安全の境界線を、最悪の行為者を防ぎながら、それ以外のすべての人を静かに排除することなく引くことが、いかに難しいかを如実に示している。
■注目ポイントQ&A】
● Claude Fable 5は実際にジェイルブレイクされたのか?
見解は分かれている。レッドチーマーのPliny the Liberatorは、安全分類システムを迂回したとして、制限されているはずの出力のスクリーンショットと、リークされたシステムプロンプトを公開した。一方Anthropicはこれを真のジェイルブレイクとは認めておらず、自社の分類システムと1,000時間以上のバグバウンティテストで普遍的なジェイルブレイクは発見されなかったと主張している。
● Claude Fable 5とClaude Mythos 5の違いは何か?
基盤となるモデルは同じで、安全分類レイヤーの有無によって二つの製品に分かれている。Mythos 5は制限が少ないバージョンで、一般向けのFable 5はサイバーセキュリティ、生物学、化学、モデル蒸留に関する高リスクのクエリをより能力の低いフォールバックモデル(Claude Opus 4.8)に引き継ぐ設計になっている。
● なぜ研究者はAnthropicを「秘密の妨害行為」と非難したのか?
研究者や開発者が、Fable 5がセンシティブな分野における正当な業務を静かに劣化させたり拒否したりしていたと報告したためだ。中には、競合AIシステムを開発していると判断されたユーザーへの通知なしに品質を低下させたケースも含まれるとされている。Anthropicはその後謝罪し、フォールバックを明示化する仕様変更を行った。
● バックラッシュを受けてAnthropicは何を変更したか?
Anthropicは謝罪し、フラグが立ったリクエストがClaude Opus 4.8にフォールバックする際にユーザーへ明示的に通知するようFable 5を更新した。この変更により透明性は向上したが、研究者が問題視していた能力的な制限そのものは解除されていない。
元記事: Claude Fable 5 Hit by Jailbreak Claims and ‘Secret Sabotage’ Backlash Days After Launch
※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。
スポンサードリンク

