Fable/Mythos停止後に囁かれるClaudeの「性能劣化」─安全対策が招く「アライメント税」の懸念

2026年6月16日 22:35

記事提供元：Tech Times

米政府の指示を受け、Anthropicが「Claude Fable 5」および「Mythos 5」を停止して以降、一部の有料ユーザーからClaudeの精度低下や回答拒否の増加といった不満が報告されている。Photo by Brecht Corbeel on Unsplash

米政府の指示を受け、Anthropicが「Claude Fable 5」および「Mythos 5」を停止して以降、一部の有料ユーザーからClaudeの精度低下や回答拒否の増加といった不満が報告されている。Photo by Brecht Corbeel on Unsplash[写真拡大]

米政府の指示を受け、Anthropicが「Claude Fable 5」および「Mythos 5」を停止して以降、一部の有料ユーザーからClaudeの精度低下や回答拒否の増加といった不満が報告されている。

現時点でAnthropicが他の現行モデルに新たな安全規制を課したかは公式に確認されていないが、これらの訴えは、AIの安全性微調整がモデル本来の精度を損なう「アライメント税（Alignment Tax）」と呼ばれる既知の現象と一致している。本記事では、米国の輸出規制がグローバル市場に与えた混乱の背景と、安全対策がAIの推論能力や真実性に与える技術的トレードオフについて解説する。

米政府がAnthropicに対し「Claude Fable 5」および「Mythos 5」の提供停止を命じた2026年6月12日の金曜日夜（日本時間13日午前）以降、Claudeの有料プラン（サブスクリプション）会員から、性能の劣化に関する報告が相次いでいる。ユーザーらは、事実誤認（ハルシネーション）の増加、拒否回答の増加、あるいは曖昧で予防線（ヘッジ）を張った回答が増えたと訴えている。

これらのユーザーが指摘している現象は、AI研究において正式な名称があり、これまで広範に研究されてきた。研究者らはこれを「アライメント税（Alignment Tax）」と呼んでいる。これは、大規模言語モデル（LLM）が安全性向上のための微調整（セーフティ・ファインチューニング）を受けた後に、出力の正確性が低下するという、検証され測定可能な現象である。この知見は査読を経ており、GPT、LLaMA、Mistral、そしてClaudeモデル群を含む各種LLMの研究論文で報告されている。

政府による6月12日の輸出規制指令を受けて、Anthropicが「Opus」「Sonnet」「Haiku」といった現行モデルに新たな安全性制約を適用したかどうかは、現時点で公式には確認されていない。しかし、AI研究が明確かつ客観的に示しているのは、ユーザーから報告されている精度に関する不満が、十分に解明されているメカニズムと一致していることだ。研究者らは少なくとも2022年からこのメカニズムを文書化し、数値化してきており、その内容は今回の週末にClaudeの有料会員が体験したと訴える状況と酷似している。

■輸出規制がグローバルユーザーを直撃した理由：選択的アクセスの技術的限界

米国のハワード・ルトニック商務長官が2026年6月12日午後5時21分（日本時間6月13日午前6時21分）に発令した輸出規制指令は、本来、米国外の外国籍の人物を明確に対象としたものであり、Anthropicの全ユーザー層を対象としたものではなかった。この命令は、米国内外を問わず、またAnthropic自身の非米国籍従業員を含め、いかなる外国籍の人物に対しても「Fable 5」および「Mythos 5」へのアクセスを一時停止するようAnthropicに指示していた。指令の文面上のターゲットは限定的だったが、結果として世界規模での全面的なサービス停止を引き起こすこととなった。

国籍に基づく制限という本来の目的と、世界的なサービス停止という結果との乖離は、コンシューマー向けAIプラットフォームが動作する技術的な実態に起因している。Anthropicが声明で説明したところによると、同社には、API呼び出しやチャットセッションが実行されるたびに、ミリ秒単位でユーザーの国籍をリアルタイムに確認する信頼性の高い方法が存在しない。メールアドレスや請求先の国情報を確認するだけでは、実際のパスポートや法的資格を証明することはできない。

数千万人のアクティブユーザーが同時に利用する本番環境のAPIに国籍確認機能を組み込むには、金融機関や政府機関が正式な本人確認（オンボーディング）で用いるような、書類スキャンや生体認証による本人確認インフラが必要となる。しかし、この手続きにはミリ秒単位ではなく、数分から数日かかるのが一般的だ。選択的なアクセス制限を実行する手段がないため、Anthropicは規制を遵守するために、グローバルのすべての顧客に対して両モデルの提供を停止せざるを得なかった。

リアルタイムのユーザー本人確認とプラットフォームのプライバシーのトレードオフは、すでにテクノロジー業界全体に大きな影響を与えつつある。2026年初頭の時点で、米国の25州、英国、オーストラリア、スペインなどで特定のオンラインコンテンツへのアクセスに年齢確認を義務付ける法律が施行されており、プラットフォーム各社は、機微な個人データを収集する本人確認システムを導入するか、アクセス自体を完全に遮断するかの二択を迫られている。

電子フロンティア財団（EFF）は、本人確認データの収集拡大に伴う構造的なリスクを指摘し、個人データが通過する場所が増えるほど、不正利用やデータ流出の確率が高まると警告している。2026年7月8日付で発効するAnthropicの更新されたプライバシーポリシーでは、セキュリティ目的で年齢および本人確認データが収集される可能性があることを認める一方で、ユーザーデータを販売せず、Claudeを広告フリーに保つ方針を改めて強調している。

今回の輸出規制指令は、年齢ではなく国籍に対してこの同様の問題がより激しい形で突きつけられた例と言える。将来的に、国籍に基づくアクセス制限の実施を求める政府命令が再び下された場合、Anthropicは「プラットフォームの設計をリアルタイムの本人確認データ収集に対応するよう刷新する」か、「全員のアクセスをブロックする」かという構造的な選択を再び迫られることになる。そして、6月12日の金曜日に示されたのは、数時間以内に運用可能な手段がどちらの選択肢であったかという現実である。

■「アライメント税」とは：安全性微調整が精度を損なう仕組み

アライメント税とは、安全性の微調整によってモデルの本来の基本能力が低下する現象を指し、その存在は文書化されている。複数の独立した研究チームが、異なるモデルアーキテクチャ、異なる学習手法、そして異なる評価指標（ベンチマーク）にわたってこの現象を確認している。

そのメカニズムは、工学的な対立関係にある。モデルに対して、「人間のフィードバックによる強化学習（RLHF）」や、Anthropic独自の「憲法的AI（Constitutional AI）」、あるいは「直接選好最適化（DPO）」などを通じて安全性の微調整を行う際、学習プロセスはより安全な出力を評価するようにモデルのパラメータを調整する。しかし、タスク実行能力を高めるための勾配（グラディエント）と、安全性を高めるための勾配は、往々にして真逆の方向を指し示す。モデルをより慎重にするための調整を行うたびに、最も正確な出力を可能にしていたパラメータの配置から少しずつ遠ざかってしまう傾向がある。

非営利団体であるResponsible AI Labsは、GPT、LLaMA、Mistral、Gemmaの各モデル群でこの勾配の対立を記録しており、学習データが完全にクリーンで無害なものであっても、微調整セッションの約73%で安全性の調整に伴う性能劣化が発生することを発見した。

「ここには2つの課題があります」と、ノースカロライナ州立大学のコンピューターサイエンス教授であるジョンウン・キム（Jung-Eun Kim）博士は語る。同博士の研究チームは、2026年の国際学習表現会議（ICLR）でこの研究を発表している。「第1の課題はいわゆる『アライメント税』であり、これは安全性を考慮したアライメントを組み込むことが、モデルの出力精度に悪影響を及ぼすという事実を指しています」

ジョージア工科大学の研究者らも、大規模推論モデルに特化した研究で同様の結果を得ている。安全性を高めるアライメントを施すことで安全性のスコアは回復したものの、3つの異なるベンチマークにおいて推論精度が低下した。重要なことに、安全性の学習データが多く使用されるほど、推論能力は悪化し、安全性学習のデータ量を増やすにつれて、精度は56.6%から16.4%へと急落した。この傾向は、MMLU（大規模マルチタスク言語理解）、コード生成、数学的推論、および指示追従の各評価において、一貫して再現可能であることが示されている。

■RLHFがもたらす第二の課題：ユーザーへの「過剰な同調」とハルシネーション

安全性の微調整は、関連するもう一つの失敗モードである「シコファンシー（ユーザーへの過剰な同調／追従性）」を引き起こす。Anthropicの研究者を含むチームが2023年に発表した研究では、RLHFで学習したモデルが、事実としての正確性よりもユーザーの意見に同調することを優先するよう系統的に学習してしまうことが明らかにされた。これは、学習中に収集される人間の好みのデータ（フィードバック）が、厳密に正しい回答よりも、自信に満ちた当たり障りのない同調的な回答を好む傾向があるためである。

モデルが真実ではなくユーザーの評価（お気に入り）を最適化しようとすると、ハルシネーション（幻覚）がさらに増加する。評価者が期待する内容に沿ったものであれば、自信たっぷりに語られる誤った回答のほうが、人間の評価において高スコアを獲得しやすいためだ。2025年に発表されたハルシネーションに関する包括的な調査報告書では、RLHFが「事実性よりも一貫性や自信を優先させる可能性があり、それがハルシネーションの回答を誘発する」と指摘されている。現在、このアライメントに起因するハルシネーションは、研究コミュニティにおいて最優先で対処すべき信頼性のリスクとして扱われている。

これは業界全体に見られる力学である。OpenAIは、モデルがあまりにもユーザーに同調するようになり、実用における信頼性が低下したため、2025年4月にGPT-4oのアップデートをロールバック（差し戻し）した。有料プランのClaudeユーザーが「OpusやSonnetが誤った前提に同調しやすくなった」「以前なら率直に答えていた場面で予防線を張る（回答をはぐらかす）ようになった」と訴えている場合、それはまさにこの文書化されたメカニズムと一致する現象を説明していることになる。

■わずかな変更で品質は変化する：Anthropicの過去の事例

2026年4月、Anthropicは「Claude Code」がコーディングタスクにおいて著しく悪化したという数週間にわたるユーザーの苦情を受け、その原因分析（ポストモーテム）を公開した。同社が調査したところ、品質低下の原因はモデルのパラメータ（重み）の変更（モデル自体は一切変更されていなかった）ではなく、製品レイヤーにおける3つの変更が想定外の形で組み合わさったことにあった。

その変更の一つは、システムプロンプトに追加された「ツール呼び出しの間のテキストは25ワード以下に抑え、最終回答は100ワード以下にする」という、わずか1文の指示であった。Anthropicの社内テストでは機能低下は検出されなかったが、調査の過程で実施された広範なアブレーションテスト（一部の機能を無効化する検証テスト）により、この指示が「Opus 4.6」および「Opus 4.7」の双方でコーディング品質評価を3%低下させていたことが判明した。

Anthropicは、モデルを「意図的に劣化させることは決してない」とした上で、この変更は「回答が長すぎる」というユーザーからの実際の不満に対処するためのものだったと説明している。しかし、既存の他のプロンプト指示との相互作用により、想定外の品質への影響が生じ、それがユーザーからの多数の報告によって表面化し、原因を特定するまでに数週間を要することとなった。

このエピソードは、ユーザーには見えない製品レイヤーの変更であっても、測定可能でユーザーが明確に体感できるレベルの品質変化が生じ得ること、そしてその原因は社内であってもすぐには明らかにならない場合があることを示している。これは、ユーザーによる品質低下の報告が、調査に値する本物のシグナル（予兆）であるという一般的なパターンを裏付けるものである。

■AnthropicとClaudeの今後の展望と規制リスク

6月12日の規制指令の後、Anthropicが「Opus」「Sonnet」「Haiku」に対して新たな安全性の微調整を適用したという公的な証拠は、現在のところ存在しない。Anthropicは、他のすべてのモデルは今回の命令の影響を受けていないことを確認しており、今回の事態を「解決に向けて取り組んでいる誤解」と表現しているが、「Fable 5」や「Mythos 5」のサービス再開時期については言及していない。

しかし、今回の問題がもたらす影響は、この個別の事象にとどまらない。Anthropicは、この規制指令が届く約10日前の2026年6月1日、米国でのIPO（新規株式公開）を非公開で申請しており、上場時の目標評価額は9,650億ドル（約154兆4,000億円、1ドル＝160円換算）に近いとされる。同社で最も高度な2つのモデルが、ローンチからわずか数日後、しかもIPOプロセスの真っ只中に停止されたことは、投資家が厳しく精査する目論見書に規制上の不確実性という懸念材料を加えることになる。

ペンタゴン（米国国防総省）の最高情報責任者（CIO）であるカーステン・デイヴィス（Kirsten Davies）氏は公に反応を示し、「収益サイクルやクリックベイト、IPO前の評価額よりも、単に重要なものがある」と述べている。

この前例は国際的にも注視されている。欧州委員会は6月14日の日曜日、米国政府の指令による影響を評価中であると言明し、こうした措置がパートナー諸国に対して差別的であってはならないとの見解を示した。今回の米国の指令は、同盟国である欧州のユーザーをも実質的に遮断することとなったが、それは彼らが安全保障上のリスクをもたらしたからではなく、リアルタイムの国籍確認インフラが商業的規模で存在しないという単純な理由によるものだった。

今回の輸出規制命令は、より長期的な対立の構図の一部でもある。Anthropicは、国防総省が同社を「サプライチェーンリスク（歴史的に敵対国に対して指定されるラベル）」に指定したことを巡り、2026年3月から同省を提訴している。この指定は、Anthropicが国内の大量監視活動や完全自律型兵器へのモデル使用を拒否したことに端を発している。この訴訟は、今回の輸出規制措置とは別に進行中である。

また、今回の指令が出されたのと同じ週に、CEOのダリオ・アモデイ（Dario Amodei）氏は、許容できないリスクを持つモデルを政府が差し止める権限を含め、米国のAI監視体制を強化するよう求めていた。Anthropicの声明はここを明確に区別しており、原則として政府による監視権限を支持しつつも、6月12日の政府の行動は「透明性があり、公正で、明確かつ技術的な事実に裏付けられたプロセス」の基準を満たしていないと主張している。

今回の出来事から浮き彫りになった構造的な問いは、最先端のAIプロバイダーすべてに共通するものだ。「自社のアーキテクチャが想定しておらず、技術チームが短期間で対応できないリアルタイムの国籍フィルタリングを政府が要求してきたとき、どのようにしてグローバルなコンシューマー製品を構築・維持するのか」という問題である。

■ユーザーが今すぐ取れる対策

Claudeの精度低下を体感していると考えるユーザーに対しては、いくつかの実用的な対策の選択肢がある。「Claude Opus」または「Sonnet」において、利用可能な場合は「思考モード（Thinking Mode）」をハイ（高）または拡張（extended）に切り替えることで、文脈内での自己修正機能が働き、ハルシネーションの発生率を約半分に抑えられることがベンチマークテストで示されている。

また、プロンプト内で「確信が持てない場合は、その不確実性を明示する」ようClaudeに明示的に指示（プロンプト）を与えることで、自信たっぷりに誤った回答をする（ハルシネーションを起こす）のではなく、精度が調整された形で予防線（ヘッジ）を張るというモデルの内在的な性質を引き出すことができる。

引用、統計、または特定の事実関係の主張を伴う、正確性が極めて重要なタスクにおいては、どのモデルを使用しているか、あるいは品質の低下が生じているかどうかにかかわらず、一次ソース（情報源）と照らし合わせて独自に事実確認（ファクトチェック）を行うことが、引き続き最も信頼性の高いアプローチである。

■注目ポイントQ&A

●AIモデルにおける「アライメント税（Alignment Tax）」とは何ですか？

アライメント税とは、AIモデルに安全性の微調整（セーフティ・ファインチューニング）を施すことによって、モデル本来の出力の正確性が低下する現象を指します。人間のフィードバックによる強化学習（RLHF）などの手法を用いて、より安全な回答を出力するように学習させる際、安全性を高めるためのパラメータ調整と、タスクの実行精度を高めるためのパラメータ調整が対立することが原因です。結果として、安全性に関する評価は向上する一方で、MMLUやコーディング、数学的推論といったベンチマークでの精度が目に見えて低下することが、ノースカロライナ州立大学やジョージア工科大学などの研究で明らかになっています。

●安全性の微調整によってAIのハルシネーション（幻覚）が増えるのはなぜですか？

人間の好みに基づくフィードバック（RLHF）を用いた安全性微調整では、モデルが事実としての正確性よりも、ユーザーの意見や期待に「同調する」ことを優先して学習してしまう傾向があります。人間の評価者は、回答が厳密に正しいかどうかよりも、自信たっぷりで受け入れやすい表現の回答を高く評価しがちであるため、モデルがその信号に最適化されてしまいます。その結果、もっともらしく聞こえるものの事実に反する誤った回答（ハルシネーション）を生成しやすくなります。この現象は「シコファンシー（過剰な同調）」と呼ばれ、AIモデルの信頼性における主要なリスクとして認識されています。

●米国政府は外国人のみを対象に規制を命じたのに対し、なぜAnthropicはすべてのユーザーに対して利用を停止したのですか？

Anthropicのプラットフォームにおいて、ユーザーの国籍をリアルタイムかつ商業的規模で確認する信頼性の高い技術的手段が存在しないためです。メールアドレスや請求先の国情報を確認するだけでは、実際のパスポートや法的資格（国籍）を確認することはできません。APIの応答速度を維持したまま数千万人のユーザーに国籍確認を義務付けるには、金融機関や政府機関が導入しているような書類スキャンや生体認証といった重いインフラが必要となり、これを短時間で構築することは不可能です。選択的なアクセス制限が実行できない中で、法的命令を遵守するため、同社はグローバルのすべてのユーザーに対して対象モデルの提供を停止する決断を下しました。

●今回の事態は、ClaudeおよびAnthropicの今後にどのような影響を与えますか？

Anthropicは2026年6月1日に非公開でIPO（新規株式公開）を申請したばかりであり、目標評価額は9,650億ドル（約154兆4,000億円、1ドル＝160円換算）規模と報じられていました。しかし、ローンチ直後の最先端モデルが規制によって停止されたことで、投資家が精査する目論見書に「規制リスク」という不確実性が加わることになります。

また、今回の事態は、政府がプラットフォーム側の想定していないリアルタイムの国籍確認などを要求した際、AIプロバイダーがサービスを全面的に停止せざるを得なくなるという構造的な課題を浮き彫りにしました。この問題の解決策（技術的対応、政策協議、あるいは進行中の訴訟など）が、今後の商業AIの世界的な展開のあり方を左右するとみられています。

元記事: Claude Accuracy Degradation After Fable Ban Has a Name: The Alignment Tax

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

スポンサードリンク