AnthropicがClaude Codeスキルの社内活用法を公開——実証済み9分類と「検証が最重要」の根拠

2026年6月10日 01:42

印刷

記事提供元:Tech Times

Anthropicのコーディングエージェント「Claude Code」のターミナルでの操作画面。

Anthropicのコーディングエージェント「Claude Code」のターミナルでの操作画面。[写真拡大]

Anthropicは2026年6月3日、コーディングエージェント「Claude Code」のスキル(Skills)機能について、同社が社内で実践してきた活用フレームワークをClaude公式ブログで公開した。同社は現在「数百」のスキルを社内運用しているとしており、その分類・優先度・記述方法に関する具体的な知見が外部に開示されるのは今回が初めてだ。Claude Codeを用いた開発を進めるエンジニアやチームにとっては、どの業務をスキル化すべきかを判断する実践的な指針となる内容である。

■ スキルとは「プロンプトの塊」ではなく「フォルダ単位のキット」だ

このブログ投稿は、テクニカルスタッフのThariq Shihipar氏が執筆し、まず一般的な誤解の訂正から始まる。スキルは「ただのマークダウンファイル」ではない。実際には、エージェントが検索・参照できる命令、スクリプト、リソースをまとめたフォルダ構造だ。中核となるSKILL.mdファイルに加え、参照ドキュメント、スクリプト、テンプレート、使用例、フック、後続の実行で読み取られるデータを格納できる。Claudeがスキルを呼び出すとき、単一のテキストブロックではなく、タスク遂行のための一式のキットを受け取る。

この区別が重要なのは、多くのチームが不足しているのは「もう一段のプロンプト文」ではなく、すでに検証済みの慣行を一度きりで集約したもの——見落としやすい細部、共通スクリプト、再利用に値する固定手順——だからだ、とAnthropicは説明する。

■ Claude Codeスキルの9つの分類

同社が社内スキルを整理したところ、知識供給から出荷・運用まで、ソフトウェア開発の全工程をカバーする9つのカテゴリに収束したという。

最初の3つは、モデルが推論だけでは補えない情報を与えるものだ。ライブラリ・API参照スキルは、特定のライブラリ・CLIツール・SDKをチーム内でどう使うべきかを定め、誤りやすいルールや落とし穴を記述する。製品検証スキルは、ヘッドレスブラウザでサインアップからチェックアウトまでの一連のフローを実行するなど、出力が実際に動作するかどうかを確認する。データ取得・分析スキルは、社内のデータウェアハウスや監視システムと連携し、クエリ方法やフィールド名の規則をパッケージ化することで、モデルがテーブル構造を推測しなくて済むようにする。

次の3つは、日常的なチームプロセスを吸収するものだ。ビジネスプロセス・チーム自動化スキルは、繰り返し発生するワークフローをコマンド一つに集約する(例:前日からの変更点だけを報告するスタンドアップレポート)。コードスキャフォールディング・テンプレートスキルは、固定の骨格を持ちながらも純粋なテンプレートエンジンでは表現できない自然言語の制約(新規サービスやマイグレーションファイルなど)に応じたコードを生成する。コード品質・レビュースキルはコードをチームの標準に近づける。一例として、フレッシュな視点を持つサブエージェントを起動して成果物を批評させる手法が紹介されており、こうした検証をCIフックとして組み込むことも可能だとされている。

最後の3つは本番環境まで届くものだ。CI/CDとデプロイスキルは、ビルド・段階的ロールアウト・エラー率比較・ロールバック条件を連鎖させ、開発から本番リリースへの一連を担う。ランブックスキル(Runbooks)は、リクエストではなくアラートやSlackスレッド、リクエストIDといる「症状」を起点に適切なツールへと誘導し、構造化された結論を出力する。インフラ運用スキルは、リソースの削除やコスト調査といった日常的だが影響の大きい作業を担う。Anthropicはこのカテゴリについて、強制削除やデータベーステーブルの削除など高リスクな操作の前に通知・確認を挟むガードレールを必ず組み込む必要があると強調している。

■ 最も品質向上に寄与するのは「検証スキル」

9種のなかで、Anthropicが最も価値が高いと位置づけるのが検証スキルだ。同社は、出力品質への影響が最も測定しやすい形で現れたカテゴリとして検証を挙げている。背景には特有の失敗パターンがある——モデルはタスクが完了したかのような印象を与えることができるが、実際に破綻しやすいのは「結果を確認する最後のステップ」だ。投稿では、検証スキルを高品質に仕上げることにエンジニアが1週間を費やす価値があると述べている。

具体的な手法として2つが紹介されている。1つは、Claudeがテストの様子を動画として記録し、何を確認したかを人間が正確に把握できるようにすること。もう1つは、状態の変化・永続化されたイベント・最終的なページ状態が「だいたい合っているだろう」という前提で済まされないよう、重要なポイントにプログラム的なアサーションを加えることだ。

同社はまた、「焦点の一貫性」を信頼性の要件として位置づけている。最良のスキルは1つのカテゴリに明確に収まるが、複数のカテゴリにまたがるスキルはエージェントを混乱させる。1つのスキルにすべてをやらせようとする初期の衝動を戒める指摘だ。

■ 最も価値ある記述内容は「落とし穴」

何を書くかという点について、Anthropicは「落とし穴」が最も情報密度の高い素材だと主張する。Claudeはすでにコードを書き、コードベースを読む能力を持っているため、デフォルトでやることを繰り返すだけでは文脈が増えるだけで価値は生まれない。モデルのデフォルトの前提から引き離す細部こそがスキルに載せる意味を持つ、という考えだ。

投稿では具体的な例が示されている:追記専用(append-only)のサブスクリプションテーブルでは、正しい行は最新のタイムスタンプではなく最も大きいバージョン番号を持つ行である、という事実。APIゲートウェイとビリングサービスで同一の値が異なるフィールド名で渡されるケース。ステージング環境が決済Webhookの実際の処理に失敗していてもサクセスコードを返すため、真の状態を別の場所から読み取る必要があるケース。いずれも単独では些細に見えるが、一つの思い込みが結果全体を歪めうる——そしてこれらはチームは知っているがモデルは知らない情報だ、とAnthropicは説明する。

■ スキルの構造設計:ファイルシステムそのものがプロンプトの一部

投稿はファイルシステムをプロンプトの構成要素として捉えるよう勧める。SKILL.mdは何でも詰め込む場所ではなく、目次・道標として機能させるべきで、関数シグネチャは参照ファイルへ、出力テンプレートはアセットフォルダへと分散させる——同社はこのアプローチを「プログレッシブ・ディスクロージャー」(段階的開示)と呼んでいる。

スキルはモデルを過度に制約すべきではない。核心となるルールは提供しつつ、適応の余地を残さないと、再利用されるスキルが想定外の状況でスタックする、と指摘する。セットアップは事前に計画し、対象SlackチャンネルなどユーザーごとのコンテキストはConfig fileに保存し、不足している場合はAskUserToolなどを通じて取得するよう設計することを推奨している。

スキルの「説明フィールド(description field)」は人間ではなくモデルのために書く、という点も強調されている。Claudeはセッション開始時にすべてのスキルの名前と説明をスキャンし、何が適用されるかを判断する。説明は「いつ起動するか」のトリガー仕様であり、「babysit」のようなキーワードはそのまま含めるべきだ、とされている。スキルが成熟するにつれて最初に追加されるのは、記憶機能、事前ロードされたスクリプト、オンデマンドフックだとされており、特にフックは、スキル実行中に強制削除やデータベーステーブルの削除といった高リスク操作をブロックする役割を担う。

■ 配布は自然発生的に、利用状況は計測する

スキルの共有について、Anthropicは2つの経路を説明している。小規模チームではリポジトリにスキルをチェックインする方法、チームが拡大した際はチームの内部プラグインマーケットプレイスとして機能するClaude Codeプラグインマーケットプレイス経由で公開する方法だ(チェックインしたスキルはすべてモデルのコンテキストに追加されるため)。

同社はこれを中央集権的に管理しておらず、有用なスキルはサンドボックスフォルダやSlackを通じて自然に浮上し、オーナーがマーケットプレイスへの昇格を申請する仕組みになっている。また、スキルの利用状況をフックを使って記録することで、どのスキルが頻繁に使われ、どれが呼び出されるべき場面で呼び出されていないかを把握しているという。投稿が指摘するように、「本当の問題は、スキルが動くかどうかではなく、スキルが呼び出されるべきときに呼び出されているかどうか」なのだ。

■注目ポイントQ&A

● Claude Codeにおける「スキル」とは何か?

スキルとは、Claude Codeがタスクをより正確にこなすために検索・参照できる、命令・スクリプト・リソースをまとめたフォルダ構造のことだ。中核となるSKILL.mdファイルに加え、参照ドキュメント、テンプレート、スクリプト、データを格納できます。

● Claudeスキルの9つの分類とは?

Anthropicは社内スキルを次の9種に分類しています。ライブラリ・API参照、製品検証、データ取得・分析、ビジネスプロセス・チーム自動化、コードスキャフォールディング・テンプレート、コード品質・レビュー、CI/CDとデプロイ、ランブック、インフラ運用の9種です。

● Anthropicが最も価値を置くスキルの種類は?

検証スキルが出力品質への影響として最も測定しやすい結果をもたらしたと同社は述べています。モデルはタスクが完了したかのように見せることができますが、実際に確認が必要なのはその「最後のステップ」だからです。同社は検証スキルの精度向上に1週間かける価値があると提言しています。

● Claude Codeスキルを確実に起動させるには?

スキルの説明フィールドは人間向けではなくモデル向けに書くことが重要です。Claudeはセッション開始時にすべてのスキル名と説明をスキャンして何が適用されるかを判断するため、説明文には起動条件となるキーワードや文脈を直接含める必要があります。

元記事: Claude Code Skills: Inside Anthropic’s Playbook for the Nine Types That Actually Work

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事