Engineering · 統制

agens のためのAI評価設計 — 「正しくできた」とどう言えるか

AIに業務を任せるほど問われるのが、『正しくできたとどう言えるか』。評価（eval）は、AIを自信を持って本番に出すための中核実践です。agens の監査トレイルは、その評価を回す土台になります。

要点

✓AIを“賢い”だけで信用しない。『正しくできたか』を測る評価（eval）が、自信を持って本番に出す土台になる。
✓採点は3種を組み合わせる：コード（合否・テスト）／モデル（AIが基準で採点）／人（専門家のレビュー）。
✓2タイプを使い分ける：能力eval（苦手を狙う・合格率は低めから）と回帰eval（できていたことを確認・ほぼ100%）。
✓スコアを額面で信じない。中身とトランスクリプト（やり取りの記録）を読む。採点器の質がスコアを左右する（Anthropic の例：採点の不備で42%→修正後95%）。
✓agens の監査トレイル（AIタスク単位の記録）は、本番の失敗を採取して20〜50件の社内 eval に変え、回帰として固定する運用にそのまま使える。

「賢い」と「正しくできる」は別物

AIに業務を任せるとき、つい『賢いかどうか』に目が行きます。けれど本当に問われるのは、『その仕事を正しくやり切れたか』です。Anthropic は、エージェントを役立たせる能力（自律性・柔軟性）が、そのまま評価を難しくする、と指摘しています（Anthropic「Demystifying evals for AI agents」2026-01-09）。一度の入出力ではなく、ツールを操作し状態を変える“ひと続きの軌跡”を見ないと、出来を測れないからです。

だから、評価（eval）が要ります。eval は、AIを“なんとなく”ではなく、根拠を持って本番に出し、広げていくための中核の実践です。

測り方は2タイプある

能力（capability）eval は苦手なタスクを狙い、合格率は低めから始めて“何が得意か”を伸ばす。回帰（regression）eval はできていたことを確認し、合格率ほぼ100%で“後退”を検知する。本番投入の信頼性は pass^k（毎回成功する確率）で見る。

採点は、3種を組み合わせる

採点のしかたも一つではありません。Anthropic は、コードによる採点（文字列一致・テストの合否・成果物の検証）、モデルによる採点（AIが基準＝ルーブリックに照らして評価）、そして人による採点（専門家のレビュー）の3種を組み合わせることを勧めています。

コツは、『たどった経路ではなく、生み出した成果を採点する』こと（Anthropic）。創意工夫を不必要に罰しないためです。さらにタスクの仕様は、『2人の専門家が独立に同じ合否に至る』くらい曖昧さをなくしておきます。

スコアを額面で信じない — トランスクリプトを読む

評価で最も大事な規律が、『スコアを額面どおりに受け取らない』ことです。Anthropic は、eval の中身を誰かが掘り下げ、いくつかのトランスクリプト（やり取りの記録）を実際に読むまで、スコアを鵜呑みにしない、と明言しています。

なぜか。採点器そのものがスコアを大きく左右するからです。Anthropic の例では、あるベンチで最新モデルが当初42%にとどまっていたのが、採点の不備（厳しすぎる一致判定や曖昧な仕様）を直すと95%まで上がりました。低かったのはモデルではなく、採点のほうだった——こういうことが実際に起こります。

本番の失敗を、評価に変えて回す

本番で運用し、失敗を監査トレイルから採取し、20〜50件の社内 eval に変え、回帰テストとして固定して後退を検知する。agens の監査トレイル（AIタスク単位の記録）が、この“失敗を採取して eval にする”ループの土台になる。

agens の監査トレイルが、評価の土台になる

ここで agens の強みが効きます。agens は、誰がどのAIタスクで何をしたかをタスク単位で記録し（監査トレイル）、必要なら操作を巻き戻せます。この記録は、評価の出発点そのものです。本番で起きた失敗のやり取りを採取し、Anthropic の言う『現実の失敗から取った20〜50件』の社内 eval に変え、回帰テストとして固定しておけば、次の改善で“後退”していないかを検知できます。

さらに、agens は実行を隔離されたサンドボックスの中で行います。これは、評価を“いつも同じ条件”で安定して回すための環境としても向いています。能力 eval と回帰 eval を、オンプレミスや国内リージョンの監査可能な環境で回せる——『正しくできたか』を、組織として確かめ続けられるということです。

数値・知見はいずれも各社の報告です

本記事の『42%→95%』『SWE-bench で1年に40%→80%超』などは、Anthropic が自社の例やベンチについて報告した値で、agens の実績値ではありません。eval の設計（3種の採点・能力/回帰・pass@k と pass^k・トランスクリプト査読）も Anthropic などの実践知です。agens 側で備えるのは、AIタスク単位の監査トレイル・操作の巻き戻し・隔離されたサンドボックス実行で、本記事はこれを“評価を回す土台”としてどう使うかを示しています。

よくある質問

AIエージェントの評価（eval）とは何ですか？

AIが業務を『正しくできたか』を、根拠を持って測る実践です。コード・モデル・人による採点を組み合わせ、苦手を探す能力evalと、後退を防ぐ回帰evalを使い分けます。基礎概念は homula.jp の学習ガイドでも解説しています。

評価はどこから始めればよいですか？

Anthropic は『現実の失敗から取った20〜50件の簡単なタスク』から始めることを勧めています。agens の監査トレイルから本番の失敗を採取すれば、この出発点をそのまま用意できます。

ベンチマークのスコアは信じてよいですか？

額面どおりには受け取らないのが安全です。採点器の不備でスコアが大きく変わることがあり（Anthropic の例で42%→95%）、中身とトランスクリプト（やり取りの記録）を読むことが勧められています。

agens は評価にどう役立ちますか？

AIタスク単位の監査トレイルが評価の出発点になり、失敗の採取→社内eval化→回帰での後退検知という運用ループを支えます。隔離されたサンドボックスは、評価を同じ条件で安定して回す環境にも向いています。

最終更新: 2026-06

agens を実際に動かしてみませんか?

デモ・お問い合わせ agens を詳しく見る他の技術解説を見る