Engineering · 統制

agens のためのAI評価設計 — 「正しくできた」とどう言えるか

AIに業務を任せるほど問われるのが、『正しくできたとどう言えるか』。評価(eval)は、AIを自信を持って本番に出すための中核実践です。agens の監査トレイルは、その評価を回す土台になります。

要点

  • AIを“賢い”だけで信用しない。『正しくできたか』を測る評価(eval)が、自信を持って本番に出す土台になる。
  • 採点は3種を組み合わせる:コード(合否・テスト)/モデル(AIが基準で採点)/人(専門家のレビュー)。
  • 2タイプを使い分ける:能力eval(苦手を狙う・合格率は低めから)と回帰eval(できていたことを確認・ほぼ100%)。
  • スコアを額面で信じない。中身とトランスクリプト(やり取りの記録)を読む。採点器の質がスコアを左右する(Anthropic の例:採点の不備で42%→修正後95%)。
  • agens の監査トレイル(AIタスク単位の記録)は、本番の失敗を採取して20〜50件の社内 eval に変え、回帰として固定する運用にそのまま使える。

「賢い」と「正しくできる」は別物

AIに業務を任せるとき、つい『賢いかどうか』に目が行きます。けれど本当に問われるのは、『その仕事を正しくやり切れたか』です。Anthropic は、エージェントを役立たせる能力(自律性・柔軟性)が、そのまま評価を難しくする、と指摘しています(Anthropic「Demystifying evals for AI agents」2026-01-09)。一度の入出力ではなく、ツールを操作し状態を変える“ひと続きの軌跡”を見ないと、出来を測れないからです。

だから、評価(eval)が要ります。eval は、AIを“なんとなく”ではなく、根拠を持って本番に出し、広げていくための中核の実践です。

測り方は2タイプある

能力(capability)eval苦手を狙う合格率は低めから“何が得意か”を伸ばす回帰(regression)eval後退を検知合格率はほぼ100%“前にできたこと”を守る本番投入の信頼性は pass^k(毎回成功する確率)で見る
能力(capability)eval は苦手なタスクを狙い、合格率は低めから始めて“何が得意か”を伸ばす。回帰(regression)eval はできていたことを確認し、合格率ほぼ100%で“後退”を検知する。本番投入の信頼性は pass^k(毎回成功する確率)で見る。

採点は、3種を組み合わせる

採点のしかたも一つではありません。Anthropic は、コードによる採点(文字列一致・テストの合否・成果物の検証)、モデルによる採点(AIが基準=ルーブリックに照らして評価)、そして人による採点(専門家のレビュー)の3種を組み合わせることを勧めています。

コツは、『たどった経路ではなく、生み出した成果を採点する』こと(Anthropic)。創意工夫を不必要に罰しないためです。さらにタスクの仕様は、『2人の専門家が独立に同じ合否に至る』くらい曖昧さをなくしておきます。

スコアを額面で信じない — トランスクリプトを読む

評価で最も大事な規律が、『スコアを額面どおりに受け取らない』ことです。Anthropic は、eval の中身を誰かが掘り下げ、いくつかのトランスクリプト(やり取りの記録)を実際に読むまで、スコアを鵜呑みにしない、と明言しています。

なぜか。採点器そのものがスコアを大きく左右するからです。Anthropic の例では、あるベンチで最新モデルが当初42%にとどまっていたのが、採点の不備(厳しすぎる一致判定や曖昧な仕様)を直すと95%まで上がりました。低かったのはモデルではなく、採点のほうだった——こういうことが実際に起こります。

本番の失敗を、評価に変えて回す

次の改善へ本番で運用失敗を採取監査トレイルからeval に変える20〜50件から回帰で固定後退を検知agens の監査トレイルが、失敗を採取して eval にする土台になる
本番で運用し、失敗を監査トレイルから採取し、20〜50件の社内 eval に変え、回帰テストとして固定して後退を検知する。agens の監査トレイル(AIタスク単位の記録)が、この“失敗を採取して eval にする”ループの土台になる。

agens の監査トレイルが、評価の土台になる

ここで agens の強みが効きます。agens は、誰がどのAIタスクで何をしたかをタスク単位で記録し(監査トレイル)、必要なら操作を巻き戻せます。この記録は、評価の出発点そのものです。本番で起きた失敗のやり取りを採取し、Anthropic の言う『現実の失敗から取った20〜50件』の社内 eval に変え、回帰テストとして固定しておけば、次の改善で“後退”していないかを検知できます。

さらに、agens は実行を隔離されたサンドボックスの中で行います。これは、評価を“いつも同じ条件”で安定して回すための環境としても向いています。能力 eval と回帰 eval を、オンプレミスや国内リージョンの監査可能な環境で回せる——『正しくできたか』を、組織として確かめ続けられるということです。

数値・知見はいずれも各社の報告です

本記事の『42%→95%』『SWE-bench で1年に40%→80%超』などは、Anthropic が自社の例やベンチについて報告した値で、agens の実績値ではありません。eval の設計(3種の採点・能力/回帰・pass@k と pass^k・トランスクリプト査読)も Anthropic などの実践知です。agens 側で備えるのは、AIタスク単位の監査トレイル・操作の巻き戻し・隔離されたサンドボックス実行で、本記事はこれを“評価を回す土台”としてどう使うかを示しています。

よくある質問

AIエージェントの評価(eval)とは何ですか?
AIが業務を『正しくできたか』を、根拠を持って測る実践です。コード・モデル・人による採点を組み合わせ、苦手を探す能力evalと、後退を防ぐ回帰evalを使い分けます。基礎概念は homula.jp の学習ガイドでも解説しています。
評価はどこから始めればよいですか?
Anthropic は『現実の失敗から取った20〜50件の簡単なタスク』から始めることを勧めています。agens の監査トレイルから本番の失敗を採取すれば、この出発点をそのまま用意できます。
ベンチマークのスコアは信じてよいですか?
額面どおりには受け取らないのが安全です。採点器の不備でスコアが大きく変わることがあり(Anthropic の例で42%→95%)、中身とトランスクリプト(やり取りの記録)を読むことが勧められています。
agens は評価にどう役立ちますか?
AIタスク単位の監査トレイルが評価の出発点になり、失敗の採取→社内eval化→回帰での後退検知という運用ループを支えます。隔離されたサンドボックスは、評価を同じ条件で安定して回す環境にも向いています。

最終更新: 2026-06