Engineering · アーキテクチャ

agens の検証ループ設計 — AIが作ったものを、AIが確かめる

長い制作を任せると、AIは自分の出来を甘く採点しがちです。だから『作る役』と『判定する役』を分ける——agens のサブエージェントとサンドボックスは、この検証ループに使えます。

要点

  • AIは自分の作ったものを甘く採点しがち。だから『作る役(生成)』と『判定する役(評価)』を分けると、品質が大きく上がる(Anthropic)。
  • 評価役は、決めておいた“完成の定義(契約)”に照らして、実際にライブで動かして合否を出す。不合格なら具体的なフィードバックで作り直す。
  • ハーネスの“足場”は、モデルの『できないこと』の裏返し。モデルが強くなったら足場は外す(複雑さは縮むのでなく“移る”、Anthropic)。
  • agens のサブエージェント+サンドボックス+ツール操作は、この検証ループに向く。AIの自己検証のあと、重要な節目は人の承認につなげられる。
  • 数値・知見はいずれも Anthropic の報告。agens の役割は、検証を安全に回す土台(隔離・監査・承認)を与えること。

自分の答えを、自分で甘く採点してしまう

AIに長い制作(アプリやレポートを最後まで作る、など)を任せると、ある落とし穴があります。AIに自分の出来を採点させると、たいてい甘くなるのです。Anthropic は『エージェントは自分の成果を自信たっぷりに褒めがち——人から見れば明らかに平凡でも』と書いています(Anthropic「Harness design for long-running application development」2026-03-24)。

解決は明快です。『作る役(生成)』と『判定する役(評価)』を、別のエージェントに分ける。Anthropic は『作る側と判定する側を分けることが、この問題への強力なテコになる』としています。

作る役と、判定する役を分ける

自分で採点すると甘い → “作る役”と“判定役”を分ける生成役作る評価役契約(done)に照らす合格 / 不合格基準を満たすか不合格なら、具体的なフィードバックで直す
生成役が作り、評価役が“完成の定義(契約)”に照らして検証する。評価役は実際にライブで動かして合否を出し、不合格なら具体的なフィードバックで作り直す。自己採点の甘さを、役割の分離で抑える。

“完成の定義”に照らして、実際に動かして確かめる

評価役の仕事は、雰囲気で良し悪しを言うことではありません。あらかじめ『何ができたら完成か(契約)』を決め、それに照らして合否を出します。Anthropic の例では、評価役がブラウザ操作で実際の画面をユーザーのようにクリックして検証し、基準を一つでも下回れば不合格にして、具体的なフィードバックを生成役に返していました。

agens は、この検証ループに必要な部品を持っています。調べ物や検証を別の作業者に切り出すサブエージェント(→ コンテキスト管理・メモリ設計)、隔離されたサンドボックスでの実行、そしてツール操作。AIが作ったものをAIがライブで確かめ、その結果を人の承認につなぐ——という二段の検証ができます。

足場は、モデルが強くなったら外す

もうひとつ、設計の大事な勘所があります。ハーネスの“足場”——細かいチェックや作業の分割、途中再開の仕組みなど——は、その時点のモデルが『うまくできないこと』を補うために置かれています。だからモデルが強くなると、一部の足場は不要になります。Anthropic は実際、あるモデルでは必須だった『途中での文脈リセット』を、次の世代では丸ごと外せた、と報告しています。

示唆に富むのは、Anthropic の言い回しです。『面白いハーネスの組み合わせの空間は、モデルが良くなっても縮まない。ただ“移る”だけだ』。つまり、足場を作り込むこと自体が目的ではなく、いまのモデルに“ちょうどいい”構えを選び直し続けることが大事だ、ということ。agens も、過剰な足場を抱え込まず、能力の向上に合わせて構えを更新していく設計思想に立っています。

足場は“できないこと”の裏返し

モデルが弱いとき足場(チェック・分割・再開)モデル足場が多いモデルが強くなるとモデル足場を外す足場は“できないこと”の裏返し。複雑さは縮むのでなく“移る”
モデルが弱いときは足場(チェック・分割・再開の仕組み)を多く要するが、強くなれば外せる。足場はモデルにできないことの裏返しで、複雑さは縮むのでなく“移る”——いまのモデルにちょうどいい構えを選び直し続ける。

数値・知見はいずれも Anthropic の報告です

本記事の『作る役と判定する役を分ける』『足場は外す』といった知見、および所要時間やコストの例(ある単純構成は20分・約9ドルに対し、評価役つきの構成は6時間・約200ドルで20倍超、など)は、いずれも Anthropic が自社の実験について報告したもので、agens の実績値ではありません。agens の役割は、こうした検証ループを安全に回す土台——隔離されたサンドボックス・サブエージェント・全操作の監査・人の承認——を与えることです。

よくある質問

なぜAIに自分で採点させてはいけないのですか?
自分の成果を甘く採点しがちだからです(Anthropic)。作る役と判定する役を別のエージェントに分けると、品質が大きく上がります。
評価役はどうやって合否を出すのですか?
あらかじめ決めた『完成の定義(契約)』に照らし、実際にライブで動かして確かめます。基準を下回れば不合格にし、具体的なフィードバックで作り直させます。
agens でこの検証ループはできますか?
agens はサブエージェント・隔離されたサンドボックス・ツール操作を備えており、AIが作ったものをAIがライブで検証し、その結果を人の承認につなぐ二段の検証に使えます。
ハーネスの“足場”は多いほどよいのですか?
いいえ。足場はモデルの『できないこと』を補うものなので、モデルが強くなれば外すべきです(Anthropic)。agens も過剰な足場を抱えず、能力に合わせて構えを更新する設計です。

最終更新: 2026-06