Engineering · アーキテクチャ
agens の検証ループ設計 — AIが作ったものを、AIが確かめる
長い制作を任せると、AIは自分の出来を甘く採点しがちです。だから『作る役』と『判定する役』を分ける——agens のサブエージェントとサンドボックスは、この検証ループに使えます。
要点
- ✓AIは自分の作ったものを甘く採点しがち。だから『作る役(生成)』と『判定する役(評価)』を分けると、品質が大きく上がる(Anthropic)。
- ✓評価役は、決めておいた“完成の定義(契約)”に照らして、実際にライブで動かして合否を出す。不合格なら具体的なフィードバックで作り直す。
- ✓ハーネスの“足場”は、モデルの『できないこと』の裏返し。モデルが強くなったら足場は外す(複雑さは縮むのでなく“移る”、Anthropic)。
- ✓agens のサブエージェント+サンドボックス+ツール操作は、この検証ループに向く。AIの自己検証のあと、重要な節目は人の承認につなげられる。
- ✓数値・知見はいずれも Anthropic の報告。agens の役割は、検証を安全に回す土台(隔離・監査・承認)を与えること。
自分の答えを、自分で甘く採点してしまう
AIに長い制作(アプリやレポートを最後まで作る、など)を任せると、ある落とし穴があります。AIに自分の出来を採点させると、たいてい甘くなるのです。Anthropic は『エージェントは自分の成果を自信たっぷりに褒めがち——人から見れば明らかに平凡でも』と書いています(Anthropic「Harness design for long-running application development」2026-03-24)。
解決は明快です。『作る役(生成)』と『判定する役(評価)』を、別のエージェントに分ける。Anthropic は『作る側と判定する側を分けることが、この問題への強力なテコになる』としています。
作る役と、判定する役を分ける
“完成の定義”に照らして、実際に動かして確かめる
評価役の仕事は、雰囲気で良し悪しを言うことではありません。あらかじめ『何ができたら完成か(契約)』を決め、それに照らして合否を出します。Anthropic の例では、評価役がブラウザ操作で実際の画面をユーザーのようにクリックして検証し、基準を一つでも下回れば不合格にして、具体的なフィードバックを生成役に返していました。
agens は、この検証ループに必要な部品を持っています。調べ物や検証を別の作業者に切り出すサブエージェント(→ コンテキスト管理・メモリ設計)、隔離されたサンドボックスでの実行、そしてツール操作。AIが作ったものをAIがライブで確かめ、その結果を人の承認につなぐ——という二段の検証ができます。
足場は、モデルが強くなったら外す
もうひとつ、設計の大事な勘所があります。ハーネスの“足場”——細かいチェックや作業の分割、途中再開の仕組みなど——は、その時点のモデルが『うまくできないこと』を補うために置かれています。だからモデルが強くなると、一部の足場は不要になります。Anthropic は実際、あるモデルでは必須だった『途中での文脈リセット』を、次の世代では丸ごと外せた、と報告しています。
示唆に富むのは、Anthropic の言い回しです。『面白いハーネスの組み合わせの空間は、モデルが良くなっても縮まない。ただ“移る”だけだ』。つまり、足場を作り込むこと自体が目的ではなく、いまのモデルに“ちょうどいい”構えを選び直し続けることが大事だ、ということ。agens も、過剰な足場を抱え込まず、能力の向上に合わせて構えを更新していく設計思想に立っています。
足場は“できないこと”の裏返し
数値・知見はいずれも Anthropic の報告です
本記事の『作る役と判定する役を分ける』『足場は外す』といった知見、および所要時間やコストの例(ある単純構成は20分・約9ドルに対し、評価役つきの構成は6時間・約200ドルで20倍超、など)は、いずれも Anthropic が自社の実験について報告したもので、agens の実績値ではありません。agens の役割は、こうした検証ループを安全に回す土台——隔離されたサンドボックス・サブエージェント・全操作の監査・人の承認——を与えることです。
よくある質問
なぜAIに自分で採点させてはいけないのですか?
評価役はどうやって合否を出すのですか?
agens でこの検証ループはできますか?
ハーネスの“足場”は多いほどよいのですか?
最終更新: 2026-06
