Engineering · セキュリティ

agens の自律度の設計 — 「どこまで自動で任せ、どこから人が確かめるか」

AIにどこまで自動で任せ、どこから人が確かめるか——これが自律度の設計です。承認のあり方には幅があり、agens は人の承認・RBAC・監査を土台に、安全に自律度を上げます。

要点

  • 自律度は『毎回 人が承認』から『無制限』まで幅がある。速さと安全は、このダイヤルのどこに置くかで決まる。
  • “承認疲れ”は危険。Anthropic によれば利用者は権限プロンプトの93%を承認しており、毎回聞くと注意が薄れる。
  • 近年は、承認をAIの分類器に代行させる『動的な承認』も現れた(Anthropic の auto mode)。ただし完璧ではない。
  • Anthropic は自社の数値を正直に開示:見逃し17%(実際の行き過ぎた操作で)。だから高リスクは人の確認が要る、と明言。
  • agens の既定は、重要操作は人が承認+役割(RBAC)で範囲を絞り+全操作を監査・巻き戻し。低リスクは自動、高リスクは人——のメリハリを、監査と隔離で支える。

「全部聞く」も「何も聞かない」も危うい

AIに業務を任せるとき、悩ましいのが承認のさじ加減です。操作のたびに人が確認すれば安全ですが、現実には『承認疲れ』が起きます。Anthropic によれば、利用者は権限プロンプトの93%を承認しており(Anthropic「How we built Claude Code auto mode」2026-03-25)、毎回聞かれるうちに中身を見ずに通してしまう——むしろ安全への注意が下がるのです。

かといって、何も確認せず全部自動にすれば、行き過ぎた操作を止められません。だから本当の問いは『全部聞くか/何も聞かないか』ではなく、『どこまで自動で任せ、どこから人が確かめるか』という“自律度のダイヤル”をどこに置くか、です。

承認には“幅”がある

毎回 人が承認静的ルール動的に判定無制限AIが承認を代行安全・重い速い・危ういagens の既定人の承認+RBAC+全操作を監査・巻き戻し
承認のあり方は、毎回人が承認 → 静的ルール → 動的に判定(AIが代行)→ 無制限、と幅がある。右へ行くほど速いが危うい。agens の既定は、人の承認とRBAC、そして全操作の監査・巻き戻しに置く。

第3の道:承認をAIに“代行”させる(ただし完璧ではない)

近年、この中間に新しい選択肢が現れました。承認の判断を、AIの分類器に代行させる方式です(Anthropic の auto mode)。すべてを人がレビューするのでも、ガードレールなしで突き進むのでもない“中間”として、ユーザーの意図に反する危険な操作だけを止め、残りは確認なしで通します。

注目すべきは、Anthropic がその限界を正直な数値で開示している点です。実際のトラフィックで、誤って止めてしまう率は0.4%に抑えつつ、危険を“見逃す”率は17%あった(実際に行き過ぎた操作のうち)——そして『17%が正直な数字だ』と明記しています。だからこそ Anthropic は『これは高リスクなインフラでの慎重な人のレビューを置き換えるものではない』と釘を刺します。確率的なガードレールは強力でも、ゼロにはならないのです。

低リスクは自動、高リスクは人 — 監査と隔離が最後の砦

AIの操作リスクで振り分け低リスク → 自動で通す高リスク → 人が承認どちらも全操作を監査/隔離が最後の砦
操作をリスクで振り分け、低リスクは自動で通し、高リスクは人が承認する。どちらも全操作を監査し、隔離(環境の境界)が最後の砦になる。確率的な判定が外れても、被害を局所化し巻き戻せる。

agens は、メリハリを“監査と隔離”で支える

agens の考え方は、このダイヤルを安全側に置きつつ、メリハリをつけることです。役割(RBAC)で『誰が・何を』任せられるかをあらかじめ絞り、影響の大きい操作は人が承認ゲートで確かめる。後戻りしにくい操作だけ人を通し、定型はAIに任せる——という運用ができます。

そして、判定が万一外れても困らないように、全操作をタスク単位で監査し、必要なら巻き戻せるようにしています。作業は隔離されたサンドボックスの中だけで行うため、行き過ぎがあっても被害はその箱にとどまります。『どこまで任せるか』を攻めても、最後の砦(監査・巻き戻し・隔離)があるから、安心して自律度を上げられるのです。承認の仕組みそのものは「統制設計」、隔離の強度は「封じ込め設計」もあわせてご覧ください。

🛡 攻めても、最後の砦がある

自律度は“速さ”と“安全”のトレードオフですが、二択ではありません。低リスクは自動・高リスクは人、というメリハリを、役割(RBAC)・人の承認・全操作の監査と巻き戻し・隔離されたサンドボックスで支える。確率的な判定が外れても、被害を局所化して戻せる——だから agens は、安心して自律度を上げられます。なお『AIに承認を代行させる』動的な方式の数値はいずれも Anthropic の報告で、agens の実装ではありません。

よくある質問

AIにどこまで自動で任せてよいですか?
操作のリスクで分けるのが基本です。低リスクは自動、後戻りしにくい高リスクは人が承認——というメリハリを、agens は役割(RBAC)・人の承認・全操作の監査と巻き戻しで支えます。
承認をAIに任せて大丈夫ですか?
承認をAIの分類器に代行させる方式(Anthropic の auto mode)も登場していますが、Anthropic 自身が見逃し17%という限界を開示し、高リスクは人のレビューを置き換えないと明言しています。agens の既定は、重要操作は人が承認し、全操作を監査・巻き戻しできるようにしています。
“承認疲れ”とは何ですか?
操作のたびに確認を求められ、中身を見ずに通してしまう状態です。Anthropic によれば利用者は権限プロンプトの93%を承認しており、毎回聞くとかえって安全への注意が下がります。だからリスクに応じて確認の濃淡をつけます。
自動化を攻めると危なくないですか?
万一行き過ぎても、agens は全操作を監査・巻き戻しでき、作業は隔離されたサンドボックスの中だけで行うため被害が局所化されます。この“最後の砦”があるから、安心して自律度を上げられます。

最終更新: 2026-06