Engineering · セキュリティ
agens の自律度の設計 — 「どこまで自動で任せ、どこから人が確かめるか」
AIにどこまで自動で任せ、どこから人が確かめるか——これが自律度の設計です。承認のあり方には幅があり、agens は人の承認・RBAC・監査を土台に、安全に自律度を上げます。
要点
- ✓自律度は『毎回 人が承認』から『無制限』まで幅がある。速さと安全は、このダイヤルのどこに置くかで決まる。
- ✓“承認疲れ”は危険。Anthropic によれば利用者は権限プロンプトの93%を承認しており、毎回聞くと注意が薄れる。
- ✓近年は、承認をAIの分類器に代行させる『動的な承認』も現れた(Anthropic の auto mode)。ただし完璧ではない。
- ✓Anthropic は自社の数値を正直に開示:見逃し17%(実際の行き過ぎた操作で)。だから高リスクは人の確認が要る、と明言。
- ✓agens の既定は、重要操作は人が承認+役割(RBAC)で範囲を絞り+全操作を監査・巻き戻し。低リスクは自動、高リスクは人——のメリハリを、監査と隔離で支える。
「全部聞く」も「何も聞かない」も危うい
AIに業務を任せるとき、悩ましいのが承認のさじ加減です。操作のたびに人が確認すれば安全ですが、現実には『承認疲れ』が起きます。Anthropic によれば、利用者は権限プロンプトの93%を承認しており(Anthropic「How we built Claude Code auto mode」2026-03-25)、毎回聞かれるうちに中身を見ずに通してしまう——むしろ安全への注意が下がるのです。
かといって、何も確認せず全部自動にすれば、行き過ぎた操作を止められません。だから本当の問いは『全部聞くか/何も聞かないか』ではなく、『どこまで自動で任せ、どこから人が確かめるか』という“自律度のダイヤル”をどこに置くか、です。
承認には“幅”がある
第3の道:承認をAIに“代行”させる(ただし完璧ではない)
近年、この中間に新しい選択肢が現れました。承認の判断を、AIの分類器に代行させる方式です(Anthropic の auto mode)。すべてを人がレビューするのでも、ガードレールなしで突き進むのでもない“中間”として、ユーザーの意図に反する危険な操作だけを止め、残りは確認なしで通します。
注目すべきは、Anthropic がその限界を正直な数値で開示している点です。実際のトラフィックで、誤って止めてしまう率は0.4%に抑えつつ、危険を“見逃す”率は17%あった(実際に行き過ぎた操作のうち)——そして『17%が正直な数字だ』と明記しています。だからこそ Anthropic は『これは高リスクなインフラでの慎重な人のレビューを置き換えるものではない』と釘を刺します。確率的なガードレールは強力でも、ゼロにはならないのです。
低リスクは自動、高リスクは人 — 監査と隔離が最後の砦
agens は、メリハリを“監査と隔離”で支える
agens の考え方は、このダイヤルを安全側に置きつつ、メリハリをつけることです。役割(RBAC)で『誰が・何を』任せられるかをあらかじめ絞り、影響の大きい操作は人が承認ゲートで確かめる。後戻りしにくい操作だけ人を通し、定型はAIに任せる——という運用ができます。
そして、判定が万一外れても困らないように、全操作をタスク単位で監査し、必要なら巻き戻せるようにしています。作業は隔離されたサンドボックスの中だけで行うため、行き過ぎがあっても被害はその箱にとどまります。『どこまで任せるか』を攻めても、最後の砦(監査・巻き戻し・隔離)があるから、安心して自律度を上げられるのです。承認の仕組みそのものは「統制設計」、隔離の強度は「封じ込め設計」もあわせてご覧ください。
🛡 攻めても、最後の砦がある
自律度は“速さ”と“安全”のトレードオフですが、二択ではありません。低リスクは自動・高リスクは人、というメリハリを、役割(RBAC)・人の承認・全操作の監査と巻き戻し・隔離されたサンドボックスで支える。確率的な判定が外れても、被害を局所化して戻せる——だから agens は、安心して自律度を上げられます。なお『AIに承認を代行させる』動的な方式の数値はいずれも Anthropic の報告で、agens の実装ではありません。
よくある質問
AIにどこまで自動で任せてよいですか?
承認をAIに任せて大丈夫ですか?
“承認疲れ”とは何ですか?
自動化を攻めると危なくないですか?
最終更新: 2026-06
