Engineering · セキュリティ
agens の封じ込め設計 — サンドボックスは1種類ではない。仕事ごとに“被害の範囲”で強度を選ぶ
実行型AIを安全に任せる鍵は、危険を完璧に予防することではなく、万一のときに被害が及ぶ範囲(blast radius)を構造で小さく抑えること。封じ込めは1種類ではなく、仕事ごとに“ちょうどいい”強度を選びます。
要点
- ✓安全は「賢いAIを信じる」ことではなく「危険なことが起きても被害が及ぶ範囲(blast radius)を小さく抑える」構造で作る。
- ✓振る舞いを整えるモデル側の対策は確率的で、100%にはならない。決定論的に効く“環境の境界”(隔離・通信制御)を主役に置く。
- ✓封じ込めは1種類ではない。使い捨て環境/承認つき実行/専用VM・隔離環境など、強度の違う選択肢がある。
- ✓agens は隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、扱うデータの機密度や取り返しのつかなさに応じて強度を選ぶ。
- ✓「許可した宛先」ではなく「許可した“操作”」で絞り、外部送信は既定で止める。オンプレミス/国内リージョンでも同じ統制を効かせられる。
“賢いAI”ではなく“被害が広がらない構造”で守る
AIに業務を任せるとき、安全性をAIの賢さに委ねるのは危うい設計です。どれだけ優秀でも、外から紛れ込んだ指示に乗ってしまう可能性はゼロにできません。だから agens は、AIを信じることではなく、危険な操作が起きても“被害が広がらない”構造を土台にしています。
リスクは2つの成分で捉えると見通しがよくなります。ひとつは「失敗の起きやすさ」、もうひとつは「起きたときに被害が及ぶ範囲」です。後者を blast radius(被害範囲)と呼びます。Anthropic は2026年5月の技術記事で、エージェントが強くなるほど守りの重心は『失敗を防ぐ』から『被害範囲を上限で抑える』へ移る、と整理しています(Anthropic「How we contain Claude across products」2026-05-25)。
実際、Anthropic が引用する第三者ベンチ(Gray Swan の Agent Red Teaming)では、最新モデル(Claude Opus 4.7)への攻撃成功率は単発で約0.1%と非常に低い一方、100回の適応的な試行を重ねると約5〜6%まで上がるとされます。防御は強くても、ゼロにはならない——だからこそ“破られても被害が広がらない”構造が要る、というのが封じ込めの発想です。
封じ込めは1種類ではない
この記事の読み方(実装と設計の線引き)
本記事の『被害範囲(blast radius)』や封じ込め強度のスペクトラムは、Anthropic などの公開記事や業界で共有されている設計の考え方です(数値はいずれも各社の測定値で、agens の実績値ではありません)。agens が実際に備えるのは、タスクごとの使い捨てサンドボックス・最小権限・通信制御・人間の承認・監査ログ・操作の巻き戻し・異常時の自動停止で、これらを土台に“仕事に合った強度で囲む”という設計です。
強度は“仕事”で選ぶ
強い隔離ほど安全ですが、用意や運用の手間も増えます。だからすべてを最強の隔離で動かすのではなく、仕事の性質に応じて“ちょうどいい”強度を選ぶのが現実的です。
目安は3つ。扱うデータの機密度(高いほど強く)、任せる人の習熟度(不慣れなほど強く)、操作の取り返しのつかなさ(戻せないほど強く)。この3つで、その仕事に必要十分な封じ込めを決めます。
業界でも、実行環境は隔離方式によって強度と軽さのトレードオフが分かれます。コンテナをカーネルごと分ける方式(AWS の Firecracker などの microVM)は隔離が強く、共有カーネルのコンテナ方式は起動が速い、という具合です。エージェント向けの実行サンドボックスを提供する E2B・Daytona・Modal・Cloudflare なども、それぞれ異なる強度の選択肢を用意しています。どれが正解ということではなく、仕事に合わせて選ぶものです。
仕事ごとに、必要十分な強度を選ぶ
「許可した宛先」でなく「許可した“操作”」で絞る
封じ込めで見落とされがちなのが、通信の許可リスト(allowlist)の捉え方です。「この宛先(ドメイン)は許可」とだけ決めると、実はその宛先で“できること”すべてを許可したことになります。あるサービスのドメインを許可しただけのつもりが、そのサービス上のファイルアップロード機能まで開いてしまう——つまりデータの持ち出し経路を与えてしまう、ということが起こり得ます。Anthropic も前述の記事で、許可ドメインを“宛先のフィルタ”と捉えていたために許可先の全機能が開いていた、と振り返っています。
だから agens は、外部への送信を既定で絞り、許可した宛先・操作の範囲だけに限ります。「宛先」ではなく「できる操作」の粒度で考えるのが、持ち出しを防ぐ要点です。
許可リストは“宛先”でなく“能力”で考える
信頼している相手の操作でも、最後に効くのは“境界”
もうひとつの教訓は、「信頼できる相手だから安全」とは限らない、という点です。AIに紛れ込む不正な指示(プロンプトインジェクション)を見分けるモデル側の仕組みは、利用者本人の意図を手がかりにします。だから、もし悪意ある指示が“本人の操作”として入ってくると、振る舞いベースの検知はすり抜けやすくなります。
こうした“確率的な防御が全部外れたとき”に最後に効くのが、決定論的な環境の境界です。隔離されていれば、何が起きても被害はその箱の中にとどまります。agens が監査ログ・操作の巻き戻し・異常時の自動停止まで備えるのは、「起きないようにする」だけでなく「起きても被害を局所化し、後から戻せる」ためです。
🛡 だから、安全に任せられる
封じ込めの要点は、AIを賢く信じることではなく、被害が及ぶ範囲を構造で小さく抑えること。隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、仕事ごとに“ちょうどいい”強度を選びます。サンドボックスも監査も、オンプレミスや国内リージョンで完結させられます。脅威への多層防御の全体像は「セキュリティ設計」を、組織としての権限分離は「統制設計」をあわせてご覧ください。
よくある質問
封じ込め(コンテインメント)とは何ですか?
なぜ封じ込めを1種類にしないのですか?
許可リスト(allowlist)だけでは不十分なのですか?
信頼している相手の操作なら安全ですか?
オンプレミスや国内リージョンでも封じ込めは効きますか?
最終更新: 2026-06
