Engineering · セキュリティ

agens の封じ込め設計 — サンドボックスは1種類ではない。仕事ごとに“被害の範囲”で強度を選ぶ

実行型AIを安全に任せる鍵は、危険を完璧に予防することではなく、万一のときに被害が及ぶ範囲(blast radius)を構造で小さく抑えること。封じ込めは1種類ではなく、仕事ごとに“ちょうどいい”強度を選びます。

要点

  • 安全は「賢いAIを信じる」ことではなく「危険なことが起きても被害が及ぶ範囲(blast radius)を小さく抑える」構造で作る。
  • 振る舞いを整えるモデル側の対策は確率的で、100%にはならない。決定論的に効く“環境の境界”(隔離・通信制御)を主役に置く。
  • 封じ込めは1種類ではない。使い捨て環境/承認つき実行/専用VM・隔離環境など、強度の違う選択肢がある。
  • agens は隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、扱うデータの機密度や取り返しのつかなさに応じて強度を選ぶ。
  • 「許可した宛先」ではなく「許可した“操作”」で絞り、外部送信は既定で止める。オンプレミス/国内リージョンでも同じ統制を効かせられる。

“賢いAI”ではなく“被害が広がらない構造”で守る

AIに業務を任せるとき、安全性をAIの賢さに委ねるのは危うい設計です。どれだけ優秀でも、外から紛れ込んだ指示に乗ってしまう可能性はゼロにできません。だから agens は、AIを信じることではなく、危険な操作が起きても“被害が広がらない”構造を土台にしています。

リスクは2つの成分で捉えると見通しがよくなります。ひとつは「失敗の起きやすさ」、もうひとつは「起きたときに被害が及ぶ範囲」です。後者を blast radius(被害範囲)と呼びます。Anthropic は2026年5月の技術記事で、エージェントが強くなるほど守りの重心は『失敗を防ぐ』から『被害範囲を上限で抑える』へ移る、と整理しています(Anthropic「How we contain Claude across products」2026-05-25)。

実際、Anthropic が引用する第三者ベンチ(Gray Swan の Agent Red Teaming)では、最新モデル(Claude Opus 4.7)への攻撃成功率は単発で約0.1%と非常に低い一方、100回の適応的な試行を重ねると約5〜6%まで上がるとされます。防御は強くても、ゼロにはならない——だからこそ“破られても被害が広がらない”構造が要る、というのが封じ込めの発想です。

封じ込めは1種類ではない

使い捨て環境能力 限定・被害 最小承認つき実行能力 中・人が承認専用VM/隔離能力 大・完全分離隔離の強さ能力(任せる範囲)が大きいほど、万一の被害が及ぶ範囲も広い → 隔離を強める肝心なのは、仕事ごとに“ちょうどいい”強度を選ぶこと
使い捨て環境・承認つき実行・専用VM/隔離環境など、強度の違う封じ込めがある。任せる範囲が大きいほど被害が及ぶ範囲も広いため隔離を強める——肝心なのは仕事ごとに“ちょうどいい”強度を選ぶこと。

この記事の読み方(実装と設計の線引き)

本記事の『被害範囲(blast radius)』や封じ込め強度のスペクトラムは、Anthropic などの公開記事や業界で共有されている設計の考え方です(数値はいずれも各社の測定値で、agens の実績値ではありません)。agens が実際に備えるのは、タスクごとの使い捨てサンドボックス・最小権限・通信制御・人間の承認・監査ログ・操作の巻き戻し・異常時の自動停止で、これらを土台に“仕事に合った強度で囲む”という設計です。

強度は“仕事”で選ぶ

強い隔離ほど安全ですが、用意や運用の手間も増えます。だからすべてを最強の隔離で動かすのではなく、仕事の性質に応じて“ちょうどいい”強度を選ぶのが現実的です。

目安は3つ。扱うデータの機密度(高いほど強く)、任せる人の習熟度(不慣れなほど強く)、操作の取り返しのつかなさ(戻せないほど強く)。この3つで、その仕事に必要十分な封じ込めを決めます。

業界でも、実行環境は隔離方式によって強度と軽さのトレードオフが分かれます。コンテナをカーネルごと分ける方式(AWS の Firecracker などの microVM)は隔離が強く、共有カーネルのコンテナ方式は起動が速い、という具合です。エージェント向けの実行サンドボックスを提供する E2B・Daytona・Modal・Cloudflare なども、それぞれ異なる強度の選択肢を用意しています。どれが正解ということではなく、仕事に合わせて選ぶものです。

仕事ごとに、必要十分な強度を選ぶ

3つの問いで決めるデータの機密度高いほど強く任せる人の習熟度不慣れほど強く取り返しのつかなさ戻せないほど強く封じ込め強度を仕事ごとに選ぶ最小で十分な隔離過不足なくどの強度でも、監査ログと巻き戻しは常に効く
データの機密度・任せる人の習熟度・取り返しのつかなさから、封じ込めの強度を仕事ごとに選ぶ。どの強度を選んでも、監査ログと操作の巻き戻しは常に効く。

「許可した宛先」でなく「許可した“操作”」で絞る

封じ込めで見落とされがちなのが、通信の許可リスト(allowlist)の捉え方です。「この宛先(ドメイン)は許可」とだけ決めると、実はその宛先で“できること”すべてを許可したことになります。あるサービスのドメインを許可しただけのつもりが、そのサービス上のファイルアップロード機能まで開いてしまう——つまりデータの持ち出し経路を与えてしまう、ということが起こり得ます。Anthropic も前述の記事で、許可ドメインを“宛先のフィルタ”と捉えていたために許可先の全機能が開いていた、と振り返っています。

だから agens は、外部への送信を既定で絞り、許可した宛先・操作の範囲だけに限ります。「宛先」ではなく「できる操作」の粒度で考えるのが、持ち出しを防ぐ要点です。

許可リストは“宛先”でなく“能力”で考える

一見、安全な許可許可:example.com実は“その宛先でできること”すべてが開くデータ取得設定変更ファイル送信外部へ持ち出し持ち出し系まで一緒に開いてしまうだから“宛先”でなく“できる操作”で絞り、外部送信は既定で止める
宛先ドメインを許可すると、その宛先で“できること”すべて(データ取得だけでなく送信・持ち出しまで)が一緒に開く。だから宛先でなく操作の粒度で絞り、外部送信は既定で止める。

信頼している相手の操作でも、最後に効くのは“境界”

もうひとつの教訓は、「信頼できる相手だから安全」とは限らない、という点です。AIに紛れ込む不正な指示(プロンプトインジェクション)を見分けるモデル側の仕組みは、利用者本人の意図を手がかりにします。だから、もし悪意ある指示が“本人の操作”として入ってくると、振る舞いベースの検知はすり抜けやすくなります。

こうした“確率的な防御が全部外れたとき”に最後に効くのが、決定論的な環境の境界です。隔離されていれば、何が起きても被害はその箱の中にとどまります。agens が監査ログ・操作の巻き戻し・異常時の自動停止まで備えるのは、「起きないようにする」だけでなく「起きても被害を局所化し、後から戻せる」ためです。

🛡 だから、安全に任せられる

封じ込めの要点は、AIを賢く信じることではなく、被害が及ぶ範囲を構造で小さく抑えること。隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、仕事ごとに“ちょうどいい”強度を選びます。サンドボックスも監査も、オンプレミスや国内リージョンで完結させられます。脅威への多層防御の全体像は「セキュリティ設計」を、組織としての権限分離は「統制設計」をあわせてご覧ください。

よくある質問

封じ込め(コンテインメント)とは何ですか?
危険な操作が起きても被害が及ぶ範囲(blast radius)を、隔離や通信制御といった“環境の境界”で構造的に小さく抑える考え方です。振る舞いを整える対策が確率的なのに対し、環境の境界は決定論的に効くため、agens は後者を主役に据えています。
なぜ封じ込めを1種類にしないのですか?
強い隔離ほど安全ですが手間も増えます。扱うデータの機密度・任せる人の習熟度・操作の取り返しのつかなさに応じて“ちょうどいい”強度を選ぶほうが、安全と使いやすさを両立できるためです。
許可リスト(allowlist)だけでは不十分なのですか?
宛先を許可すると、その宛先で“できること”すべて(送信・持ち出しを含む)が一緒に開いてしまいます。agens は宛先でなく“できる操作”の粒度で絞り、外部送信は既定で止めます。
信頼している相手の操作なら安全ですか?
不正な指示が本人の操作として紛れ込むと、振る舞いベースの検知はすり抜けやすくなります。最後に効くのは隔離などの環境の境界で、agens は監査ログと操作の巻き戻し、異常時の自動停止で被害の局所化と復旧に備えます。
オンプレミスや国内リージョンでも封じ込めは効きますか?
はい。サンドボックスも監査も、オンプレミスや国内リージョンで完結させられます。データを外に出せない要件でも、隔離・最小権限・通信制御・監査・巻き戻しを効かせられます。

最終更新: 2026-06