Engineering · セキュリティ

agens の封じ込め設計 — サンドボックスは1種類ではない。仕事ごとに“被害の範囲”で強度を選ぶ

実行型AIを安全に任せる鍵は、危険を完璧に予防することではなく、万一のときに被害が及ぶ範囲（blast radius）を構造で小さく抑えること。封じ込めは1種類ではなく、仕事ごとに“ちょうどいい”強度を選びます。

要点

✓安全は「賢いAIを信じる」ことではなく「危険なことが起きても被害が及ぶ範囲（blast radius）を小さく抑える」構造で作る。
✓振る舞いを整えるモデル側の対策は確率的で、100%にはならない。決定論的に効く“環境の境界”（隔離・通信制御）を主役に置く。
✓封じ込めは1種類ではない。使い捨て環境／承認つき実行／専用VM・隔離環境など、強度の違う選択肢がある。
✓agens は隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、扱うデータの機密度や取り返しのつかなさに応じて強度を選ぶ。
✓「許可した宛先」ではなく「許可した“操作”」で絞り、外部送信は既定で止める。オンプレミス／国内リージョンでも同じ統制を効かせられる。

“賢いAI”ではなく“被害が広がらない構造”で守る

AIに業務を任せるとき、安全性をAIの賢さに委ねるのは危うい設計です。どれだけ優秀でも、外から紛れ込んだ指示に乗ってしまう可能性はゼロにできません。だから agens は、AIを信じることではなく、危険な操作が起きても“被害が広がらない”構造を土台にしています。

リスクは2つの成分で捉えると見通しがよくなります。ひとつは「失敗の起きやすさ」、もうひとつは「起きたときに被害が及ぶ範囲」です。後者を blast radius（被害範囲）と呼びます。Anthropic は2026年5月の技術記事で、エージェントが強くなるほど守りの重心は『失敗を防ぐ』から『被害範囲を上限で抑える』へ移る、と整理しています（Anthropic「How we contain Claude across products」2026-05-25）。

実際、Anthropic が引用する第三者ベンチ（Gray Swan の Agent Red Teaming）では、最新モデル（Claude Opus 4.7）への攻撃成功率は単発で約0.1%と非常に低い一方、100回の適応的な試行を重ねると約5〜6%まで上がるとされます。防御は強くても、ゼロにはならない——だからこそ“破られても被害が広がらない”構造が要る、というのが封じ込めの発想です。

封じ込めは1種類ではない

使い捨て環境・承認つき実行・専用VM／隔離環境など、強度の違う封じ込めがある。任せる範囲が大きいほど被害が及ぶ範囲も広いため隔離を強める——肝心なのは仕事ごとに“ちょうどいい”強度を選ぶこと。

この記事の読み方（実装と設計の線引き）

本記事の『被害範囲（blast radius）』や封じ込め強度のスペクトラムは、Anthropic などの公開記事や業界で共有されている設計の考え方です（数値はいずれも各社の測定値で、agens の実績値ではありません）。agens が実際に備えるのは、タスクごとの使い捨てサンドボックス・最小権限・通信制御・人間の承認・監査ログ・操作の巻き戻し・異常時の自動停止で、これらを土台に“仕事に合った強度で囲む”という設計です。

強度は“仕事”で選ぶ

強い隔離ほど安全ですが、用意や運用の手間も増えます。だからすべてを最強の隔離で動かすのではなく、仕事の性質に応じて“ちょうどいい”強度を選ぶのが現実的です。

目安は3つ。扱うデータの機密度（高いほど強く）、任せる人の習熟度（不慣れなほど強く）、操作の取り返しのつかなさ（戻せないほど強く）。この3つで、その仕事に必要十分な封じ込めを決めます。

業界でも、実行環境は隔離方式によって強度と軽さのトレードオフが分かれます。コンテナをカーネルごと分ける方式（AWS の Firecracker などの microVM）は隔離が強く、共有カーネルのコンテナ方式は起動が速い、という具合です。エージェント向けの実行サンドボックスを提供する E2B・Daytona・Modal・Cloudflare なども、それぞれ異なる強度の選択肢を用意しています。どれが正解ということではなく、仕事に合わせて選ぶものです。

仕事ごとに、必要十分な強度を選ぶ

データの機密度・任せる人の習熟度・取り返しのつかなさから、封じ込めの強度を仕事ごとに選ぶ。どの強度を選んでも、監査ログと操作の巻き戻しは常に効く。

「許可した宛先」でなく「許可した“操作”」で絞る

封じ込めで見落とされがちなのが、通信の許可リスト（allowlist）の捉え方です。「この宛先（ドメイン）は許可」とだけ決めると、実はその宛先で“できること”すべてを許可したことになります。あるサービスのドメインを許可しただけのつもりが、そのサービス上のファイルアップロード機能まで開いてしまう——つまりデータの持ち出し経路を与えてしまう、ということが起こり得ます。Anthropic も前述の記事で、許可ドメインを“宛先のフィルタ”と捉えていたために許可先の全機能が開いていた、と振り返っています。

だから agens は、外部への送信を既定で絞り、許可した宛先・操作の範囲だけに限ります。「宛先」ではなく「できる操作」の粒度で考えるのが、持ち出しを防ぐ要点です。

許可リストは“宛先”でなく“能力”で考える

宛先ドメインを許可すると、その宛先で“できること”すべて（データ取得だけでなく送信・持ち出しまで）が一緒に開く。だから宛先でなく操作の粒度で絞り、外部送信は既定で止める。

信頼している相手の操作でも、最後に効くのは“境界”

もうひとつの教訓は、「信頼できる相手だから安全」とは限らない、という点です。AIに紛れ込む不正な指示（プロンプトインジェクション）を見分けるモデル側の仕組みは、利用者本人の意図を手がかりにします。だから、もし悪意ある指示が“本人の操作”として入ってくると、振る舞いベースの検知はすり抜けやすくなります。

こうした“確率的な防御が全部外れたとき”に最後に効くのが、決定論的な環境の境界です。隔離されていれば、何が起きても被害はその箱の中にとどまります。agens が監査ログ・操作の巻き戻し・異常時の自動停止まで備えるのは、「起きないようにする」だけでなく「起きても被害を局所化し、後から戻せる」ためです。

🛡 だから、安全に任せられる

封じ込めの要点は、AIを賢く信じることではなく、被害が及ぶ範囲を構造で小さく抑えること。隔離・最小権限・通信制御・人間の承認・監査と巻き戻しを土台に、仕事ごとに“ちょうどいい”強度を選びます。サンドボックスも監査も、オンプレミスや国内リージョンで完結させられます。脅威への多層防御の全体像は「セキュリティ設計」を、組織としての権限分離は「統制設計」をあわせてご覧ください。

よくある質問

封じ込め（コンテインメント）とは何ですか？

危険な操作が起きても被害が及ぶ範囲（blast radius）を、隔離や通信制御といった“環境の境界”で構造的に小さく抑える考え方です。振る舞いを整える対策が確率的なのに対し、環境の境界は決定論的に効くため、agens は後者を主役に据えています。

なぜ封じ込めを1種類にしないのですか？

強い隔離ほど安全ですが手間も増えます。扱うデータの機密度・任せる人の習熟度・操作の取り返しのつかなさに応じて“ちょうどいい”強度を選ぶほうが、安全と使いやすさを両立できるためです。

許可リスト（allowlist）だけでは不十分なのですか？

宛先を許可すると、その宛先で“できること”すべて（送信・持ち出しを含む）が一緒に開いてしまいます。agens は宛先でなく“できる操作”の粒度で絞り、外部送信は既定で止めます。

信頼している相手の操作なら安全ですか？

不正な指示が本人の操作として紛れ込むと、振る舞いベースの検知はすり抜けやすくなります。最後に効くのは隔離などの環境の境界で、agens は監査ログと操作の巻き戻し、異常時の自動停止で被害の局所化と復旧に備えます。

オンプレミスや国内リージョンでも封じ込めは効きますか？

はい。サンドボックスも監査も、オンプレミスや国内リージョンで完結させられます。データを外に出せない要件でも、隔離・最小権限・通信制御・監査・巻き戻しを効かせられます。

最終更新: 2026-06

agens を実際に動かしてみませんか?

デモ・お問い合わせ agens を詳しく見る他の技術解説を見る