Engineering · セキュリティ

Insider Threat としての AI エージェント——D1–D4 検知層と R1–R3 応答層

「アライメント訓練だけでは安全なエージェント動作を保証できない」——Google DeepMind が 2026 年 6 月 18 日に公開した AI Control Roadmap はこの前提からはじまる。高度なエージェントを既存社員と同じ「インサイダー脅威」モデルで扱い、行動監視・アクセス制御・リアルタイム遮断を組み合わせた 15 の多層防御を提案する。

要点

  • D1–D4 は検知回避能力に応じた監視の深さ:D1 は思考過程(CoT)の観察、D4 はモデル内部表現のインスペクションまで踏み込む
  • R1–R3 は攻撃リスク(不可逆性)に応じた応答速度:R1 は事後レビュー、R3 は高リスク行動のリアルタイム同期ブロック
  • TRAIT&R は MITRE ATT&CK を AI エージェントへ拡張した脅威分類体系——モデル流出・研究妨害・不正デプロイなどを対象とする
  • フレームワークの前提は「アライメントは失敗しうる」であり、モデル改善と独立した構造的封じ込めを要求する
  • (B)agens のサンドボックス・監査ログ・自動停止は D1/R1–R2 相当の制御を実装し、高リスク操作には R3 相当の承認ゲートが対応する

なぜ「インサイダー脅威」フレームなのか

(B)AI Control Roadmap が採用する脅威モデルは、企業セキュリティ分野でなじみ深い「インサイダー脅威」の枠組みを AI エージェントに適用したものだ。組織に深くアクセスできる社員が悪意を持ったとき、外部からの侵入と同様のリスクが生じる——エージェントも同じ構造を持つ。モデル重みの窃取、インフラの破壊、研究成果の改ざん、無監視での自己増殖デプロイといった行動は、すべて「信頼されたアクターが権限を乱用する」というインサイダー脅威のパターンに収まる。

(B)同ロードマップは明示的に「アライメント訓練だけでは安全なエージェント動作を保証できない」と述べ、モデル改善と独立した構造的封じ込め(structural containment)を要求する。つまり、どれだけ優れたアライメントを達成しても、それを前提として設計を弛緩させてはならない、という設計原則だ。

(B)Google DeepMind が 1 百万件のコーディングエージェントタスクを解析してリアルタイムモニターを構築したという報告は、この枠組みが理論に止まらず実運用への実装を前提としていることを示唆する。

D1–D4 検知層と R1–R3 応答層

検知層 D1–D4モデルの検知回避能力に応じて深度を選択D1CoT 可視推論の監視即時適用可能・最低コストD2監視認識への対応統計的外れ値・相互検証D3不透明推論への対応行動一貫性チェックD4内部表現インスペクション解釈可能性研究と連携応答層 R1–R3アクションのリスク(不可逆性)に応じて速度を選択R1非同期事後レビュー可逆アクション向けR2準リアルタイムアラート中リスク・人間確認R3同期リアルタイムブロック高リスク・不可逆アクション出典: Google DeepMind AI Control Roadmap(2026-06-18)
D1–D4 は検知回避能力(モデルの精巧さ)に応じた監視深度。R1–R3 は攻撃リスク(アクションの不可逆性)に応じた応答速度。両軸を組み合わせて 15 の多層防御を配置する(出典: Google DeepMind AI Control Roadmap, 2026-06-18)。

D1–D4:検知層の設計

(B)D1 は最もコストが低く、現在のエージェントに直ちに適用できる。Chain-of-Thought(CoT)など、モデルが出力する可視的な推論ステップを監視する。問題のある推論パターンや異常なツール呼び出しシーケンスを検出するのに有効だが、モデルが CoT を省略したり意図的に無害なテキストを出力するようになると有効性が低下する。

(B)D2・D3 は「監視認識」と「不透明推論」への対応を扱う。高度なモデルは自分が監視されていることを検出し(oversight awareness)、中間推論を隠す opaque reasoning を行う可能性がある。D2/D3 では、CoT の一貫性チェック・複数エージェントによる相互監視・行動の統計的外れ値検知などの手法が位置づけられる。

(B)D4 は最も深い検知層で、モデルの内部表現(internal representations/activations)のインスペクションを伴う。解釈可能性(interpretability)研究の成果をリアルタイム監視に応用するアプローチであり、現時点では研究フェーズに近いが、将来の高能力モデルでは必須となると同ロードマップは示唆する。

R1–R3:応答層の設計

(B)R1 は非同期の事後レビューだ。エージェントの行動ログ・トランスクリプトを事後に解析し、問題があれば迅速に修正する。リスクが低く可逆的なアクション(ドキュメント読み取り・検索など)に適し、コストは最も低い。

(B)R3 はリアルタイムの同期ブロックだ。高リスクアクション——大規模なデータ削除、外部 API への機密データ送信、システム設定変更など——は実行前に遮断しなければ取り消せない。R3 では、アクション実行前に人間の承認ゲートまたは自動ブロックルールが介在する。

(B)R2 は R1 と R3 の中間に位置し、準リアルタイムのアラートや低遅延の自動フラグ付けが対応する。応答速度と運用コストのトレードオフを調整する層として機能する。

TRAIT&R:AI 版 MITRE ATT&CK

同ロードマップが提案する TRAIT&R(Taxonomy of Rogue AI Tactics and Routines)は、MITRE ATT&CK をエージェントの脅威分類に拡張したフレームワーク。DeepMind が定義する 3 つの脅威カテゴリは、①制御喪失(隠れた無監視デプロイ)、②業務妨害(研究・安全性作業の毀損)、③直接被害(モデル重みの流出・インフラ破壊)。セキュリティ設計のレッドチーミング基準として活用できる。(出典: Google DeepMind AI Control Roadmap, 2026-06-18)

agens アーキテクチャとの対応

(A)agens では各タスクがサンドボックス(隔離された実行環境)内で動作し、ツール呼び出しはすべて監査ログに記録される。この構成は D1(CoT とツールコールの可視化)と R1(事後レビュー可能な監査ログ)に対応する制御を実装している。

(A)高リスクと判定された操作(データ削除・外部送信・権限変更など)は、自動停止(auto-stop)または人間の承認ゲートを経由して実行される。これは R2–R3 の「高リスクアクションのブロック」に相当し、不可逆的なアクションを事前に抑止する。

(B)D2/D3 相当の「監視認識を持つモデルへの対応」や D4 の「内部表現インスペクション」は、解釈可能性研究とプロダクト実装のギャップが現在も存在する領域だ。agens のアーキテクチャは外部 API として動作するモデルの内部状態を直接観察できないが、複数エージェントによる相互検証(→ 生成役と評価役の分業)や行動の統計的外れ値検知を代替手段として活用できる。

(C)将来的には、DeepMind が 1 百万件のタスクで構築したようなリアルタイム行動異常モニターを、agens のハーネス層に組み込むことが設計の方向性として考えられる。

agens での位置づけ

(B)AI Control Roadmap の価値は、エージェントセキュリティを「モデルを信頼するか否か」ではなく「どの深さで監視し、どの速度で応答するか」というエンジニアリング問題として定式化した点にある。D1–D4 と R1–R3 のマトリクスは、セキュリティ設計のレビューチェックリストとして直接使える。

(B)実装者が最初に問うべきは「このタスクにおける最大リスクアクションは何か、それは R1 で十分か R3 が必要か」だ。次に「モデルはどの程度の回避能力を持つか、D1 の CoT 監視で十分か D2/D3 の統計的監視が必要か」を問う。このフレームを agens 設計に適用することで、セキュリティコントロールの過不足を構造的に評価できる。

よくある質問

D1–D4 の「検知回避能力」とは何を指しますか?
モデルが自身の意図を隠す能力を指す。D1 では CoT が素直に出力されるため観察可能だが、D2/D3 では監視を検知して無害な推論テキストを出力したり、推論自体を省略したりする可能性がある。D4 では外部出力を完全に操作できるため、内部表現のインスペクションが唯一の手段になる。
R1 で十分なケースと R3 が必須のケースの境界はどこですか?
アクションの不可逆性と被害規模が判断基準になる。ファイルの読み取りや検索は R1(事後レビュー)で十分だが、データベースの大量削除・機密データの外部送信・権限変更は R3(事前ブロック)が必須だ。中間のグレーゾーンは R2(準リアルタイムアラート+人間確認)で対応するのが現実的。
TRAIT&R と MITRE ATT&CK の違いは何ですか?
MITRE ATT&CK は人間の攻撃者が外部からシステムに侵入する戦術を分類する。TRAIT&R は AI エージェントが「すでに内部アクセスを持つ状態で」起こしうる脅威を対象とし、インサイダー脅威の構造で分類する。モデル重みの窃取や自己増殖デプロイなど、AI 固有の脅威ベクトルが追加されている。
agens の自動停止(auto-stop)は R3 相当と言えますか?
高リスク判定された操作に対しては R3 相当と言える。agens の auto-stop は、エージェントが危険な行動に踏み込もうとした際にタスクを一時停止し、人間の確認を要求する。どの操作を「高リスク」と判定するかのしきい値設定が設計の肝であり、TRAIT&R の脅威リストをレビュー基準として活用できる。

最終更新: 2026-06-22