Engineering · アーキテクチャ

なぜ最新モデルは賢いのか — 能力の在りかと、ハーネスで近づけられる範囲

モデルの賢さの大半は“重み（学習で身についた中身）”に宿る。ハーネスはそのうち『段取り』を外から作り直し、強い基盤モデルの実力を実務の長さまで引き出す——ただし地力そのものは超えられません。

要点

✓能力は4層で捉えると分かりやすい：①地頭（事前学習）②段取り（エージェント学習）③熟考（推論時の計算）④専門技（特化学習）。
✓普通のモデルとの一番の差は②段取り。Fable 5 が示した『数日規模を自律で走り切る』も、本質は段取りが“重みの中”に焼き込まれていること。
✓長い仕事が難しいのは“複利エラー”。1手の成功率がわずかに違うだけで、何十手も続くと結果は大きく開く。フロンティアは各手の精度が高く、誤りを自分で直せる。
✓ハーネス（足場）は外から2つのつまみを回す：手数を減らす（N↓）／各手の精度を上げる（p↑）。スキルは“段取りそのもの”の外付け。
✓だから“強い基盤モデル × ハーネス”は実効品質を底上げできるが、上限は地力が決める。弱いモデルを足場でフロンティア級にはできない。だから agens は強いモデルを差し替えて使う。

“賢さ”はどこに宿っているのか

最上位ティアとして公開された Claude Fable 5（2026-06-09）のようなモデルの“賢さ”は、魔法ではなく構造で捉えられます。能力は大きく4つの層に分けられます。会社にたとえると、こうです。

①地頭（事前学習）— 基礎的な知識と推論の素地
②段取り（エージェント学習）— 仕事の進め方
③熟考（推論時の計算）— 答える前に考える
④専門技（特化学習）— 狭い領域の卓越

大事なのは、この4層のうち“モデルの中（重み）”にしかないものと、“外側の仕組み”で補えるものを分けて理解すること。ここを切り分けると、自社の構成でどこまで再現でき、どこを基盤モデル選びに委ねるべきかが見えてきます。

能力の在りか（4層）

能力は4層に分かれ、ハーネスで外から作り直せるのは②段取り・③熟考の一部まで。①地頭・④専門技は重みの中だけに宿る。

普通のモデルとの一番の差は『段取り』

短い質問なら、普通のモデルとフロンティアモデルの差は小さい。差が開くのは“長い仕事”です。Fable 5 が訴求した「数日規模の作業を自律で走り切る」水準の正体は、②段取りが重みの中に焼き込まれていることにあります（Anthropic はエージェントを「自分で手順を決め、ツールを使い、達成の仕方を自分で握るシステム」と定義。Building effective agents, 2024-12）。

ここでいう「段取り」とは、次の総体です。

計画を立てる
ツールを選ぶ
結果を読む
自分の誤りに気づいて直す
脱線せず最後までやり切る

これは“ハーネスがやること”とほとんど同じです。違いは、片方はそれを重みの中に、もう片方はコードで外側に持っていること。だからこそ、外側でも一部を作り直せます。

なぜ“長い仕事”だけ特別に難しいのか

1手あたりの成功率を p、仕事が N 手の連鎖を要するとき、全体の成功率はおおよそ p の N 乗になります。

p＝95% でも、20手で約36%
100手では1%未満

わずかな差が、長い仕事では指数的に効いてきます。では、フロンティアモデルはなぜ長くても崩れないのか。理由は2点だけです。

1.各手の精度そのものが高い（p が高い）
2.間違えても自分で気づいて直せる（実質のミス率がさらに下がる）

METR は能力を「成功率を一定に保てる作業時間の長さ」で測り、「“半分できる”は“任せられる”を意味しない。実務で委任するには高い成功率が要る」と述べています（2026-01）。

複利エラーの崖

全体の成功率は 1手の成功率（p）の N 乗で下がる。各手の精度が高いモデルは長い仕事でも保ち、低いモデルは早く崩れる。

ハーネスは“2つのつまみ”を外から回す

全体の成功率 ≈ p の N 乗。ハーネス（足場）は、この両方のつまみに効きます。

N を下げる — 仕事を分割して手数を減らす
p を上げる — 検証やサンドボックスで各手の精度を上げる

agens はこれを製品の部品として備えています。

プランナー — 仕事を分割（N↓）
検証ループ — テスト・批評で誤りを捕まえる（p↑）
サンドボックス実行 — 操作を実環境で走らせ“結果という事実”で確かめる（p↑）
スキル — 手順＝段取りを外付けして能力を足す
メモリ・フォルダ — 成果を会話の外に持ち越し文脈を保つ（実質 N↓）
チェックポイント／サブエージェント — 失敗の巻き戻しを局所化し、並列で手数を分ける

ハーネス設計そのものがスコアを動かすことは、研究でも繰り返し示されています。

SWE-agent（プリンストン大, 2024）— モデルを固定したまま“ツールの使い勝手（ACI）”を作り直すだけでコード課題の解決率が +10.7pt
Anthropic（engineering, 2025）— 複数エージェントの分担構成が単一構成を +90.2% 上回ったと報告（自社申告のため幅をもって）
AHE（arXiv 2604.25850, 2026）— モデルを固定したままハーネスを自動進化させるだけで Terminal-Bench 2 が +7.3pt

ハーネスを6つのレイヤーで捉える

中心は①オーケストレーション（ゴール→計画→実行→検証→修正↺→完了のループ）。各フェーズが②ツール接続・③実行環境・⑤検証品質を呼び、④記憶・状態を読み書きしながら⑥再利用・統制の土台の上で動く。

“足場”をもう少し分解すると、ハーネスは6つのレイヤーで整理できます。それぞれの役割・代表的な実装技術（2026年6月時点）・効くつまみ（p↑ / N↓）は次の通りです。

① オーケストレーション（制御 / N↓）— ループ制御・タスク分解・マルチエージェント協調／ Claude Agent SDK・LangGraph 等
② ツール接続（行動 / p↑）— 外部サービスに作用／ MCP・関数呼び出し・computer-use
③ 実行環境（接地 / p↑）— 安全に実行し“結果という事実”で確かめる／サンドボックス（コンテナ・bash/Python）
④ 記憶・状態（継続 / N↓）— 長い文脈を保ち中断から巻き戻す／文脈圧縮・外部メモリ（RAG）・チェックポイント
⑤ 検証・品質（正しさ / p↑）— 誤りを捕まえ合格基準を満たす／テスト・LLM-as-judge・権限ポリシー（人の承認）
⑥ 再利用・統制（蓄積 / N↓）— 手順を再利用し信頼性を資産化／ Skills・監査・可観測性

ポイントは、この6レイヤーがすべてモデルの外側にあること。だから原理的に、どのモデルにも繋ぎ替えられます——これが、次の「モデルフリー」設計の土台です。

モデルフリーで近づける構成

入替可能な“強い”基盤モデル（①＝能力の上限）の上に、プランナー・検証ループ・サンドボックス実行・スキル・メモリ・チェックポイント・マルチエージェント分業（②＝上限を実務の長さまで引き出す）を重ねる。サンドボックスとスキルは agens が強みとする足場。

では、できることとできないこと

外から作り直せるのは②段取り・③熟考の一部まで。①地頭と④専門技は重みの中にしかありません。だから足場をいくら足しても、“分割できない1手”が基盤モデルの実力を超えていたら解けない——検証ループは誤りを捕まえられても、正解そのものを生み出すわけではないからです。

言い換えると、足場は“モデルにできないこと”の裏返し。モデルが強くなるほど足場は外せる——複雑さは消えるのではなく、移るだけです。だから「弱いモデルを足場でフロンティア級にする」ことはできません。

足場は“できないこと”の裏返し

モデルが弱いほど足場（チェック・分割・再開）を多く要し、強くなるほど外せる。複雑さは縮むのでなく“移る”。

結論：強いモデルを“差し替えて”使う

現実的な最善手は、次の掛け算です。

1.できる限り強い基盤モデルを選ぶ（能力の上限を決める）
2.ハーネスで実務の長さまで引き出す
3.基盤モデルは入替可能にしておく

フロンティアの首位は数か月で入れ替わります（2026年だけでも Opus 4.8・Gemini・GPT・Fable 5）。差し替えられる組み立てなら、モデルの進化をそのまま業務品質に変えられます。

agens はこの分離を前提にした Multi-LLM 設計です。能力（スキル）・接続（MCP）・成果（フォルダ）・統制（権限分離・監査・巻き戻し）はモデルの外の層に置き、基盤モデルは構成の差し替えで選びます。設計の詳細は「モデルフリー設計」で解説しています。

実務での当てはめ — 効く／苦手／保険

最も効くのは分解でき検証できる“長い連鎖”（大規模コード移行・リサーチ・定型業務）。単発の“ひらめき”はモデルの地力勝負で苦手。おまけに、基盤モデルが入替可能なので1つが規制で消えてもサービスは止まらない＝単一モデル依存への保険。

よくある質問

なぜ普通のモデルとフロンティアモデルで、長い仕事ほど差が開くのですか？

長い仕事は“複利エラー”だからです。1手あたりの成功率がわずかに違うだけで、何十手も続くと全体の成功率は大きく開きます。フロンティアモデルは各手の精度が高く、誤りを自分で直せるため、長い作業ほど地力の差が効きます。

ハーネス（足場）で、普通のモデルを最上位モデル並みにできますか？

一部は近づけられますが、同等にはできません。足場は『仕事を分割して手数を減らす』『検証で各手の精度を上げる』の2点で実効品質を底上げします。ただし到達できる上限は基盤モデルの地力が決め、分割できない難所はモデルの実力を超えられません。

agens はモデルの能力にどう関わるのですか？

agens はハーネス側で、プランナー・検証ループ・サンドボックス実行・スキル・メモリ／フォルダ・サブエージェントといった“足場”を提供し、選んだ基盤モデルの実力を実務の長さまで引き出します。能力・接続・成果・統制はモデルの外の層に置く設計です。

最新モデルが出たり使えなくなったりしたとき、業務は作り直しになりますか？

なりません。スキル・MCP接続・フォルダ・記憶・統制をモデルの外に置く Multi-LLM 設計のため、モデルは構成の差し替えで選べます。詳しくは「モデルフリー設計」をご覧ください。

最終更新: 2026-06

agens を実際に動かしてみませんか?

デモ・お問い合わせ agens を詳しく見る他の技術解説を見る