Engineering · アーキテクチャ

なぜ最新モデルは賢いのか — 能力の在りかと、ハーネスで近づけられる範囲

モデルの賢さの大半は“重み(学習で身についた中身)”に宿る。ハーネスはそのうち『段取り』を外から作り直し、強い基盤モデルの実力を実務の長さまで引き出す——ただし地力そのものは超えられません。

要点

  • 能力は4層で捉えると分かりやすい:①地頭(事前学習)②段取り(エージェント学習)③熟考(推論時の計算)④専門技(特化学習)。
  • 普通のモデルとの一番の差は②段取り。Fable 5 が示した『数日規模を自律で走り切る』も、本質は段取りが“重みの中”に焼き込まれていること。
  • 長い仕事が難しいのは“複利エラー”。1手の成功率がわずかに違うだけで、何十手も続くと結果は大きく開く。フロンティアは各手の精度が高く、誤りを自分で直せる。
  • ハーネス(足場)は外から2つのつまみを回す:仕事を分割して手数を減らす(N↓)/検証・サンドボックスで各手の精度を上げる(p↑)。スキルは“段取りそのもの”の外付け。
  • (B)だから“強い基盤モデル × ハーネス”は実効品質を底上げできるが、上限は地力が決める。弱いモデルを足場でフロンティア級にはできない。だから agens は強いモデルを差し替えて使う。

“賢さ”はどこに宿っているのか

(B)最上位ティアとして公開された Claude Fable 5(2026-06-09)のようなモデルの“賢さ”は、魔法ではなく構造で捉えられます。能力は大きく4つの層に分けられます——会社にたとえると、①地頭(基礎的な知識と推論)、②段取り(仕事の進め方)、③熟考(答える前に考える)、④専門技(狭い領域の卓越)です。

(B)大事なのは、この4層のうち“モデルの中(学習済みの重み)”にしかないものと、“外側の仕組み”で補えるものを分けて理解することです。ここを切り分けると、自社の構成でどこまで再現でき、どこは基盤モデル選びに委ねるべきかが見えてきます。

能力の在りか(4層)

能力がどこに宿るか(会社にたとえると)“重み”=学習で身についた中身。色付きの2層だけ、ハーネスで外から一部 作り直せる。① 地頭(事前学習)知識の広さ・基礎推論の素地重みの中だけ② 段取り(エージェント学習)計画・自己訂正・最後までやり切る粘り一部 外付け可③ 熟考(推論時の計算)答える前に考える・探索する一部 外付け可④ 専門技(特化学習)狭い領域の超人的スキル重みの中だけハーネスは②段取り・③熟考を“外側”に作り直す装置。①地頭・④専門技は作れない。
能力は4層に分かれ、ハーネスで外から作り直せるのは②段取り・③熟考の一部まで。①地頭・④専門技は重みの中だけに宿る。

普通のモデルとの一番の差は『段取り』

(B)短い質問なら、普通のモデルとフロンティアモデルの差は小さい。差が開くのは“長い仕事”です。Fable 5 が訴求した「数日規模の作業を自律で走り切る」水準の正体は、②段取りが重みの中に焼き込まれていることにあります。Anthropic はエージェントを「自分で手順を決め、ツールを使い、どう達成するかを自分で握るシステム」と定義しています(Building effective agents, 2024-12)。

(B)段取りとは——計画する/ツールを選ぶ/結果を読む/自分の誤りに気づいて直す/脱線せず最後までやり切る、の総体です。これは“ハーネスがやること”とほとんど同じ。違いは、片方はそれを重みの中に、もう片方はコードで外側に持っていること。だからこそ、外側でも一部を作り直せるのです。

なぜ“長い仕事”だけ特別に難しいのか

(B)1手あたりの成功率を p、仕事が N 手の連鎖を要するとき、全体の成功率はおおよそ p の N 乗になります。p=95% でも、20手で約36%、100手では1%未満。わずかな差が、長い仕事では指数的に効いてきます。

(B)フロンティアモデルが強い理由は2点に集約されます——各手の精度そのものが高いこと、そして間違えても自分で気づいて直せること。METR は能力を「成功率を一定に保てる作業時間の長さ」で測り、「“半分できる”は“任せられる”を意味しない。実務で委任するには高い成功率が要る」と述べています(2026-01)。

複利エラーの崖

1.00.50050100作業のステップ数(手数)→全体成功率委任ライン:全体98%+ が必要(METR)20手 ≈ 36%100手 ≈ 0.6%99%(フロンティア)95%(普通)90%(弱い)フロンティアが強い理由は2つだけ① 各手のミスが少ない(p が高い)② ミスしても自己訂正 → 実質ミス率↓委任の“崖”(METR)「50%できる」は「任せられる」ではない安心して丸投げするには 全体98%+ が要る
全体の成功率は 1手の成功率(p)の N 乗で下がる。各手の精度が高いモデルは長い仕事でも保ち、低いモデルは早く崩れる。

ハーネスは“2つのつまみ”を外から回す

(B)全体の成功率 ≈ p の N 乗。ハーネス(足場)は、この両方に効きます——仕事を分割して手数 N を減らし、検証やサンドボックスで各手の精度 p を上げる。

(A)agens はこれを製品の部品として備えています。プランナー(分割)、検証ループ(テスト・批評)、サンドボックス実行(操作を実環境で走らせ、“結果という事実”で確かめて p を上げる)、スキル(手順=段取りを外付けして能力を足す)、メモリ・フォルダ(成果を会話の外に持ち越して文脈を保ち、実質の手数を減らす)、チェックポイントとサブエージェント(失敗の巻き戻しを局所化し、並列で手数を分ける)。

(B)ハーネス設計そのものがスコアを動かすことは研究でも示されています。プリンストン大の SWE-agent は、モデルを固定したまま“ツールの使い勝手(エージェントとコンピュータの接点)”を作り直すだけで、コード課題の解決率が上がりました(2024)。Anthropic も自社の調査タスクで、複数エージェントの分担構成が単一構成を大きく上回ったと報告しています(engineering, 2025)。さらに 2026 年の研究は、モデルを固定したままハーネス(システムプロンプト・ツール定義・記憶構成)を自動で進化させるだけでエージェントのベンチ成績が上がることを示しました(Terminal-Bench 2 で +7.3pt、arXiv 2604.25850)。

モデルフリーで近づける構成

① 入替可能な“強い”基盤モデル = 能力の“上限”Opus 4.8 / GPT-5.5 / Gemini 3.1 / オープンウェイト …② ハーネス = 上限を“実務の長さ”まで引き出すプランナー分割 → N↓検証ループ検品 → p↑サンドボックス実物で確認 → p↑スキル段取りを外付けメモリ・永続文脈を保つチェックポイント失敗を局所化 → N↓マルチ分業並列 → N↓数日規模の自律ワークフローを“実務的に代替”ただし到達できる上限は①の地力が決める(N↓: 手数を減らす / p↑: 各手の精度↑)
入替可能な“強い”基盤モデル(①=能力の上限)の上に、プランナー・検証ループ・サンドボックス実行・スキル・メモリ・チェックポイント・マルチエージェント分業(②=上限を実務の長さまで引き出す)を重ねる。サンドボックスとスキルは agens が強みとする足場。

では、できることとできないこと

(B)外から作り直せるのは②段取り・③熟考の一部まで。①地頭と④専門技は重みの中にしかありません。だから足場をいくら足しても、“分割できない1手”が基盤モデルの実力を超えていたら解けない。検証ループは誤りを捕まえられても、正解そのものを生み出すわけではないからです。

(B)言い換えると、足場は“モデルにできないこと”の裏返しです。モデルが強くなるほど足場は外せる——複雑さは消えるのではなく、移るだけ。だから「弱いモデルを足場でフロンティア級にする」ことはできません。

足場は“できないこと”の裏返し

モデルが弱いとき足場(チェック・分割・再開)モデル足場が多いモデルが強くなるとモデル足場を外す足場は“できないこと”の裏返し。複雑さは縮むのでなく“移る”
モデルが弱いほど足場(チェック・分割・再開)を多く要し、強くなるほど外せる。複雑さは縮むのでなく“移る”。

結論:強いモデルを“差し替えて”使う

(B)したがって現実的な最善手は、「①できる限り強い基盤モデルを選ぶ × ②ハーネスで実務の長さまで引き出す」。そして基盤モデルは入替可能にしておくことです。フロンティアの首位は数か月で入れ替わります(2026年だけでも Opus 4.8・Gemini・GPT・Fable 5)。差し替えられる組み立てなら、モデルの進化をそのまま業務品質に変えられます。

(A)agens はこの分離を前提にした Multi-LLM 設計です。能力(スキル)・接続(MCP)・成果(フォルダ)・統制(権限分離・監査・巻き戻し)はモデルの外の層に置き、基盤モデルは構成の差し替えで選びます。設計の詳細は「モデルフリー設計」で解説しています。

実務での当てはめ — 効く/苦手/保険

ハーネスが効くところ・効かないところ✓ 最も効く分解できて検証できる“長い連鎖”タスク大規模コード移行リサーチ / 定型業務△ 苦手単発の“ひらめき”一発= モデルの地力勝負足場では作れない(重みの中の能力)+ おまけ=保険基盤モデルが入替可能規制で1つ消えてもサービスは止まらない= 単一モデル依存への保険“弱モデルをフロンティア級に”は誇張。狙いは“強い基盤モデル × ハーネス”。
最も効くのは分解でき検証できる“長い連鎖”(大規模コード移行・リサーチ・定型業務)。単発の“ひらめき”はモデルの地力勝負で苦手。おまけに、基盤モデルが入替可能なので1つが規制で消えてもサービスは止まらない=単一モデル依存への保険。

関連する設計トピック

土台の全体像はエージェントハーネス(→ エージェントハーネス全体像)、モデルを差し替えても壊れない分離設計はモデルフリー設計(→ モデルフリー設計)、各手の精度を上げる実行環境はサンドボックス実行(→ サンドボックス実行)、段取りの外付けはスキルの設計(→ スキルの設計)、切り替え判断を支えるのはエージェント評価(→ エージェント評価)をどうぞ。一般概念の「AIエージェントとは」は homula.jp の学習ガイドが正本です。

よくある質問

なぜ普通のモデルとフロンティアモデルで、長い仕事ほど差が開くのですか?
長い仕事は“複利エラー”だからです。1手あたりの成功率がわずかに違うだけで、何十手も続くと全体の成功率は大きく開きます。フロンティアモデルは各手の精度が高く、誤りを自分で直せるため、長い作業ほど地力の差が効きます。
ハーネス(足場)で、普通のモデルを最上位モデル並みにできますか?
(B)一部は近づけられますが、同等にはできません。足場は『仕事を分割して手数を減らす』『検証で各手の精度を上げる』の2点で実効品質を底上げします。ただし到達できる上限は基盤モデルの地力が決め、分割できない難所はモデルの実力を超えられません。
agens はモデルの能力にどう関わるのですか?
(A)agens はハーネス側で、プランナー・検証ループ・サンドボックス実行・スキル・メモリ/フォルダ・サブエージェントといった“足場”を提供し、選んだ基盤モデルの実力を実務の長さまで引き出します。能力・接続・成果・統制はモデルの外の層に置く設計です。
最新モデルが出たり使えなくなったりしたとき、業務は作り直しになりますか?
(A)なりません。スキル・MCP接続・フォルダ・記憶・統制をモデルの外に置く Multi-LLM 設計のため、モデルは構成の差し替えで選べます。詳しくは「モデルフリー設計」をご覧ください。

最終更新: 2026-06