Engineering · アーキテクチャ
なぜ最新モデルは賢いのか — 能力の在りかと、ハーネスで近づけられる範囲
モデルの賢さの大半は“重み(学習で身についた中身)”に宿る。ハーネスはそのうち『段取り』を外から作り直し、強い基盤モデルの実力を実務の長さまで引き出す——ただし地力そのものは超えられません。
要点
- ✓能力は4層で捉えると分かりやすい:①地頭(事前学習)②段取り(エージェント学習)③熟考(推論時の計算)④専門技(特化学習)。
- ✓普通のモデルとの一番の差は②段取り。Fable 5 が示した『数日規模を自律で走り切る』も、本質は段取りが“重みの中”に焼き込まれていること。
- ✓長い仕事が難しいのは“複利エラー”。1手の成功率がわずかに違うだけで、何十手も続くと結果は大きく開く。フロンティアは各手の精度が高く、誤りを自分で直せる。
- ✓ハーネス(足場)は外から2つのつまみを回す:仕事を分割して手数を減らす(N↓)/検証・サンドボックスで各手の精度を上げる(p↑)。スキルは“段取りそのもの”の外付け。
- ✓(B)だから“強い基盤モデル × ハーネス”は実効品質を底上げできるが、上限は地力が決める。弱いモデルを足場でフロンティア級にはできない。だから agens は強いモデルを差し替えて使う。
“賢さ”はどこに宿っているのか
(B)最上位ティアとして公開された Claude Fable 5(2026-06-09)のようなモデルの“賢さ”は、魔法ではなく構造で捉えられます。能力は大きく4つの層に分けられます——会社にたとえると、①地頭(基礎的な知識と推論)、②段取り(仕事の進め方)、③熟考(答える前に考える)、④専門技(狭い領域の卓越)です。
(B)大事なのは、この4層のうち“モデルの中(学習済みの重み)”にしかないものと、“外側の仕組み”で補えるものを分けて理解することです。ここを切り分けると、自社の構成でどこまで再現でき、どこは基盤モデル選びに委ねるべきかが見えてきます。
能力の在りか(4層)
普通のモデルとの一番の差は『段取り』
(B)短い質問なら、普通のモデルとフロンティアモデルの差は小さい。差が開くのは“長い仕事”です。Fable 5 が訴求した「数日規模の作業を自律で走り切る」水準の正体は、②段取りが重みの中に焼き込まれていることにあります。Anthropic はエージェントを「自分で手順を決め、ツールを使い、どう達成するかを自分で握るシステム」と定義しています(Building effective agents, 2024-12)。
(B)段取りとは——計画する/ツールを選ぶ/結果を読む/自分の誤りに気づいて直す/脱線せず最後までやり切る、の総体です。これは“ハーネスがやること”とほとんど同じ。違いは、片方はそれを重みの中に、もう片方はコードで外側に持っていること。だからこそ、外側でも一部を作り直せるのです。
なぜ“長い仕事”だけ特別に難しいのか
(B)1手あたりの成功率を p、仕事が N 手の連鎖を要するとき、全体の成功率はおおよそ p の N 乗になります。p=95% でも、20手で約36%、100手では1%未満。わずかな差が、長い仕事では指数的に効いてきます。
(B)フロンティアモデルが強い理由は2点に集約されます——各手の精度そのものが高いこと、そして間違えても自分で気づいて直せること。METR は能力を「成功率を一定に保てる作業時間の長さ」で測り、「“半分できる”は“任せられる”を意味しない。実務で委任するには高い成功率が要る」と述べています(2026-01)。
複利エラーの崖
ハーネスは“2つのつまみ”を外から回す
(B)全体の成功率 ≈ p の N 乗。ハーネス(足場)は、この両方に効きます——仕事を分割して手数 N を減らし、検証やサンドボックスで各手の精度 p を上げる。
(A)agens はこれを製品の部品として備えています。プランナー(分割)、検証ループ(テスト・批評)、サンドボックス実行(操作を実環境で走らせ、“結果という事実”で確かめて p を上げる)、スキル(手順=段取りを外付けして能力を足す)、メモリ・フォルダ(成果を会話の外に持ち越して文脈を保ち、実質の手数を減らす)、チェックポイントとサブエージェント(失敗の巻き戻しを局所化し、並列で手数を分ける)。
(B)ハーネス設計そのものがスコアを動かすことは研究でも示されています。プリンストン大の SWE-agent は、モデルを固定したまま“ツールの使い勝手(エージェントとコンピュータの接点)”を作り直すだけで、コード課題の解決率が上がりました(2024)。Anthropic も自社の調査タスクで、複数エージェントの分担構成が単一構成を大きく上回ったと報告しています(engineering, 2025)。さらに 2026 年の研究は、モデルを固定したままハーネス(システムプロンプト・ツール定義・記憶構成)を自動で進化させるだけでエージェントのベンチ成績が上がることを示しました(Terminal-Bench 2 で +7.3pt、arXiv 2604.25850)。
モデルフリーで近づける構成
では、できることとできないこと
(B)外から作り直せるのは②段取り・③熟考の一部まで。①地頭と④専門技は重みの中にしかありません。だから足場をいくら足しても、“分割できない1手”が基盤モデルの実力を超えていたら解けない。検証ループは誤りを捕まえられても、正解そのものを生み出すわけではないからです。
(B)言い換えると、足場は“モデルにできないこと”の裏返しです。モデルが強くなるほど足場は外せる——複雑さは消えるのではなく、移るだけ。だから「弱いモデルを足場でフロンティア級にする」ことはできません。
足場は“できないこと”の裏返し
結論:強いモデルを“差し替えて”使う
(B)したがって現実的な最善手は、「①できる限り強い基盤モデルを選ぶ × ②ハーネスで実務の長さまで引き出す」。そして基盤モデルは入替可能にしておくことです。フロンティアの首位は数か月で入れ替わります(2026年だけでも Opus 4.8・Gemini・GPT・Fable 5)。差し替えられる組み立てなら、モデルの進化をそのまま業務品質に変えられます。
(A)agens はこの分離を前提にした Multi-LLM 設計です。能力(スキル)・接続(MCP)・成果(フォルダ)・統制(権限分離・監査・巻き戻し)はモデルの外の層に置き、基盤モデルは構成の差し替えで選びます。設計の詳細は「モデルフリー設計」で解説しています。
実務での当てはめ — 効く/苦手/保険
関連する設計トピック
土台の全体像はエージェントハーネス(→ エージェントハーネス全体像)、モデルを差し替えても壊れない分離設計はモデルフリー設計(→ モデルフリー設計)、各手の精度を上げる実行環境はサンドボックス実行(→ サンドボックス実行)、段取りの外付けはスキルの設計(→ スキルの設計)、切り替え判断を支えるのはエージェント評価(→ エージェント評価)をどうぞ。一般概念の「AIエージェントとは」は homula.jp の学習ガイドが正本です。
よくある質問
なぜ普通のモデルとフロンティアモデルで、長い仕事ほど差が開くのですか?
ハーネス(足場)で、普通のモデルを最上位モデル並みにできますか?
agens はモデルの能力にどう関わるのですか?
最新モデルが出たり使えなくなったりしたとき、業務は作り直しになりますか?
最終更新: 2026-06
