Engineering · アーキテクチャ

AIエージェントの運用コスト — 『全部AI』が高くつく理由と、固定費に近づける設計

AIエージェントの運用コストは『推論を何回回すか』で決まる。反復はコードに逃がし、AIは判断だけに使うほど、費用は業務量に左右されにくい“ほぼ固定費”へ近づく。

要点

  • AIの請求は『AIに考えさせた回数(=使ったトークン量)』で決まる従量課金。業務量が増えるほど費用は青天井になりやすい。
  • 実務を分解すると、AIの判断が中核なのは一部(多くの業務で1〜3割程度)。残りは決まった手順で、ルール(コード)として決定的に処理できる。
  • 反復をワークフロー・アプリとしてコード実行すれば、その部分の推論はほぼ消える。AIは判断の一点だけに使う。
  • 過去案件の試算では、全部をAIに回す場合に比べ運用コストはおよそ30〜60分の1(97〜98%減)。差を生むのは“単価”でなく“推論を回す回数”=アーキテクチャ。
  • AIを呼ぶ回数が業務量から切り離されるため、運用コストは読めない従量から、予算化できる“ほぼ固定費”へ近づく。

運用コストは『推論を何回回すか』で決まる

AIエージェントの請求は、突き詰めると『AIに何回考えさせたか(=使ったトークン量)』で決まります。大手の統合エージェントの多くは“使った分だけ”の従量課金で、外部システムを毎ターン呼ぶような重い反復ほど費用が膨らみます。

ここで効いてくるのが、仕事の中身です。業務を分解すると、AIならではの判断が要る部分と、手順が決まっていて推論の要らない部分に分かれます。後者まで毎回AIに考えさせると、業務量に比例して請求が積み上がります。

業務の大半は、決定的なルール処理

業務の内訳 ― AI の判断が要るのは一部20%60%20%完全ルールAI 不要ルール+AI 一点抽出・種別判定AI 判断が中核良否判断・非定型AI の判断が中核なのは約 2 割。残り約 8 割はルールで決定的に処理できる。
実案件の業務を性質で分けると、AIの判断が中核なのは約2割。残り約8割は、決まった手順=ルールとして決定的に処理できる(業務時間ベースの試算・社名は匿名化)。

反復はコードへ。AIは判断だけに使う

agensは、一度うまくいった手順をワークフロー・アプリとして残し、次回からはコードで決定的に実行します。コードはAIの推論を回さないので、件数が増えてもAI利用料はほとんど増えません。AIを呼ぶのは、良否判断や非定型の解釈といった“判断の一点”だけです。

この『反復をコードに逃がす』効果は大きく、Anthropicは外部ツール接続をコード実行型に切り替えることでトークンを約98.7%削減できたと報告しています(「Code execution with MCP」2025-11-04)。同じ仕事でも、毎回AIに考えさせるか、コードで回すかで、消費するトークン量は桁が変わります。

同じ業務、ふたつの動かし方

同じ業務、 ふたつの動かし方毎回 AI に考えさせる(全部 AI)決まった手順まで毎回 推論ループコスト大・業務量に比例反復はコード化(agens 型)AI は判断の一点だけ / 反復はコード実行 = コスト小・ほぼ一定≈ 1/30〜1/60(97〜98% 減・過去案件の試算)
毎回AIに考えさせると、コストは業務量に比例して大きくなる。反復をコード化しAIを判断だけに使うと、AIを呼ぶ回数が減り、コストは小さく一定に近づく。過去案件の試算でおよそ1/30〜1/60(97〜98%減)。

読めない従量から、予算化できる固定費へ

AIを呼ぶ回数が業務量から切り離されると、コストの“性質”が変わります。業務量しだいで青天井になる変動費から、業務量が増えてもほぼ一定の固定費へ。月いくらになるか読める、予算化できるコストになります。

差を生むのは、トークンの“単価”ではありません。“AIに推論させる回数”=アーキテクチャです。だからモデルの単価が下がっても、毎回考えさせる設計と、反復をコードに逃がす設計の差は変わりません。

変動費を、固定費に変える

変動費 = 従量課金毎回 AI に考えさせる読めない・青天井agens で固定費へ固定費 = ライセンス予算化できる業務量が増えても一定
読めない変動費(従量課金)を、低く一定の固定費へ。固定費は主にagensのライセンス費にあたり、業務量に左右されにくい予算化できるコストになる。

「ローカルモデルなら従量ゼロ」ではない

Multi-LLMなので、用途に応じて安いモデルやローカルモデルへ振り分けられます。ただしローカル運用はGPU・インフラ・運用の費用がかかるため、“従量がゼロになる”わけではありません。正確には、読めない変動費を、予算化できる固定費に置き換える、と捉えるのが妥当です。

よくある質問

本当にAIが要るのは業務のどれくらいですか?
実務を分解すると、AIの判断が中核なのは一部です(多くの業務で1〜3割程度・業務の性質によります)。残りは決まった手順で、ルール(コード)として決定的に処理できます。だから全部をAIに考えさせる必要はありません。
なぜ『全部AI』は高くつくのですか?
AIの請求は推論(=AIに考えさせた回数)に比例します。決まった手順まで毎回AIに考えさせると、業務量が増えるほど従量課金が膨らみます。反復をコードに逃がせば、その部分の推論コストはほぼ消えます。
agensを使うと運用コストはどう変わりますか?
反復はワークフロー・アプリとしてコード実行し、AIは判断だけに使います。AIを呼ぶ回数が業務量から切り離されるため、運用コスト(AI利用料)は予測しやすい“ほぼ固定費”に近づきます。過去案件の試算では全部AIに比べ97〜98%減でした。
ローカルモデルにすれば従量課金はゼロになりますか?
従量課金は避けられますが、ローカル運用にはGPU・インフラ・運用の費用がかかります。“ゼロ”ではなく、変動費を予算化できる固定費に置き換える、と捉えるのが正確です。agensはMulti-LLMなので、用途に応じた振り分けもできます。

最終更新: 2026-06