Engineering · デプロイ
LLM推論はメモリ帯域律速 — 推論専用ASIC設計の原理をJalapeñoで読む
LLM推論のボトルネックはFLOPS(演算速度)でなくHBM帯域幅(データ転送速度)。Jalapeñoはその制約をASIC設計で正面から解く。
要点
- ✓LLM推論の律速はメモリ帯域幅。モデル重みをHBMから演算コアへ転送する速度が推論スループットの上限を決め、演算器は多くの場合、帯域待ちで遊んでいる(“演算律速”でなく“帯域律速”)。
- ✓GPUは汎用設計ゆえに演算コアとHBMが距離をおく。推論専用ASICはシリコンインタポーザ上にHBMと演算コアを密着配置し、データ移動を最短化する(2.5Dパッケージング)。
- ✓OpenAI × Broadcomが2026年6月24日に発表したJalapeñoは、設計開始からテープアウトまで約9ヶ月。TSMC 3nmプロセスのレチクルサイズASICで、MatMul特化のシステック配列アーキテクチャを採る。
- ✓性能数値はまだ計測中と明示した上で、「現在の最先端より性能/ワットが大幅に優れる」とOpenAIが公式発表。Broadcom CEO Hock TanはBloombergに「典型的なAI GPU比でおよそ50%のコスト削減」と述べた(いずれも自社測定値・比較基準は非公開)。
- ✓自社モデルをチップ設計プロセスに活用したことで9ヶ月という開発サイクルを実現。OpenAI President Greg Brockmanは「モデルがどれほど加速できたかは我々自身も驚いた」とCNBCに語った。
- ✓推論コスト構造の変化はエージェント活用コストにも直結する。推論トークン単価が下がるほど、多段エージェントワークフローの経済性が改善し、より高頻度・高品質な自動化が現実的になる。
GPUのメモリウォール——演算器が帯域を待つ
LLM推論の特性を理解するにはルーフラインモデルという枠組みが役に立ちます。計算機の性能上限は(1)演算器の速さ(FLOPS)と(2)メモリ帯域幅(GB/s)の低いほうで決まる、という考え方です。演算量をデータ量で割った値を算術強度(FLOP/byte)と呼び、この値が低いほど帯域律速になります。
LLMの推論フェーズ(特にトークン生成)は算術強度がきわめて低い処理です。次のトークンを生成するたびに、数十GBの重みパラメータをHBMから読み出す必要がある一方、実際の演算量は相対的に少ない。言い換えると、演算器はデータの到着を待ちながら大半の時間を空転させています。
汎用GPUはトレーニング(高算術強度・演算律速)向けに設計されており、演算コアとHBMの間にある帯域がLLM推論では“壁”になります。この現象がメモリウォールと呼ばれる所以です。
なぜASICはGPUよりメモリ効率がよいか
Jalapeño——「LLM推論のために地から設計された」専用チップ
OpenAIとBroadcomは2026年6月24日、推論専用AI加速チップJalapeñoを発表しました。OpenAI Hardware Program Lead Richard Hoは公式ブログで「Jalapeñoは、OpenAI研究者との緊密な連携から得た詳細な知見に基づき、LLM推論向けに地から設計された。カーネル・メモリ移動・ネットワーク・フロンティアモデルにとって重要なサービングパターンを中心にアーキテクチャを最適化した」と述べています。
チップの構成は、TSMC 3nmプロセスで製造されたレチクルサイズASIC(1回の露光で得られる最大ダイ面積)を中心に、シリコンインタポーザ(2.5Dパッケージング)上に複数のHBMスタックを密着配置する構造です。演算コアは行列乗算(MatMul)に特化したシステック配列で構成されており、LLM推論の大部分を占めるアテンション計算と全結合層の実行効率を最大化します。
設計開始からテープアウトまで約9ヶ月という開発サイクルは、同クラスの高性能ASICとしては異例の速さです。OpenAIはその要因として、モデル・チップ両チームの並行開発体制、Broadcomの豊富なIPライブラリとともに、「自社モデルを設計・最適化プロセスの加速に活用した」ことを挙げています。
Jalapeñoチップ構成(模式)
性能数値の留意点
OpenAIの公式発表では「現在も最終性能を計測中」と明示されています。「現在の最先端より性能/ワットが大幅に優れる」(OpenAI公式)、および「典型的なAI GPU比でおよそ50%のコスト削減」(Broadcom CEO Hock Tan、Bloomberg、2026年6月24日)はいずれも自社テスト由来の数値で、比較基準・テスト条件ともに非公開です。独立した第三者ベンチマークは発表時点で未公開。詳細な技術レポートは今後数ヶ月以内に公開予定とされています。
推論チップの進化がエージェントコストに与えるインパクト
推論専用ASICの普及が進むと、推論トークン単価の低下が加速します。これはエージェントを活用する組織にとって直接的な意味を持ちます。多段エージェントワークフローでは複数のLLM呼び出しを連鎖させるため、1回の推論コストの変化が全体コストに大きく効いてくるからです。
一方で、帯域律速という根本的な制約は、AIが実行する「タスクの種類」の選び方にも示唆を与えます。反復性が高く決定的なルールで処理できる工程は引き続きコードに逃がし、AIは判断の一点に集中させる設計原則は、ハードウェアの効率が上がっても変わらず有効です。推論コストが下がっても、「全部AIに考えさせる」設計の問題点——請求の予測困難さと業務量に比例したコスト増——は構造的に残ります。
Jalapeñoは2026年末の初期プロトタイプ展開を皮切りに、2027〜28年にかけて本格展開が計画されています。推論インフラの変化は、エージェント設計とその経済性に関わる選択肢を広げるものとして、引き続き注目していく領域です。
よくある質問
なぜGPUはLLM推論に非効率なのですか?
レチクルサイズASICとはどういう意味ですか?
Jalapeñoの詳細な性能数値はいつ公開されますか?
推論チップの進化はエージェント利用者にどう影響しますか?
最終更新: 2026-06
