Engineering · デプロイ

LLM推論はメモリ帯域律速 — 推論専用ASIC設計の原理をJalapeñoで読む

LLM推論のボトルネックはFLOPS(演算速度)でなくHBM帯域幅(データ転送速度)。Jalapeñoはその制約をASIC設計で正面から解く。

要点

  • LLM推論の律速はメモリ帯域幅。モデル重みをHBMから演算コアへ転送する速度が推論スループットの上限を決め、演算器は多くの場合、帯域待ちで遊んでいる(“演算律速”でなく“帯域律速”)。
  • GPUは汎用設計ゆえに演算コアとHBMが距離をおく。推論専用ASICはシリコンインタポーザ上にHBMと演算コアを密着配置し、データ移動を最短化する(2.5Dパッケージング)。
  • OpenAI × Broadcomが2026年6月24日に発表したJalapeñoは、設計開始からテープアウトまで約9ヶ月。TSMC 3nmプロセスのレチクルサイズASICで、MatMul特化のシステック配列アーキテクチャを採る。
  • 性能数値はまだ計測中と明示した上で、「現在の最先端より性能/ワットが大幅に優れる」とOpenAIが公式発表。Broadcom CEO Hock TanはBloombergに「典型的なAI GPU比でおよそ50%のコスト削減」と述べた(いずれも自社測定値・比較基準は非公開)。
  • 自社モデルをチップ設計プロセスに活用したことで9ヶ月という開発サイクルを実現。OpenAI President Greg Brockmanは「モデルがどれほど加速できたかは我々自身も驚いた」とCNBCに語った。
  • 推論コスト構造の変化はエージェント活用コストにも直結する。推論トークン単価が下がるほど、多段エージェントワークフローの経済性が改善し、より高頻度・高品質な自動化が現実的になる。

GPUのメモリウォール——演算器が帯域を待つ

LLM推論の特性を理解するにはルーフラインモデルという枠組みが役に立ちます。計算機の性能上限は(1)演算器の速さ(FLOPS)と(2)メモリ帯域幅(GB/s)の低いほうで決まる、という考え方です。演算量をデータ量で割った値を算術強度(FLOP/byte)と呼び、この値が低いほど帯域律速になります。

LLMの推論フェーズ(特にトークン生成)は算術強度がきわめて低い処理です。次のトークンを生成するたびに、数十GBの重みパラメータをHBMから読み出す必要がある一方、実際の演算量は相対的に少ない。言い換えると、演算器はデータの到着を待ちながら大半の時間を空転させています。

汎用GPUはトレーニング(高算術強度・演算律速)向けに設計されており、演算コアとHBMの間にある帯域がLLM推論では“壁”になります。この現象がメモリウォールと呼ばれる所以です。

なぜASICはGPUよりメモリ効率がよいか

GPU(汎用)HBM重み保管帯域律速演算コア帯域待ちで遊ぶHBM ↔ コア間の距離が長い→ データ転送がボトルネックに推論専用 ASICHBMHBM演算コアHBM 直近統合HBMHBMSilicon Interposer(2.5D)HBM を演算コアに密着配置→ データ移動を最短化
(左)汎用GPUでは演算コアとHBMが距離をおくため帯域が律速になり、演算器が待ち時間を持つ。(右)推論専用ASICはシリコンインタポーザ上でHBMを演算コアに密着配置し、データ移動を最短化する。

Jalapeño——「LLM推論のために地から設計された」専用チップ

OpenAIとBroadcomは2026年6月24日、推論専用AI加速チップJalapeñoを発表しました。OpenAI Hardware Program Lead Richard Hoは公式ブログで「Jalapeñoは、OpenAI研究者との緊密な連携から得た詳細な知見に基づき、LLM推論向けに地から設計された。カーネル・メモリ移動・ネットワーク・フロンティアモデルにとって重要なサービングパターンを中心にアーキテクチャを最適化した」と述べています。

チップの構成は、TSMC 3nmプロセスで製造されたレチクルサイズASIC(1回の露光で得られる最大ダイ面積)を中心に、シリコンインタポーザ(2.5Dパッケージング)上に複数のHBMスタックを密着配置する構造です。演算コアは行列乗算(MatMul)に特化したシステック配列で構成されており、LLM推論の大部分を占めるアテンション計算と全結合層の実行効率を最大化します。

設計開始からテープアウトまで約9ヶ月という開発サイクルは、同クラスの高性能ASICとしては異例の速さです。OpenAIはその要因として、モデル・チップ両チームの並行開発体制、Broadcomの豊富なIPライブラリとともに、「自社モデルを設計・最適化プロセスの加速に活用した」ことを挙げています。

Jalapeñoチップ構成(模式)

Silicon Interposer(2.5D パッケージング)演算ダイシステック配列(MatMul 特化)〜 840 mm²(レチクルサイズ)TSMC 3nmHBMHBMHBMHBMHBMHBMHBMHBM複数の HBM スタック(Silicon Interposer 統合)↕ Ethernet(データセンター統合)
中央の演算ダイ(システック配列・TSMC 3nm)をシリコンインタポーザ上で複数のHBMスタックが取り囲む2.5Dパッケージング構成。HBMを演算コアに密着させることでデータ移動を最短化し、帯域律速を緩和する。

性能数値の留意点

OpenAIの公式発表では「現在も最終性能を計測中」と明示されています。「現在の最先端より性能/ワットが大幅に優れる」(OpenAI公式)、および「典型的なAI GPU比でおよそ50%のコスト削減」(Broadcom CEO Hock Tan、Bloomberg、2026年6月24日)はいずれも自社テスト由来の数値で、比較基準・テスト条件ともに非公開です。独立した第三者ベンチマークは発表時点で未公開。詳細な技術レポートは今後数ヶ月以内に公開予定とされています。

推論チップの進化がエージェントコストに与えるインパクト

推論専用ASICの普及が進むと、推論トークン単価の低下が加速します。これはエージェントを活用する組織にとって直接的な意味を持ちます。多段エージェントワークフローでは複数のLLM呼び出しを連鎖させるため、1回の推論コストの変化が全体コストに大きく効いてくるからです。

一方で、帯域律速という根本的な制約は、AIが実行する「タスクの種類」の選び方にも示唆を与えます。反復性が高く決定的なルールで処理できる工程は引き続きコードに逃がし、AIは判断の一点に集中させる設計原則は、ハードウェアの効率が上がっても変わらず有効です。推論コストが下がっても、「全部AIに考えさせる」設計の問題点——請求の予測困難さと業務量に比例したコスト増——は構造的に残ります。

Jalapeñoは2026年末の初期プロトタイプ展開を皮切りに、2027〜28年にかけて本格展開が計画されています。推論インフラの変化は、エージェント設計とその経済性に関わる選択肢を広げるものとして、引き続き注目していく領域です。

よくある質問

なぜGPUはLLM推論に非効率なのですか?
GPUはディープラーニングの訓練(演算律速)向けに設計されており、演算コアとHBMの距離が比較的長い。LLM推論はモデル重みの読み出しが頻繁で算術強度が低いため、演算器がメモリ帯域を待つ「メモリウォール」が顕在化しやすい。推論専用ASICはHBMを演算コアに密着配置することでこの帯域ボトルネックを緩和する。
レチクルサイズASICとはどういう意味ですか?
半導体製造では、露光機が1回で焼き付けられる面積(レチクル)に上限がある。レチクルサイズASICとは、この上限いっぱいのダイ面積を使う設計で、単一チップに収められる回路規模を最大化する。Jalapeñoの場合、TSMC 3nmのEUVレチクル上限(約858mm²)に近い面積を使用していると報告されている。
Jalapeñoの詳細な性能数値はいつ公開されますか?
OpenAIは発表時点(2026年6月24日)で「現在も最終性能を計測中」と述べており、詳細な技術レポートを今後数ヶ月以内に公開する予定としている。発表時点では独立した第三者ベンチマークは存在しない。
推論チップの進化はエージェント利用者にどう影響しますか?
推論専用ASICの普及が推論トークン単価の低下を加速させると、多段エージェントワークフローの運用コストが下がり、より高頻度な自動化が現実的になる。ただし、反復処理をコードに逃がしAIを判断に集中させる設計原則の有効性は、ハードウェアの効率が上がっても変わらない。コストが下がっても「全部AIに考えさせる」設計では請求が業務量に比例して膨らむ構造は残る。

最終更新: 2026-06