在 AI 硬體領域,英偉達的 GPU 長期佔據統治地位。但 OpenAI 與晶片巨頭 Broadcom 最近釋出了一款名為 Jalapeño 的定製晶片,直接將矛頭對準了大語言模型的推理環節。這款晶片並非用於訓練,而是專門為執行 LLM 時的計算負載而設計——這是一個務實且精準的切入點。
為什麼是推理晶片?
大語言模型的實際應用,比如 ChatGPT 的每次響應,都依賴推理計算。訓練雖然昂貴,但發生在開發階段;而推理是每次請求都在發生的事情,隨著使用者規模增長,推理成本會快速累積。OpenAI 顯然意識到了這一點。與其繼續租用大量英偉達 H100,不如自己造一顆更匹配自家模型的晶片。Jalapeño 的重點是 每瓦效能 和 低延遲,兩個指標直接關聯運營成本和使用者體驗。
Broadcom 的定製晶片功底
Broadcom 並非新手。它在網路晶片和定製 ASIC 領域積累深厚,曾為 Google 和 Meta 設計過加速器。這次與 OpenAI 的合作,是它把定製能力推向 AI 推理的一次嘗試。雙方沒有公佈詳細架構,但從公開資訊看,Jalapeño 可能是一種 資料流架構,針對 Transformer 模型中的矩陣乘法和注意力機制做了硬體優化。這聽起來很合理——畢竟這些操作佔了推理計算量的絕大部分。
一個值得注意的背景是,OpenAI 此前也傳出過自研晶片的計劃,但選擇與 Broadcom 合作顯然能加快落地速度。這種「設計+製造」的分工模式在半導體行業很常見:OpenAI 提供 AI 負載的特性和需求,Broadcom 則負責把需求變成矽片。
對行業意味著什麼?
Jalapeño 的出現可能帶來三方面影響:
- 減少對英偉達的依賴: 推理晶片如果效果顯著,OpenAI 可以大幅降低 GPU 採購量,這對整個供應鏈格局都是訊號。
- 降低推理成本: 專用晶片往往比通用 GPU 更節能,長期看能降低每 token 的價格,最終惠及 API 使用者。
- 推動定製化趨勢: 更多大模型公司可能會跟進,設計自己的推理加速器,形成百花齊放的硬體生態。
當然,也有現實的挑戰。Jalapeño 目前只針對 OpenAI 的模型優化,其他公司無法直接受益。而且晶片量產和部署需要時間,短期內很難看到大規模替代。
一些實用視角
對於關注 AI 基礎設施的讀者,幾點值得思考:
- 不要期待 Jalapeño 會立刻改變市場——它更像一個長期戰略棋子,真正落地可能需要 12-18 個月。
- 留意 OpenAI 的 API 定價變化。如果推理成本下降,API 呼叫費用可能隨之調整。
- 這件事也提醒我們,軟體和硬體的深度協同(co-design)正成為 AI 競爭的關鍵護城河。
Jalapeño 是一步精妙的棋。它沒有試圖取代訓練晶片,而是專注推理這個更日常、更花錢的環節。隨著 AI 應用從炫技走向普及,成本控制或許比效能突破更能決定勝負。











評論
暫無評論
成為第一個評論的人