如果你有一臺 Mac 並想在本地跑大模型,通常的選擇是 ollama 或 llama.cpp。但 vllm-mlx 的出現給了 Apple Silicon 使用者一個新選項——一個原生 MLX 後端、相容 OpenAI 和 Anthropic 介面的推理伺服器。它叫 vllm-mlx,名字致敬了 vLLM,但針對蘋果的 MLX 框架重新設計。
不僅僅是另一個推理引擎
vllm-mlx 的核心賣點是速度。根據專案基準,在 M1 Ultra 上它能達到 400+ tok/s。這個數字對本地部署來說相當驚人,意味著對話幾乎無延遲。更關鍵的是,它原生支援連續批處理——同時處理多個請求而不退化效能。對開發者來說,這意味著可以用更少的硬體跑更多的併發。
除了文字模型,它還支援視覺語言模型,比如 Qwen-VL 和 LLaVA。這意味著你可以把圖片直接丟給模型,讓它描述內容或回答問題。多模態支援在本地推理中仍然是個稀缺功能,vllm-mlx 做得不錯。
相容現有工具鏈
一個亮點是它相容 OpenAI 的 Chat Completions API 以及 Anthropic 的 Messages API。這意味著現有工具(比如 LangChain、LlamaIndex、甚至 Claude Code)可以無縫切換過來。你不需要重寫程式碼,只需改一下 API 地址就能用本地模型。這對注重隱私或成本控制的團隊尤其有價值。
另一個值得提的細節是 MCP(Model Context Protocol)工具呼叫支援。這允許模型通過標準協議呼叫外部工具,比如搜尋或資料庫查詢,把 LLM 從聊天框裡解放出來。雖然還比較新,但方向很對。
上手體驗與侷限
安裝需要 Python 環境,最好用 conda 或 venv。專案依賴 MLX,而 MLX 要求 Apple Silicon(M 系列晶片)。Intel Mac 使用者無法使用,這是硬體門檻。如果你手頭是 M1 或更新,配置起來相當直接:
- 克隆倉庫:
git clone https://github.com/waybarrios/vllm-mlx - 安裝依賴:
pip install -r requirements.txt - 啟動服務:
python -m vllm_mlx.server --model meta-llama/Llama-3.2-3B-Instruct
模型會從 Hugging Face 自動下載,並快取到本地。首次執行有點慢,但後續就快了。速度確實讓人印象深刻,即使在較小的模型(3B 引數)上也能感受到流暢響應。
但有限制:目前支援的模型列表集中在 Llama、Qwen 和 LLaVA 家族,其他模型需要自己轉換。此外,文件還比較基礎,除錯錯誤可能需要翻 Issue 區。社羣規模不大,但很活躍。
誰該試試?
如果你是 Mac 開發者,想在本地方便地測試模型,或者需要為團隊搭建一個低延遲的推理服務,vllm-mlx 值得嘗試。它的原生 MLX 加速比通用方案快很多,API 相容性也降低了整合成本。對於生產部署,建議配合 Docker 或 systemd 使用,並監控記憶體佔用——大模型在 16GB 統一記憶體的 Mac 上可能會吃力。
一句話:vllm-mlx 是目前 Apple Silicon 上最值得關注的本地推理伺服器之一。它不是完美的,但方向非常正確。










評論
暫無評論
成為第一個評論的人