進階Python

vllm-mlxApple Silicon上極速執行LLM和VLM

vllm-mlx 是一個原生 MLX 推理伺服器，為 Apple Silicon 優化，相容 OpenAI 和 Anthropic API，支援 Llama、Qwen-VL 等大語言和視覺語言模型，連續批處理可達 400+ tok/s，適合本地部署和開發。

1.4K 星標

189 分叉

56 問題

101 流覽

Python

Apache-2.0

收錄日期2026年6月29日

Github 倉庫

專案概述

如果你有一臺 Mac 並想在本地跑大模型，通常的選擇是 ollama 或 llama.cpp。但 vllm-mlx 的出現給了 Apple Silicon 使用者一個新選項——一個原生 MLX 後端、相容 OpenAI 和 Anthropic 介面的推理伺服器。它叫 vllm-mlx，名字致敬了 vLLM，但針對蘋果的 MLX 框架重新設計。

不僅僅是另一個推理引擎

vllm-mlx 的核心賣點是速度。根據專案基準，在 M1 Ultra 上它能達到 400+ tok/s。這個數字對本地部署來說相當驚人，意味著對話幾乎無延遲。更關鍵的是，它原生支援連續批處理——同時處理多個請求而不退化效能。對開發者來說，這意味著可以用更少的硬體跑更多的併發。

除了文字模型，它還支援視覺語言模型，比如 Qwen-VL 和 LLaVA。這意味著你可以把圖片直接丟給模型，讓它描述內容或回答問題。多模態支援在本地推理中仍然是個稀缺功能，vllm-mlx 做得不錯。

相容現有工具鏈

一個亮點是它相容 OpenAI 的 Chat Completions API 以及 Anthropic 的 Messages API。這意味著現有工具（比如 LangChain、LlamaIndex、甚至 Claude Code）可以無縫切換過來。你不需要重寫程式碼，只需改一下 API 地址就能用本地模型。這對注重隱私或成本控制的團隊尤其有價值。

另一個值得提的細節是 MCP（Model Context Protocol）工具呼叫支援。這允許模型通過標準協議呼叫外部工具，比如搜尋或資料庫查詢，把 LLM 從聊天框裡解放出來。雖然還比較新，但方向很對。

上手體驗與侷限

安裝需要 Python 環境，最好用 conda 或 venv。專案依賴 MLX，而 MLX 要求 Apple Silicon（M 系列晶片）。Intel Mac 使用者無法使用，這是硬體門檻。如果你手頭是 M1 或更新，配置起來相當直接：

克隆倉庫：git clone https://github.com/waybarrios/vllm-mlx
安裝依賴：pip install -r requirements.txt
啟動服務：python -m vllm_mlx.server --model meta-llama/Llama-3.2-3B-Instruct

模型會從 Hugging Face 自動下載，並快取到本地。首次執行有點慢，但後續就快了。速度確實讓人印象深刻，即使在較小的模型（3B 引數）上也能感受到流暢響應。

但有限制：目前支援的模型列表集中在 Llama、Qwen 和 LLaVA 家族，其他模型需要自己轉換。此外，文件還比較基礎，除錯錯誤可能需要翻 Issue 區。社羣規模不大，但很活躍。

誰該試試？

如果你是 Mac 開發者，想在本地方便地測試模型，或者需要為團隊搭建一個低延遲的推理服務，vllm-mlx 值得嘗試。它的原生 MLX 加速比通用方案快很多，API 相容性也降低了整合成本。對於生產部署，建議配合 Docker 或 systemd 使用，並監控記憶體佔用——大模型在 16GB 統一記憶體的 Mac 上可能會吃力。

一句話：vllm-mlx 是目前 Apple Silicon 上最值得關注的本地推理伺服器之一。它不是完美的，但方向非常正確。

vllm-mlxApple SiliconMLXLLM部署視覺語言模型本地推理連續批處理MCP工具呼叫OpenAI相容Anthropic相容

項目評分

0.0 (0 評價)

登錄后可為項目評分

常見問題

vllm-mlx: Apple Silicon上極速執行LLM和VLM 是什麼？

vllm-mlx: Apple Silicon上極速執行LLM和VLM 用什麼語言開發？

vllm-mlx: Apple Silicon上極速執行LLM和VLM 主要使用 Python 開發。

vllm-mlx: Apple Silicon上極速執行LLM和VLM 使用什麼開源授權？

vllm-mlx: Apple Silicon上極速執行LLM和VLM 基於 Apache-2.0 授權開源。

探索更多

相似工具

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器，以「原生內建 AI」為核心賣點。它不依賴外掛，而是將 AI 深度植入編輯器底層，能夠理解整個專案的上下文程式碼庫，支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Antigravity 支援多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，開發者可以在同一環境中選擇最適合任務的模型。

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手，可將自然語言指令翻譯成對應的原始碼，為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出，曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代，Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸，能夠理解複雜需求並自動編寫、除錯程式碼，顯著提升開發效率和軟體交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE，採用規範驅動的開發模式，將自然語言需求轉化為明確的規格文件和任務，再由內建 AI 代理生成程式碼並除錯優化，全流程輔助大型專案開發。

Trae

Trae（官網 trae.ai）是由位元組跳動（ByteDance）推出的一款 AI 原生整合開發環境（IDE）。它不是簡單地作為一個程式設計助手，而是一個「協作夥伴」，通過深度整合大型語言模型（LLM），幫助開發者從需求、構建程式碼，到除錯和部署，實現更智慧化、自動化的軟體開發。

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺，它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力，能在聊天對話之外應對更復雜的問題，例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人，Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。