如果你有一台 Mac 并想在本地跑大模型,通常的选择是 ollama 或 llama.cpp。但 vllm-mlx 的出现给了 Apple Silicon 用户一个新选项——一个原生 MLX 后端、兼容 OpenAI 和 Anthropic 接口的推理服务器。它叫 vllm-mlx,名字致敬了 vLLM,但针对苹果的 MLX 框架重新设计。
不仅仅是另一个推理引擎
vllm-mlx 的核心卖点是速度。根据项目基准,在 M1 Ultra 上它能达到 400+ tok/s。这个数字对本地部署来说相当惊人,意味着对话几乎无延迟。更关键的是,它原生支持连续批处理——同时处理多个请求而不退化性能。对开发者来说,这意味着可以用更少的硬件跑更多的并发。
除了文本模型,它还支持视觉语言模型,比如 Qwen-VL 和 LLaVA。这意味着你可以把图片直接丢给模型,让它描述内容或回答问题。多模态支持在本地推理中仍然是个稀缺功能,vllm-mlx 做得不错。
兼容现有工具链
一个亮点是它兼容 OpenAI 的 Chat Completions API 以及 Anthropic 的 Messages API。这意味着现有工具(比如 LangChain、LlamaIndex、甚至 Claude Code)可以无缝切换过来。你不需要重写代码,只需改一下 API 地址就能用本地模型。这对注重隐私或成本控制的团队尤其有价值。
另一个值得提的细节是 MCP(Model Context Protocol)工具调用支持。这允许模型通过标准协议调用外部工具,比如搜索或数据库查询,把 LLM 从聊天框里解放出来。虽然还比较新,但方向很对。
上手体验与局限
安装需要 Python 环境,最好用 conda 或 venv。项目依赖 MLX,而 MLX 要求 Apple Silicon(M 系列芯片)。Intel Mac 用户无法使用,这是硬件门槛。如果你手头是 M1 或更新,配置起来相当直接:
- 克隆仓库:
git clone https://github.com/waybarrios/vllm-mlx - 安装依赖:
pip install -r requirements.txt - 启动服务:
python -m vllm_mlx.server --model meta-llama/Llama-3.2-3B-Instruct
模型会从 Hugging Face 自动下载,并缓存到本地。首次运行有点慢,但后续就快了。速度确实让人印象深刻,即使在较小的模型(3B 参数)上也能感受到流畅响应。
但有限制:目前支持的模型列表集中在 Llama、Qwen 和 LLaVA 家族,其他模型需要自己转换。此外,文档还比较基础,调试错误可能需要翻 Issue 区。社区规模不大,但很活跃。
谁该试试?
如果你是 Mac 开发者,想在本地方便地测试模型,或者需要为团队搭建一个低延迟的推理服务,vllm-mlx 值得尝试。它的原生 MLX 加速比通用方案快很多,API 兼容性也降低了集成成本。对于生产部署,建议配合 Docker 或 systemd 使用,并监控内存占用——大模型在 16GB 统一内存的 Mac 上可能会吃力。
一句话:vllm-mlx 是目前 Apple Silicon 上最值得关注的本地推理服务器之一。它不是完美的,但方向非常正确。










评论
暂无评论
成为第一个评论的人