进阶Python

vllm-mlxApple Silicon上极速运行LLM和VLM

vllm-mlx 是一个原生 MLX 推理服务器，为 Apple Silicon 优化，兼容 OpenAI 和 Anthropic API，支持 Llama、Qwen-VL 等大语言和视觉语言模型，连续批处理可达 400+ tok/s，适合本地部署和开发。

1.4K 星标

189 分叉

56 问题

101 浏览

Python

Apache-2.0

收录日期2026年6月29日

Github仓库

项目概述

如果你有一台 Mac 并想在本地跑大模型，通常的选择是 ollama 或 llama.cpp。但 vllm-mlx 的出现给了 Apple Silicon 用户一个新选项——一个原生 MLX 后端、兼容 OpenAI 和 Anthropic 接口的推理服务器。它叫 vllm-mlx，名字致敬了 vLLM，但针对苹果的 MLX 框架重新设计。

不仅仅是另一个推理引擎

vllm-mlx 的核心卖点是速度。根据项目基准，在 M1 Ultra 上它能达到 400+ tok/s。这个数字对本地部署来说相当惊人，意味着对话几乎无延迟。更关键的是，它原生支持连续批处理——同时处理多个请求而不退化性能。对开发者来说，这意味着可以用更少的硬件跑更多的并发。

除了文本模型，它还支持视觉语言模型，比如 Qwen-VL 和 LLaVA。这意味着你可以把图片直接丢给模型，让它描述内容或回答问题。多模态支持在本地推理中仍然是个稀缺功能，vllm-mlx 做得不错。

兼容现有工具链

一个亮点是它兼容 OpenAI 的 Chat Completions API 以及 Anthropic 的 Messages API。这意味着现有工具（比如 LangChain、LlamaIndex、甚至 Claude Code）可以无缝切换过来。你不需要重写代码，只需改一下 API 地址就能用本地模型。这对注重隐私或成本控制的团队尤其有价值。

另一个值得提的细节是 MCP（Model Context Protocol）工具调用支持。这允许模型通过标准协议调用外部工具，比如搜索或数据库查询，把 LLM 从聊天框里解放出来。虽然还比较新，但方向很对。

上手体验与局限

安装需要 Python 环境，最好用 conda 或 venv。项目依赖 MLX，而 MLX 要求 Apple Silicon（M 系列芯片）。Intel Mac 用户无法使用，这是硬件门槛。如果你手头是 M1 或更新，配置起来相当直接：

克隆仓库：git clone https://github.com/waybarrios/vllm-mlx
安装依赖：pip install -r requirements.txt
启动服务：python -m vllm_mlx.server --model meta-llama/Llama-3.2-3B-Instruct

模型会从 Hugging Face 自动下载，并缓存到本地。首次运行有点慢，但后续就快了。速度确实让人印象深刻，即使在较小的模型（3B 参数）上也能感受到流畅响应。

但有限制：目前支持的模型列表集中在 Llama、Qwen 和 LLaVA 家族，其他模型需要自己转换。此外，文档还比较基础，调试错误可能需要翻 Issue 区。社区规模不大，但很活跃。

谁该试试？

如果你是 Mac 开发者，想在本地方便地测试模型，或者需要为团队搭建一个低延迟的推理服务，vllm-mlx 值得尝试。它的原生 MLX 加速比通用方案快很多，API 兼容性也降低了集成成本。对于生产部署，建议配合 Docker 或 systemd 使用，并监控内存占用——大模型在 16GB 统一内存的 Mac 上可能会吃力。

一句话：vllm-mlx 是目前 Apple Silicon 上最值得关注的本地推理服务器之一。它不是完美的，但方向非常正确。

vllm-mlxApple SiliconMLXLLM部署视觉语言模型本地推理连续批处理MCP工具调用OpenAI兼容Anthropic兼容

项目评分

0.0 (0 评价)

登录后可为项目评分

常见问题

vllm-mlx: Apple Silicon上极速运行LLM和VLM 是什么？

vllm-mlx: Apple Silicon上极速运行LLM和VLM 用什么语言开发？

vllm-mlx: Apple Silicon上极速运行LLM和VLM 主要使用 Python 开发。

vllm-mlx: Apple Silicon上极速运行LLM和VLM 使用什么开源协议？

vllm-mlx: Apple Silicon上极速运行LLM和VLM 基于 Apache-2.0 协议开源。

探索更多

相似工具

Cursor

一款基于 VS Code 二次开发的智能代码编辑器，以“原生内置 AI”为核心卖点。它不依赖插件，而是将 AI 深度植入编辑器底层，能够理解整个项目的上下文代码库，支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Antigravity 支持多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，开发者可以在同一环境中选择最适合任务的模型。

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手，可将自然语言指令翻译成对应的源代码，为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出，曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代，Codex 在 2025 年以“AI 编程智能体”的全新姿态回归，能够理解复杂需求并自动编写、调试代码，显著提升开发效率和软件交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE，采用规范驱动的开发模式，将自然语言需求转化为明确的规格文档和任务，再由内置 AI 代理生成代码并调试优化，全流程辅助大型项目开发。

Trae

Trae（官网 trae.ai）是由字节跳动（ByteDance）推出的一款 AI 原生集成开发环境（IDE）。它不是简单地作为一个编程助手，而是一个「协作伙伴」，通过深度整合大型语言模型（LLM），帮助开发者从需求、构建代码，到调试和部署，实现更智能化、自动化的软件开发。

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台，它融合了深度文本理解、信息整理、代码辅助和任务分析等能力，能在聊天对话之外应对更复杂的问题，例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人，Claude 更像一个具备推理逻辑、可扩展功能的智能工具。