进阶Python

vllm-mlxApple Silicon上极速运行LLM和VLM

vllm-mlx 是一个原生 MLX 推理服务器,为 Apple Silicon 优化,兼容 OpenAI 和 Anthropic API,支持 Llama、Qwen-VL 等大语言和视觉语言模型,连续批处理可达 400+ tok/s,适合本地部署和开发。

1.4K 星标
189 分叉
56 问题
101 浏览
Python
Apache-2.0
收录日期

项目概述

vllm-mlx 是一个原生 MLX 推理服务器,为 Apple Silicon 优化,兼容 OpenAI 和 Anthropic API,支持 Llama、Qwen-VL 等大语言和视觉语言模型,连续批处理可达 400+ tok/s,适合本地部署和开发。

如果你有一台 Mac 并想在本地跑大模型,通常的选择是 ollama 或 llama.cpp。但 vllm-mlx 的出现给了 Apple Silicon 用户一个新选项——一个原生 MLX 后端、兼容 OpenAI 和 Anthropic 接口的推理服务器。它叫 vllm-mlx,名字致敬了 vLLM,但针对苹果的 MLX 框架重新设计。

不仅仅是另一个推理引擎

vllm-mlx 的核心卖点是速度。根据项目基准,在 M1 Ultra 上它能达到 400+ tok/s。这个数字对本地部署来说相当惊人,意味着对话几乎无延迟。更关键的是,它原生支持连续批处理——同时处理多个请求而不退化性能。对开发者来说,这意味着可以用更少的硬件跑更多的并发。

除了文本模型,它还支持视觉语言模型,比如 Qwen-VL 和 LLaVA。这意味着你可以把图片直接丢给模型,让它描述内容或回答问题。多模态支持在本地推理中仍然是个稀缺功能,vllm-mlx 做得不错。

兼容现有工具链

一个亮点是它兼容 OpenAI 的 Chat Completions API 以及 Anthropic 的 Messages API。这意味着现有工具(比如 LangChain、LlamaIndex、甚至 Claude Code)可以无缝切换过来。你不需要重写代码,只需改一下 API 地址就能用本地模型。这对注重隐私或成本控制的团队尤其有价值。

另一个值得提的细节是 MCP(Model Context Protocol)工具调用支持。这允许模型通过标准协议调用外部工具,比如搜索或数据库查询,把 LLM 从聊天框里解放出来。虽然还比较新,但方向很对。

上手体验与局限

安装需要 Python 环境,最好用 conda 或 venv。项目依赖 MLX,而 MLX 要求 Apple Silicon(M 系列芯片)。Intel Mac 用户无法使用,这是硬件门槛。如果你手头是 M1 或更新,配置起来相当直接:

  • 克隆仓库:git clone https://github.com/waybarrios/vllm-mlx
  • 安装依赖:pip install -r requirements.txt
  • 启动服务:python -m vllm_mlx.server --model meta-llama/Llama-3.2-3B-Instruct

模型会从 Hugging Face 自动下载,并缓存到本地。首次运行有点慢,但后续就快了。速度确实让人印象深刻,即使在较小的模型(3B 参数)上也能感受到流畅响应。

但有限制:目前支持的模型列表集中在 Llama、Qwen 和 LLaVA 家族,其他模型需要自己转换。此外,文档还比较基础,调试错误可能需要翻 Issue 区。社区规模不大,但很活跃。

谁该试试?

如果你是 Mac 开发者,想在本地方便地测试模型,或者需要为团队搭建一个低延迟的推理服务,vllm-mlx 值得尝试。它的原生 MLX 加速比通用方案快很多,API 兼容性也降低了集成成本。对于生产部署,建议配合 Docker 或 systemd 使用,并监控内存占用——大模型在 16GB 统一内存的 Mac 上可能会吃力。

一句话:vllm-mlx 是目前 Apple Silicon 上最值得关注的本地推理服务器之一。它不是完美的,但方向非常正确。

vllm-mlxApple SiliconMLXLLM部署视觉语言模型本地推理连续批处理MCP工具调用OpenAI兼容Anthropic兼容

项目评分

0.0 (0 评价)

分享

常见问题

vllm-mlx: Apple Silicon上极速运行LLM和VLM 是什么?

vllm-mlx 是一个原生 MLX 推理服务器,为 Apple Silicon 优化,兼容 OpenAI 和 Anthropic API,支持 Llama、Qwen-VL 等大语言和视觉语言模型,连续批处理可达 400+ tok/s,适合本地部署和开发。

vllm-mlx: Apple Silicon上极速运行LLM和VLM 用什么语言开发?

vllm-mlx: Apple Silicon上极速运行LLM和VLM 主要使用 Python 开发。

vllm-mlx: Apple Silicon上极速运行LLM和VLM 使用什么开源协议?

vllm-mlx: Apple Silicon上极速运行LLM和VLM 基于 Apache-2.0 协议开源。

相关项目

暂无结果

探索更多

相似工具

Cursor

Cursor

一款基于 VS Code 二次开发的智能代码编辑器,以“原生内置 AI”为核心卖点。它不依赖插件,而是将 AI 深度植入编辑器底层,能够理解整个项目的上下文代码库,支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Google Antigravity

Antigravity 支持多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,开发者可以在同一环境中选择最适合任务的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手,可将自然语言指令翻译成对应的源代码,为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出,曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代,Codex 在 2025 年以“AI 编程智能体”的全新姿态回归,能够理解复杂需求并自动编写、调试代码,显著提升开发效率和软件交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE,采用规范驱动的开发模式,将自然语言需求转化为明确的规格文档和任务,再由内置 AI 代理生成代码并调试优化,全流程辅助大型项目开发。

Trae

Trae

Trae(官网 trae.ai)是由 字节跳动(ByteDance)推出的一款 AI 原生集成开发环境(IDE)。它不是简单地作为一个编程助手,而是一个「协作伙伴」,通过深度整合大型语言模型(LLM),帮助开发者从需求、构建代码,到调试和部署,实现更智能化、自动化的软件开发。

Claude

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台,它融合了深度文本理解、信息整理、代码辅助和任务分析等能力,能在聊天对话之外应对更复杂的问题,例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人,Claude 更像一个具备推理逻辑、可扩展功能的智能工具。

评论

评论

0
0/500 字符

暂无评论

成为第一个评论的人

开源项目

探索、学习和贡献开源AI项目,推动人工智能技术的发展

查看全部