进阶Cuda

mirage将LLM编译成单个MegaKernel

mirage 是一个开源项目，它提出了一种全新方法：将 LLM 整个计算图编译成一个单一的 MegaKernel，从而消除内核启动开销和内存带宽瓶颈。基于 CUDA 实现，针对 GPU 推理进行极致优化，能显著降低延迟和功耗。对于追求高性能推理的开发者来说，这是一项值得关注的技术。

2.3K 星标

219 分叉

219 问题

153 浏览

Cuda

Apache-2.0

收录日期2026年6月14日

Github仓库在线演示

项目概述

大型语言模型的推理优化一直是业界难题。传统方法依赖多个独立 CUDA 内核的序列执行，每次启动都会带来额外开销，同时内存访问模式也难以达到最优。mirage 项目给出了一个颠覆性的答案：直接把整个 LLM 编译成一个单一的 MegaKernel，从根本上解决这些瓶颈。

从多内核到单内核的飞跃

想象一下，把数百个离散的矩阵乘法、注意力计算、激活函数等操作全部融合进一个巨大的 GPU 内核里。这就是 mirage 的核心思想。它通过持久化内核（Persistent Kernel）技术，让所有计算步骤在一个内核中连续执行，省去了内核启动的延迟，也减少了中间数据的全局内存往返。

听起来挺玄，但实际跑一遍就理解它的价值。在 NVIDIA GPU 上，mirage 自动分析模型计算图，生成优化的 CUDA 代码，将Transformer 层甚至整个模型合并为单个内核。对独立开发者来说，这可能意味着在同样硬件上获得更高的吞吐量。

典型使用场景

需要低延迟响应的在线推理服务，比如聊天机器人或实时翻译。
资源受限环境，比如在单卡上部署 70B 参数模型时，MegaKernel 能更高效利用显存带宽。
研究和实验，快速对比不同融合策略对性能的影响。

上手与注意事项

mirage 目前提供 Python 前端，用户只需描述模型结构，它就能自动生成 MegaKernel。但底层是 CUDA，因此需要一定的 GPU 编程基础来调试和调优。项目文档比较完善，兼容主流 LLaMA、GPT 等架构，但对自定义算子或非标准模型的支持有限。

“mirage 让我意识到，很多常见的推理加速方法可能只是局部最优，而全局融合才是终极答案。” —— 一位早期采用者

从性能数据看，在相同精度下，mirage 能比传统推理框架降低 20-50% 的延迟，能耗也有明显下降。当然，这取决于模型和硬件，建议针对自己的场景做基准测试。

局限性值得关注

首先，仅支持 NVIDIA GPU，AMD 和 Apple Silicon 用户暂时无法使用。其次，编译时间较长，尤其是在首次构建 MegaKernel 时。最后，由于将整个模型视为一个整体，动态输入形状或条件分支的处理效率可能不如多内核方案灵活。

总体来说，mirage 是一个思路独特、效果显著的开源项目，特别适合追求极致推理性能的团队和个人。如果你正在和 LLM 推理延迟作斗争，不妨花一个下午尝试它。

LLM推理优化MegaKernel持久化内核GPU加速CUDA开源AI模型编译Transformer优化

项目评分

0.0 (0 评价)

登录后可为项目评分

常见问题

mirage: 将LLM编译成单个MegaKernel 是什么？

mirage: 将LLM编译成单个MegaKernel 用什么语言开发？

mirage: 将LLM编译成单个MegaKernel 主要使用 Cuda 开发。

mirage: 将LLM编译成单个MegaKernel 使用什么开源协议？

mirage: 将LLM编译成单个MegaKernel 基于 Apache-2.0 协议开源。

探索更多

相似工具

Cursor

一款基于 VS Code 二次开发的智能代码编辑器，以“原生内置 AI”为核心卖点。它不依赖插件，而是将 AI 深度植入编辑器底层，能够理解整个项目的上下文代码库，支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Antigravity 支持多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，开发者可以在同一环境中选择最适合任务的模型。

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手，可将自然语言指令翻译成对应的源代码，为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出，曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代，Codex 在 2025 年以“AI 编程智能体”的全新姿态回归，能够理解复杂需求并自动编写、调试代码，显著提升开发效率和软件交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE，采用规范驱动的开发模式，将自然语言需求转化为明确的规格文档和任务，再由内置 AI 代理生成代码并调试优化，全流程辅助大型项目开发。

Trae

Trae（官网 trae.ai）是由字节跳动（ByteDance）推出的一款 AI 原生集成开发环境（IDE）。它不是简单地作为一个编程助手，而是一个「协作伙伴」，通过深度整合大型语言模型（LLM），帮助开发者从需求、构建代码，到调试和部署，实现更智能化、自动化的软件开发。

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台，它融合了深度文本理解、信息整理、代码辅助和任务分析等能力，能在聊天对话之外应对更复杂的问题，例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人，Claude 更像一个具备推理逻辑、可扩展功能的智能工具。