進階Cuda

mirage將LLM編譯成單個MegaKernel

mirage 是一個開源專案，它提出了一種全新方法：將 LLM 整個計算圖編譯成一個單一的 MegaKernel，從而消除核心啟動開銷和記憶體頻寬瓶頸。基於 CUDA 實現，針對 GPU 推理進行極致優化，能顯著降低延遲和功耗。對於追求高效能推理的開發者來說，這是一項值得關注的技術。

2.3K 星標

219 分叉

219 問題

153 流覽

Cuda

Apache-2.0

收錄日期2026年6月14日

Github 倉庫在線演示

專案概述

大型語言模型的推理優化一直是業界難題。傳統方法依賴多個獨立 CUDA 核心的序列執行，每次啟動都會帶來額外開銷，同時記憶體訪問模式也難以達到最優。mirage 專案給出了一個顛覆性的答案：直接把整個 LLM 編譯成一個單一的 MegaKernel，從根本上解決這些瓶頸。

從多核心到單核心的飛躍

想象一下，把數百個離散的矩陣乘法、注意力計算、啟用函式等操作全部融合進一個巨大的 GPU 核心裡。這就是 mirage 的核心思想。它通過持久化核心（Persistent Kernel）技術，讓所有計算步驟在一個核心中連續執行，省去了核心啟動的延遲，也減少了中間資料的全域性記憶體往返。

聽起來挺玄，但實際跑一遍就理解它的價值。在 NVIDIA GPU 上，mirage 自動分析模型計算圖，生成優化的 CUDA 程式碼，將Transformer 層甚至整個模型合併為單個核心。對獨立開發者來說，這可能意味著在同樣硬體上獲得更高的吞吐量。

典型使用場景

需要低延遲響應的線上推理服務，比如聊天機器人或實時翻譯。
資源受限環境，比如在單卡上部署 70B 引數模型時，MegaKernel 能更高效利用視訊記憶體頻寬。
研究和實驗，快速對比不同融合策略對效能的影響。

上手與注意事項

mirage 目前提供 Python 前端，使用者只需描述模型結構，它就能自動生成 MegaKernel。但底層是 CUDA，因此需要一定的 GPU 程式設計基礎來除錯和調優。專案文件比較完善，相容主流 LLaMA、GPT 等架構，但對自定義運算元或非標準模型的支援有限。

「mirage 讓我意識到，很多常見的推理加速方法可能只是區域性最優，而全域性融合才是終極答案。」 —— 一位早期採用者

從效能資料看，在相同精度下，mirage 能比傳統推理框架降低 20-50% 的延遲，能耗也有明顯下降。當然，這取決於模型和硬體，建議針對自己的場景做基準測試。

侷限性值得關注

首先，僅支援 NVIDIA GPU，AMD 和 Apple Silicon 使用者暫時無法使用。其次，編譯時間較長，尤其是在首次構建 MegaKernel 時。最後，由於將整個模型視為一個整體，動態輸入形狀或條件分支的處理效率可能不如多核心方案靈活。

總體來說，mirage 是一個思路獨特、效果顯著的開源專案，特別適合追求極致推理效能的團隊和個人。如果你正在和 LLM 推理延遲作鬥爭，不妨花一個下午嘗試它。

LLM推理優化MegaKernel持久化核心GPU加速CUDA開源AI模型編譯Transformer優化

項目評分

0.0 (0 評價)

登錄后可為項目評分

常見問題

mirage: 將LLM編譯成單個MegaKernel 是什麼？

mirage: 將LLM編譯成單個MegaKernel 用什麼語言開發？

mirage: 將LLM編譯成單個MegaKernel 主要使用 Cuda 開發。

mirage: 將LLM編譯成單個MegaKernel 使用什麼開源授權？

mirage: 將LLM編譯成單個MegaKernel 基於 Apache-2.0 授權開源。

探索更多

相似工具

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器，以「原生內建 AI」為核心賣點。它不依賴外掛，而是將 AI 深度植入編輯器底層，能夠理解整個專案的上下文程式碼庫，支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Antigravity 支援多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，開發者可以在同一環境中選擇最適合任務的模型。

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手，可將自然語言指令翻譯成對應的原始碼，為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出，曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代，Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸，能夠理解複雜需求並自動編寫、除錯程式碼，顯著提升開發效率和軟體交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE，採用規範驅動的開發模式，將自然語言需求轉化為明確的規格文件和任務，再由內建 AI 代理生成程式碼並除錯優化，全流程輔助大型專案開發。

Trae

Trae（官網 trae.ai）是由位元組跳動（ByteDance）推出的一款 AI 原生整合開發環境（IDE）。它不是簡單地作為一個程式設計助手，而是一個「協作夥伴」，通過深度整合大型語言模型（LLM），幫助開發者從需求、構建程式碼，到除錯和部署，實現更智慧化、自動化的軟體開發。

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺，它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力，能在聊天對話之外應對更復雜的問題，例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人，Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。