進階Python

FlashInfer加速 LLM 推理的核函式庫

Q: FlashInfer: 加速 LLM 推理的核函式庫 用什麼語言開發？

FlashInfer: 加速 LLM 推理的核函式庫 主要使用 Python 開發。

Q: FlashInfer: 加速 LLM 推理的核函式庫 使用什麼開源授權？

FlashInfer: 加速 LLM 推理的核函式庫 基於 Apache-2.0 授權開源。

FlashInfer 是一個專為 LLM 推理設計的高效能核函式庫，支援 FlashAttention、PageAttention 等核心運算，顯著降低視訊記憶體頻寬需求並提升解碼吞吐。基於 Python/PyTorch，提供簡潔 API，適合部署 LLaMA、Mistral 等大模型。開源、社羣活躍，是生產級推理系統的重要元件。

5.9K 星標

1.1K 分叉

734 問題

45 流覽

Python

Apache-2.0

收錄日期2026年7月1日

Github 倉庫在線演示

專案概述

大語言模型（LLM）的推理加速一直是工程落地的關鍵瓶頸。隨著 LLaMA、Mistral 等模型引數規模膨脹，視訊記憶體頻寬和計算效率的優化成為部署的核心矛盾。FlashInfer 正是為解決這一問題而生的開源核函式庫，它由一群來自伯克利和業界的研究者開發，專注於提供 LLM 推理場景下的高效能 CUDA kernel。

為什麼需要 FlashInfer？

Transformer 推理中最耗時的部分來自注意力機制，尤其是 FlashAttention 和 PageAttention 兩類操作。傳統實現往往需要大量視訊記憶體中間排程，而 FlashInfer 通過融合 kernel 和 分頁 KV 快取 管理，將記憶體訪問模式優化到極致。根據官方基準，在相同硬體上 FlashInfer 的 decode 階段速度可提升 2-4 倍。這對於需要 低延遲 的線上服務或需要 高吞吐 的批處理場景尤為重要。

核心能力一覽

FlashAttention 核心：支援 causal 和非 causal 掩碼，自動處理分組查詢注意力（GQA/MQA）。
PageAttention 核心：vLLM 相容的實現，可高效管理視訊記憶體碎片。
動態剪枝：支援稀疏注意力模式，進一步減少計算量。
量化支援：內建 FP8/INT8 量化核心，適配主流量化方案。
PyTorch 原生介面：通過 torch.compile 無縫整合，無需重寫模型程式碼。

實際用例：部署 LLaMA-3 70B

假設你在為一個問答產品部署 LLaMA-3 70B 模型。使用 HuggingFace Transformers 原生推理時，單張 A100 每秒只能處理約 8 個 token（decode 階段）。替換 FlashInfer 後，同樣的硬體可達到每秒 30+ token，同時視訊記憶體佔用降低約 30%。對獨立開發者或中小團隊而言，這意味著不用堆卡就能提供可用的服務等級。 FlashInfer 提供的 flashinfer.attention 模組可以直接替換原生實現，只需修改幾行程式碼。

上手難度與生態

FlashInfer 需要 CUDA 環境，安裝方式為 pip install flashinfer（預編譯 wheel 支援 PyTorch 2.0+）。由於涉及底層編譯，部分系統可能需要手動構建，但專案文件提供了詳細的 Docker 映象。推薦有一定 PyTorch 核心編譯經驗的開發者使用。 目前社羣貢獻了 vLLM、TGI 等推理框架的整合示例，生產對接成本較低。

侷限與展望

FlashInfer 目前強依賴 NVIDIA GPU，AMD 和 Apple Silicon 使用者需要等待適配。另外，對 batch size 較小的場景（如單流實時對話）優化不如大 batch 顯著。團隊正在積極開發 AMD ROCm 後端， 預計半年內會進入 alpha 階段。對於追求極致效率的推理團隊，FlashInfer 是一個值得投入的底層工具。

一句話總結：如果你在部署 LLM 服務並受限於推理延遲和視訊記憶體，FlashInfer 是目前最成熟的開源 kernel 庫之一， 尤其適合批處理 decode 和長序列場景。結合 vLLM 使用效果更佳。

FlashInferLLM推理加速FlashAttentionPageAttentionCUDA kernel大模型部署vLLM高效能運算開源核函式庫

項目評分

0.0 (0 評價)

登錄后可為項目評分

常見問題

FlashInfer: 加速 LLM 推理的核函式庫是什麼？

FlashInfer: 加速 LLM 推理的核函式庫用什麼語言開發？

FlashInfer: 加速 LLM 推理的核函式庫主要使用 Python 開發。

FlashInfer: 加速 LLM 推理的核函式庫使用什麼開源授權？

FlashInfer: 加速 LLM 推理的核函式庫基於 Apache-2.0 授權開源。

探索更多

相似工具

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器，以「原生內建 AI」為核心賣點。它不依賴外掛，而是將 AI 深度植入編輯器底層，能夠理解整個專案的上下文程式碼庫，支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Antigravity 支援多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，開發者可以在同一環境中選擇最適合任務的模型。

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手，可將自然語言指令翻譯成對應的原始碼，為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出，曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代，Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸，能夠理解複雜需求並自動編寫、除錯程式碼，顯著提升開發效率和軟體交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE，採用規範驅動的開發模式，將自然語言需求轉化為明確的規格文件和任務，再由內建 AI 代理生成程式碼並除錯優化，全流程輔助大型專案開發。

Trae

Trae（官網 trae.ai）是由位元組跳動（ByteDance）推出的一款 AI 原生整合開發環境（IDE）。它不是簡單地作為一個程式設計助手，而是一個「協作夥伴」，通過深度整合大型語言模型（LLM），幫助開發者從需求、構建程式碼，到除錯和部署，實現更智慧化、自動化的軟體開發。

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺，它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力，能在聊天對話之外應對更復雜的問題，例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人，Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。