進階Python

Liger-Kernel高效 Triton 核心加速 LLM 訓練

Liger-Kernel 是 LinkedIn 開源的 Triton 核心集合,專為優化大語言模型訓練設計。它提供了 Flash Attention、RMSNorm、RoPE 等核心運算元的高效實現,顯著降低視訊記憶體佔用並提升訓練吞吐。基於 Python 和 Triton,可輕鬆整合到 PyTorch 專案中。開源以來已獲 6.4k+ Stars,是 LLM 訓練加速領域值得關注的專案。

6.4K 星標
535 分叉
145 問題
121 流覽
Python
BSD-2-Clause
收錄日期

專案概述

Liger-Kernel 是 LinkedIn 開源的 Triton 核心集合,專為優化大語言模型訓練設計。它提供了 Flash Attention、RMSNorm、RoPE 等核心運算元的高效實現,顯著降低視訊記憶體佔用並提升訓練吞吐。基於 Python 和 Triton,可輕鬆整合到 PyTorch 專案中。開源以來已獲 6.4k+ Stars,是 LLM 訓練加速領域值得關注的專案。

訓練大語言模型(LLM)是個資源黑洞。視訊記憶體佔用高、計算瓶頸多,稍微調大 batch size 就可能 OOM。LinkedIn 開源的 Liger-Kernel 提供了一套用 Triton 編寫的 GPU 核心,專門解決這些痛點。專案釋出後迅速獲得 6.4k+ Stars,證明社羣對更高效訓練工具的渴望。

核心運算元:不止 Flash Attention

很多人提到 LLM 訓練優化會先想到 Flash Attention,但 Liger-Kernel 覆蓋的更全。它實現了 Flash Attention v2RMSNormRoPESwiGLUCross Entropy Loss 等關鍵運算元。每個運算元都用 Triton 手工調優,融合 kernel 以最小化視訊記憶體讀寫。比如它的 RMSNorm 核心比 PyTorch 原生實現減少約 30% 的視訊記憶體佔用,在長序列場景下效果尤其明顯。

聽起來挺玄,但實際跑一遍就懂。用 liger-kernel 替換模型中的對應層,幾行程式碼就能看到訓練速度和視訊記憶體的雙重改善。官方測試顯示,在 7B 引數模型上,訓練吞吐提升 10-20%,視訊記憶體節省約 15%。

效能優勢:視訊記憶體和吞吐雙贏

Liger-Kernel 最吸引人的點是它能在不犧牲精度的情況下降低視訊記憶體。這得益於 Triton 核心的精細排程:把多個小操作合併成一個 kernel 啟動,減少資料搬運。對開發者而言,意味著可以用更大的 batch size 或訓練更長序列。例如,在 Llama 2 13B 上,Liger-Kernel 讓最大序列長度從 4K 擴充套件到 8K,而視訊記憶體僅增加 10%。

效能提升不是靠黑魔法,而是紮實的工程優化。專案背後是 LinkedIn 的 AI 基礎設施團隊,他們有大量生產級 LLM 訓練經驗。核心程式碼寫得相當乾淨,Triton 的使用也很規範,對想學習 GPU 程式設計的人來說是很好的參考。

上手整合:比想象中簡單

安裝只需 pip install liger-kernel。然後在模型程式碼中將 nn.RMSNorm 替換為 LigerRMSNorm,或用提供的一鍵 monkey-patch 函式。整合過程不需要理解 Triton 細節,適合只想加速訓練而不想折騰核心的團隊。

典型使用場景:一箇中小團隊正在微調 7B 模型,發現自己因為視訊記憶體限制只能用小 batch,訓練慢得讓人抓狂。他們引入 Liger-Kernel,替換了注意力層和歸一化層,視訊記憶體佔用下降 20%,batch size 翻倍,訓練時間縮短近一半。對獨立開發者尤其有意義——省下的視訊記憶體意味著能用更低成本的 GPU 跑實驗。

社羣與侷限

專案採用 Apache 2.0 許可證,完全開源。GitHub 上有 60+ 貢獻者,LinkedIn 官方持續維護。Issues 區答覆積極,但文件目前還偏技術化,新手可能會對某些運算元的適用場景感到困惑。

  • 優點:覆蓋運算元廣、視訊記憶體優化顯著、整合簡單、社羣活躍
  • 缺點:對非標準模型架構支援有限、Triton 環境配置可能踩坑、部分運算元仍在實驗階段

實用建議:如果你的工作流涉及 LLM 預訓練或長序列微調,Liger-Kernel 值得一試。先從替換 RMSNorm 和 SwiGLU 入手,觀察視訊記憶體變化。注意保持 CUDA 和 Triton 版本相容性,別直接用 nightly 版。總的來說,這是一個真正能落地的加速庫,不是學術 Demo。

Triton核心LLM訓練優化LinkedIn開源高效運算元FlashAttention視訊記憶體優化訓練加速核心優化大語言模型GPU程式設計

項目評分

0.0 (0 評價)

分享

常見問題

Liger-Kernel: 高效 Triton 核心加速 LLM 訓練 是什麼?

Liger-Kernel 是 LinkedIn 開源的 Triton 核心集合,專為優化大語言模型訓練設計。它提供了 Flash Attention、RMSNorm、RoPE 等核心運算元的高效實現,顯著降低視訊記憶體佔用並提升訓練吞吐。基於 Python 和 Triton,可輕鬆整合到 PyTorch 專案中。開源以來已獲 6.4k+ Stars,是 LLM 訓練加速領域值得關注的專案。

Liger-Kernel: 高效 Triton 核心加速 LLM 訓練 用什麼語言開發?

Liger-Kernel: 高效 Triton 核心加速 LLM 訓練 主要使用 Python 開發。

Liger-Kernel: 高效 Triton 核心加速 LLM 訓練 使用什麼開源授權?

Liger-Kernel: 高效 Triton 核心加速 LLM 訓練 基於 BSD-2-Clause 授權開源。

相關專案

暫無結果

探索更多

相似工具

Cursor

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器,以「原生內建 AI」為核心賣點。它不依賴外掛,而是將 AI 深度植入編輯器底層,能夠理解整個專案的上下文程式碼庫,支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Google Antigravity

Antigravity 支援多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,開發者可以在同一環境中選擇最適合任務的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手,可將自然語言指令翻譯成對應的原始碼,為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出,曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代,Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸,能夠理解複雜需求並自動編寫、除錯程式碼,顯著提升開發效率和軟體交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE,採用規範驅動的開發模式,將自然語言需求轉化為明確的規格文件和任務,再由內建 AI 代理生成程式碼並除錯優化,全流程輔助大型專案開發。

Trae

Trae

Trae(官網 trae.ai)是由 位元組跳動(ByteDance)推出的一款 AI 原生整合開發環境(IDE)。它不是簡單地作為一個程式設計助手,而是一個「協作夥伴」,通過深度整合大型語言模型(LLM),幫助開發者從需求、構建程式碼,到除錯和部署,實現更智慧化、自動化的軟體開發。

Claude

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺,它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力,能在聊天對話之外應對更復雜的問題,例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人,Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。

評論

評論

0
0/500 字元

暫無評論

成為第一個評論的人

開源專案

探索、學習和貢獻開源 AI 專案,推動人工智慧技術的發展

查看全部