IndexTTS: 零樣本語音合成與情感控制

IndexTTS: 零樣本語音合成與情感控制 主要使用 Python 開發。

IndexTTS: 零樣本語音合成與情感控制 基於 MIT 授權開源。

IndexTTS是一個文字轉語音（Text-To-Speech, TTS）系統，支援 zero-shot 語音合成、情感控制、說話者克隆、控制語速/時長等

說話者克隆 / zero-shot TTS：希望通過一小段說話者音訊作為「提示」，合成出帶有該說話者聲音特徵的語音。

情感 / 語氣控制：不僅要複製聲音的 timbre（聲線特徵），還希望能控制情緒、語氣、語調，使合成語音更自然、更符合意圖。

時長 / 語速控制：在一些應用（例如視訊配音、對口型、動畫配音等）中，希望生成的語音與畫面或時間同步。這就需要精確控制合成語音的長度 / 時長 /節奏。

效率 / 實用性 /穩定性：在工業場景需要模型推理速度快、資源消耗低、穩定性高、易整合。

功能與設計亮點
Zero-shot 語音克隆	給定一段參考音訊（speaker prompt），模型能迅速捕捉其聲音特徵並用於合成。
情感與說話者分離 / 控制	在 IndexTTS2 中，作者設計瞭解耦（disentangle）策略，使情感特徵與說話者身份特徵可以分別控制。這樣可以「說同一個人但不同情緒」的語音合成。
精確時長控制 + 自由生成模式	IndexTTS2 引入一種新的時長適配 (duration adaptation) 機制，支援兩種模式：（1）顯式指定 token 數目來精確控制時長；（2）以 autoregressive 模式自由生成，同時保持自然的語速和韻律。
訓練策略 & 多模態輸入	為增強情感表達能力，作者採用三階段訓練策略，並利用 GPT 的潛在表示 (latent) 來輔助情緒表達。
易用性 & 部署	提供命令列 / Python 介面示例、Web UI，以及模型下載方式（HuggingFace / ModelScope）。
混合中英文 / 拼音控制	支援漢字 + 拼音混合輸入，便於精細發音控制（尤其在中文場景）
硬體 /效率方面	支援使用 fp16（半精度）推理、DeepSpeed 加速、CUDA kernel 優化等方式來降低資源消耗 / 提高速度。