AI 語音合成近年來進步飛快,但要讓機器說話像真人一樣自然、帶情緒、有起伏,仍然是個難題。Google DeepMind 最新發布的 Gemini 3.1 Flash TTS 試圖解決這個問題——它引入了一套細粒度的音訊標籤系統,讓開發者可以像導演一樣精確控制語音的每一個細節。
什麼是 Gemini 3.1 Flash TTS?
簡單來說,這是 DeepMind 旗下 Gemini 3.1 系列的最新音訊模型,專注於高質量、高表現力的 文字轉語音。不同於傳統 TTS 只能控制語速和音高,Gemini 3.1 Flash TTS 允許通過 音訊標籤 來指定情感(如開心、悲傷、驚訝)、語調變化、停頓長短、重點強調等。這意味著生成的聲音不再「平板」,而是能傳達出豐富的語境資訊。
核心亮點:細粒度音訊標籤
音訊標籤是本次更新的核心。開發者可以在文字中嵌入特定標籤,比如 [happy] 表示快樂語調,[pause] 控制停頓時長,甚至 [whisper] 實現耳語效果。這些標籤組合起來,可以模擬出接近真人的對話節奏和情感波動。對於內容創作者來說,這相當於擁有了一位隨時可用的專業配音演員。
具體來說,標籤覆蓋了這些維度:
- 情感標籤:如興奮、悲傷、中性、疑惑等
- 韻律標籤:語速、音高、重音位置
- 風格標籤:朗讀、對話、旁白、 whisper 等
- 結構標籤:段落停頓、換氣聲、結束語氣
實際影響:誰能從中受益?
這項能力最直接的受益者是 有聲書和播客製作。以往製作一個多角色有聲書需要錄很多次,現在只需用不同標籤為每個角色設定獨特聲音風格,一鍵生成。此外,虛擬助手和客服系統也能借此變得更有人情味——當使用者表達沮喪時,AI 回覆可以帶有關切的語調,而非冷冰冰的機械音。
對獨立開發者而言,這意味著他們不再需要昂貴的錄音棚和配音演員,就能為自己的應用新增高質量語音互動。比如一款睡前故事 App,可以為每個角色分配不同情緒標籤,自動生成聲情並茂的故事。
與競品的比較
市面上已有不少 TTS 產品,如 OpenAI 的 TTS API、ElevenLabs、微軟 Azure 語音等。Gemini 3.1 Flash TTS 的差異化在於標籤的精細度和可控性。ElevenLabs 雖然也支援情感調節,但更多依賴預設的口語風格;而 Gemini 的標籤系統允許開發者逐句甚至逐詞調整,適合對細節要求極高的場景。
不過,這種靈活性也帶來學習成本——開發者需要花時間熟悉標籤語法和除錯。DeepMind 提供了文件和示例,但入門曲線比「一句話生成」要陡一些。
關於模型效能
DeepMind 稱該模型在 自然度 和 情感準確性 上優於上一代。雖然官方沒有公開具體的 MOS 分數(主觀聽感評分),但從演示片段來看,生成的語音在氣息感、停頓和語調變化上確實非常接近真人。模型支援多種語言,包括中文,這對國內市場也是好訊息。
目前 Gemini 3.1 Flash TTS 通過 Google Cloud 的 Vertex AI 平臺提供 API 訪問,定價尚未完全公開,但預計會延續 Gemini 系列的按量計費模式。
總的來說,Gemini 3.1 Flash TTS 在 AI 語音的「表達力」上邁出了一大步。對於需要精細控制語音情感的應用場景,它提供了前所未有的工具。接下來值得關注的是社羣如何利用這些標籤創造出更生動的語音體驗。











評論
暫無評論
成為第一個評論的人