Gemini 3.1 Flash Live: 讓語音互動更自然可靠

Daniel Lee

2026年7月3日

111

original

DeepMind 釋出 Gemini 3.1 Flash Live 語音模型，通過提升精度和降低延遲，使語音對話更流暢自然。該模型在噪聲抑制、情感識別和響應速度上均有顯著進步，適用於實時助手、客服系統等場景，標誌著 AI 語音互動邁向新高度。

DeepMind 今天釋出了 Gemini 3.1 Flash Live，一款專為實時語音互動優化的模型。它的核心賣點很直接——讓 AI 聽起來更像真人，而且反應更快。這並非簡單的迭代升級，而是從架構到訓練策略的一次完整重構。

延遲砍到 200ms 以下

上一代模型在複雜對話中有時會卡頓 1-2 秒，Gemini 3.1 Flash Live 將端到端延遲壓縮到了 200 毫秒以內。這意味著使用者幾乎感覺不到「等待」這件事。DeepMind 團隊做了兩件事：一是精簡了音訊編碼器的計算路徑，二是引入了流式解碼，讓模型在說完前半句時就開始規劃後半句的結構。對普通使用者來說，最直觀的感受就是——不會再出現那種「嗯…啊…」的尷尬停頓。

精度提升：聽懂語氣和背景噪音

語音互動最大的痛點不是聽錯詞，而是理解語氣和過濾噪音。Gemini 3.1 Flash Live 在訓練資料中混入了大量帶背景噪音的真實對話片段（比如咖啡館、街道、多人交談），並特別強化了對語調變化的識別。例如，使用者用懷疑的語氣說「真的嗎？」，模型不再僅僅當成疑問句處理，而是感知到情感傾向並做出相應調整。此外，它還支援動態音量自適應——即使你輕聲說話或者突然提高嗓門，它都能保持穩定的響應質量。

實用場景：不止是聊天機器人

雖然這款模型可以驅動任何語音助手，但 DeepMind 特別強調了兩個典型落點：

實時客服系統：當使用者情緒激動時，模型能自動放慢語速、使用更溫和的措辭，而不是機械地照本宣科。
口語教學工具：它可以捕捉髮音中的細微偏差（比如母音長度、重音位置），並給出精準反饋，而不是籠統地說「發音不正確」。

對獨立開發者來說，這意味著他們可以用更少的算力實現以前只有大廠才能做好的語音互動——因為 Gemini 3.1 Flash Live 的模型體積比上一代小了 40%，但效果卻更好。

可靠性：少犯錯，會認錯

語音 AI 最怕的就是「一本正經胡說」。新模型在自我糾錯上有了突破：當它意識到自己可能聽錯了關鍵詞時，會主動用確認性提問來核對，而不是硬著頭皮往下接話。比如使用者說「幫我訂一張去北京的機票」，如果模型對「北京」二字的置信度不夠高，它會反問「請問是北京還是南京？」——這種機制大大降低了溝通成本。

「我們不是在做一個更快的語音識別器，而是在造一個會聽、會思考、會迴應的對話夥伴。」——DeepMind 語音團隊負責人

另外，模型在敏感內容過濾上也做了增強。它能更準確地識別出使用者是在開玩笑還是真正有攻擊性，從而避免過度反應或漏判。

開發者怎麼看？

API 方面，DeepMind 提供了兩套接入方式：一是 WebSocket 實時流介面，適合對延遲有極致要求的應用；二是傳統的 REST 介面，方便整合到現有後端。定價與 Gemini 3.0 持平，但實際使用下來的感受是——同等成本下，它能處理更復雜的對話。早期內測的幾家教育公司反饋說，學生與 AI 外教對話時，自然中斷率下降了 60%。

當然，這套模型並非完美。它對非英語口音的覆蓋度仍有提升空間，尤其是南亞和西非地區的英語口音。此外，多語種混說場景下偶爾會出現語言標籤錯亂。DeepMind 表示這些會在下一個版本中重點優化。

結論

Gemini 3.1 Flash Live 沒有追求花哨的噱頭，而是紮實地解決了語音互動中最實際的兩個問題——延遲和誤解。對於任何在構建語音產品的人，它都值得立刻上手試一下。如果一定要說一個判斷標準，那就是：當使用者不再意識到自己是在和 AI 說話時，這款模型才算真的成功了。目前來看，它已經相當接近了。

Gemini 3.1 Flash Live語音互動DeepMind低延遲語音實時語音AI情感識別噪聲抑制口語教學客服AI語音模型

探索更多

相似工具

抖音音樂創作實驗室

抖音音樂創作實驗室是抖音官方推出的一款 AI 音樂創作與發行平臺。它為沒有專業背景的音樂愛好者提供了一套完整的工具鏈，從智慧作詞、AI作曲、自動編曲混音到一鍵釋出全流程覆蓋。使用者只需在介面中輸入歌詞草案、主題關鍵詞或參考曲目，系統就能自動生成符合要求的歌曲。官方宣傳抖音音樂創作實驗室「零門檻」面向所有使用者免費開放，讓創作者可以輕鬆嘗試多種風格——包括流行、古風、電子等多元曲風。

ACE Studio

ACE Studio 不是那種「輸入一句話生成一首歌」的玩具，而是一款嚴肅的生產力工具。它允許你在時間軸上像編輯 MIDI 一樣編輯人聲，提供接近真人的呼吸感和唱腔，直接對標 Synthesizer V，支援作為外掛掛載到宿主軟體（DAW）中。

NiceVoice

NiceVoice 是一款偏「創作者友好型」的 AI 語音合成平臺，整體體驗更注重生成結果是否自然、是否耐聽，而不是堆疊複雜設定。從使用角度來看，它並不要求使用者理解語音模型或引數結構，只需要把文字內容整理好，就能快速得到相對穩定的配音結果，適合需要頻繁生成語音內容的場景。

Suno

Suno 是一款基於 AI 的音樂創作工具，使用者通過文字提示、音訊錄入或圖片等多種方式，即可快速生成完整歌曲。Suno 內建先進的深度學習音樂模型，自動編排旋律、節奏和人聲等元素，免去樂器演奏的過程。該平臺面向專業音樂人、內容創作者以及普通使用者，旨在激發無限的創意靈感，幫助使用者用簡單直觀的方式完成從靈感到成曲的全過程。