CyberVerse 是一個開源的自我託管平臺,專門打造實時的數字人代理。它不只是一個聊天介面,而是一個完整的語音優先、支援視訊的 AI 互動系統。專案在 GitHub 上已獲得 1300+ stars,社羣活躍度不錯。
核心能力:從語音到視訊
CyberVerse 的核心是 WebRTC 實時通訊,這意味著音訊和視訊都可以低延遲傳送到瀏覽器或移動端。它內建了角色記憶系統,允許代理記住使用者偏好和對話上下文。還整合了RAG(檢索增強生成),讓代理能讀取外部知識庫回答問題。更值得提的是,它支援工具呼叫(function calling),可以連線 API 執行任務。最後,可選擇開啟數字人視訊——利用計算機視覺生成一個模擬面孔說話。
典型使用場景
對開發者來說,CyberVerse 最適合搭建 語音助手 或 角色扮演代理。比如,你可以在家庭伺服器上執行一個虛擬管家,通過語音控制智慧家居;或者做一個陪伴型 AI,有記憶、有表情,長時間對話更自然。企業也可以用它做客服數字人,不過需要自己處理網路與效能優化。
- 自託管:資料完全本地,隱私安全有保障
- 模組化:可以單獨啟用/關閉數字人視訊、RAG、記憶等元件
- 語音優先:天然支援實時語音對話,適合無螢幕場景
部署與上手
CyberVerse 使用 Python 編寫,依賴包括 FastAPI、WebRTC 庫、以及可選的視訊模型。部署需要 GPU(至少 4GB VRAM)來實現數字人視訊;如果只用語音和文字,CPU 也可以跑。安裝過程需要 Docker 或手動配置環境,官方文件提供了 docker-compose 示例。對於有 Linux 伺服器基礎的人來說,差不多一小時能跑起來。
實際用下來,語音延遲在 500ms 左右(取決於模型和網路),數字人視訊稍高一點。角色記憶的效果看配置的嵌入模型,常見用 all-MiniLM-L6-v2 就夠。RAG 支援多種文件格式,但文件匯入目前沒有圖形介面。
一個值得注意的點:CyberVerse 的分支版本和配置選項較多,新手容易在環境搭建上卡住。建議先從純語音模式開始,熟悉後再疊加視訊。
實用建議與要點
1. 硬體先決:要跑數字人視訊,NVIDIA RTX 3060 以上顯示卡體驗較好。純語音則隨便一臺 Linux 伺服器就行。
2. 配置記憶:角色記憶需要填寫 prompt 模板,建議從官方示例開始改,避免空模板導致對話無個性。
3. 網路優化:如果用於外網訪問,需要配置 TURN 伺服器(WebRTC 打洞需要),內網則用 STUN 就夠了。
4. 社羣支援:專案有 Discord,遇到部署問題可以直接問開發者。
CyberVerse 是一個有野心的開源專案,把語音、記憶、RAG、數字人視訊整合在一起,而且完全自託管。雖然部署有些門檻,但對於追求資料隱私和定製化的人來說,這可能是目前最完整的開源方案。如果只是好奇數字人互動,也可以從它開始探索。










評論
暫無評論
成為第一個評論的人