Fish Audio發佈OpenAudio S1：媲美專業配音演員的AI語音新標杆

Fish Audio正式推出其最新一代語音生成模型——OpenAudio S1，以其高度自然的聲音、豐富的語氣控制和強大的指令跟隨能力，號稱達到專業配音演員的表現力和自然度。這一模型在TTS-Arena排行榜中榮登第一，成爲文本轉語音（TTS）領域的新標杆。AIbase爲您深入解析OpenAudio S1的突破性功能及其潛在影響。

OpenAudio S1:重塑AI語音生成體驗

OpenAudio S1是Fish Audio在Fish Speech系列基礎上的全新升級，憑藉先進的架構設計和大規模訓練數據，實現了前所未有的語音自然度和表現力。核心亮點包括:

高度自然的聲音:生成的聲音流暢、逼真，幾乎與人類配音無異，適用於專業場景如視頻配音、播客和遊戲角色語音。

豐富的語氣控制:支持超過50種情緒和語氣標記，如（憤怒）、(高興)、(悲傷)、(低語)、(同情)等，用戶可通過自然語言指令靈活調整語音表達。

強大的指令跟隨能力:通過簡單的文本指令，用戶可以控制語音的語速、音量、停頓甚至笑聲等細節，打造高度個性化的語音輸出。

得益於200萬小時的音頻訓練數據，OpenAudio S1在語音生成的質量和多樣性上取得了顯著突破，覆蓋英語、中文、日語、韓語、法語、德語、阿拉伯語、西班牙語等13種語言，展現了強大的多語言能力。

視頻來自官方，翻譯：小互

TTS-Arena排名第一:專業水準的認證

在TTS-Arena的最新評測中，OpenAudio S1以“Anonymous Sparkle”之名榮登榜首，擊敗衆多開源和專有模型。TTS-Arena通過用戶投票比較不同TTS模型的自然度和表現力，OpenAudio S1以其逼真的語音質量和細膩的情感表達獲得廣泛認可。

此外，OpenAudio S1在Seed TTS評估中表現出色，英語單詞錯誤率（WER）低至0.008，字符錯誤率(CER)僅爲0.004，遠超傳統模型，證明其在語音準確性上的領先地位。

技術亮點:Dual-AR架構與RLHF訓練

創新的Dual-AR架構

OpenAudio S1採用了獨特的雙自迴歸（Dual-AR）架構，結合快速和慢速Transformer模塊，優化了語音生成的穩定性和效率。該架構通過分組有限標量矢量量化(GFSQ)技術提升了代碼本處理能力，確保高保真語音輸出，同時降低計算成本。

RLHF驅動的情感表達

OpenAudio S1通過在線**強化學習與人類反饋（RLHF）**技術，顯著增強了語音的情感表達能力。相比傳統TTS模型，S1能夠更精準地捕捉語音的音色和語調，生成的情感表達更加自然。例如，用戶可通過標記如(興奮)、(緊張)或(喜悅)實現細膩的情緒控制，滿足從廣告到虛擬助手的多樣化需求。

實際應用:從創意到商業的無限可能

OpenAudio S1的多功能性和高性能使其在多個領域展現出巨大潛力:

內容創作:爲視頻、播客和有聲書生成專業級配音，顯著提升生產效率。

虛擬助手:打造個性化語音導航或客服系統，支持多語言交互。

遊戲與娛樂:爲遊戲角色生成逼真的對話和旁白，增強沉浸式體驗。

教育與無障礙:爲視障用戶提供高質量的文本轉語音服務，或爲教育平臺生成多語言學習內容。

語音克隆的便捷性

OpenAudio S1支持零樣本和少樣本語音克隆，僅需10-30秒的音頻樣本即可生成高保真的克隆語音，過程簡單且耗時不到1分鐘。這一功能尤其適合需要快速生成個性化語音的場景，如定製化播音員或名人語音模擬。

開源與商業並重:靈活的部署選擇

OpenAudio S1提供**S1（4B參數，專有模型）和S1-mini(0.5B參數，開源模型)**兩個版本，滿足不同用戶需求。S1-mini已完全開源，開發者可通過GitHub自由訪問和定製，適合研究和教育場景;而S1則通過雲服務提供高性能支持，採用平價定價模式，確保成本可控。

用戶反饋顯示，OpenAudio S1在語音真實性和情感細膩度上超越了競品如ElevenLabs，尤其在多語言支持和生產效率上表現突出。雲端處理速度極快，平均20秒即可生成高質量語音，且支持批量處理，適合大規模商業應用。

未來展望:語音交互的新篇章

Fish Audio表示，OpenAudio S1的發佈只是起點。未來，團隊計劃推出實時語音交互功能，支持與語音庫角色的無縫對話，進一步提升交互體驗。此外，通過持續擴展訓練數據和優化RLHF，S1有望支持更多語言和更復雜的情感表達，鞏固其在TTS領域的領先地位。

AIbase認爲，OpenAudio S1的推出標誌着AI語音技術向專業化、普惠化的重要轉變。其強大的多語言支持和情感控制能力，不僅爲開發者提供了創新空間，也爲普通用戶帶來了更自然的語音交互體驗。隨着實時交互功能的臨近，OpenAudio S1有望重塑虛擬助手、內容創作和遊戲產業的語音應用格局。

體驗地址：https://fish.audio/zh-CN/

Fish Audio發佈OpenAudio S1：媲美專業配音演員的AI語音新標杆

相關推薦

小米發佈全鏈路語音大模型 MiMo-V2.5，TTS 可“一句話生成新音色”，ASR 開源支持方言與多語混說

小米 MiMo-V2.5震撼公測:4.3小時手搓編譯器，長程智能體迎“滿分”跨越

小米重磅開源！OmniVoice 覆蓋 600+ 語種零樣本語音克隆 TTS：WER 僅 0.84%、速度快 40 倍，小語種也能輕鬆復活

機器人會說話了!智元聯合 MiniMax，定製“千人千面”專屬人設

微軟推出 VibeVoice-Realtime：實時文本轉語音新模型，助力互動式應用