正文

阿里通義音頻生成大模型 FunAudioLLM 開源支持情緒語音對話、有聲讀物等場景

發布於AI新閒資訊

時間 :Jul 8, 2024

閱讀 :1分鐘

阿里通義實驗室最近開源了名爲FunAudioLLM的音頻生成大模型項目，旨在提升人類與大型語言模型（LLMs）間的自然語音交互體驗。該項目由兩個核心模型組成:SenseVoice和CosyVoice。

CosyVoice 專注於自然語音生成，具備多語言支持、音色和情感控制功能，在多語言語音生成、零樣本語音生成、跨語言聲音合成和指令執行方面表現出色。它通過15萬小時數據訓練，支持中英日粵韓五種語言，能夠快速模擬音色並提供情感和韻律的細粒度控制。

SenseVoice 則致力於高精度多語言語音識別、情感辨識和音頻事件檢測。它經過40萬小時數據訓練，支持超過50種語言，識別效果優於Whisper模型，尤其在中文和粵語上提升超過50%。SenseVoice還具備情感識別和聲音事件檢測能力，以及快速的推理速度。

微信截圖_20240708084503.png

FunAudioLLM支持多種人機交互應用場景，如多語言翻譯、情緒語音對話、互動播客和有聲讀物等。它通過結合SenseVoice、LLMs和CosyVoice，能夠實現無縫的語音到語音翻譯，情感語音聊天應用程序，以及互動式播客電臺。

技術原理方面，CosyVoice基於語音量化編碼，支持自然流暢的語音生成，而SenseVoice提供全面的語音處理功能，包括自動語音識別、語言識別、情感識別和音頻事件檢測。

開源的模型和代碼已在ModelScope和Huggingface上發佈，同時GitHub上也提供了訓練、推理和微調代碼。CosyVoice和SenseVoice模型都在ModelScope上有在線體驗，方便用戶直接嘗試這些先進的語音技術。

項目地址：https://github.com/FunAudioLLM

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型超越主要競爭對手

清華大學知識工程組與數據挖掘團隊新推出CodeGeeX4-ALL-9B，作爲CodeGeeX系列的最新成果，其在多語言代碼生成領域達到巔峯，重新定義自動化編碼性能與效率標準。基於GLM-4-9B框架，經過廣泛訓練的它擁有9.4億參數，超越同類模型，擅長代碼生成、補全與解釋，展現優異推理速度與整體性能。適應能力極強，涵蓋了軟件開發全方面需求，提供倉庫級別的代碼問答功能，助力開發者與代碼庫交互更爲直觀高效。基準測試顯示在BigCodeBench和NaturalCodeBench上的優越表現，確認了其在真實應用中強大的可靠性和創新能力。以用戶爲中心的設計使其易於集成各種版本的transformers庫，兼容GPU與CPU，確保不同計算環境的靈活性與廣泛性採用。CodeGeeX4-ALL-9B可通過其推理過程，根據用戶輸入生成精準、可操作的代碼輸出，優化開發流程，尤其對於複雜算法和自動化編碼任務極具價值。這一利器標誌着代碼生成領域的重要進步，將極大地提升軟件開發的效率與創新。

Jul 8, 2024

275.5k

蘋果Apple Intelligence和更強大的Siri或在春季登陸iPhone

新報道揭示，蘋果將爲iOS系統在春季發佈的版本接入名爲「蘋果智能」（Apple Intelligence）的AI系統，此舉旨在增強創新的語音助手Siri。蘋果通常以操作系統的點更新爲機會，逐漸釋放新功能，意味着用戶很快可以在Siri服務中體驗到基於蘋果智能系統的改進，如處理照片中辨識身份證信息、自動填充在線表單等。Siri界面優化和內置更深的產品知識預計將於秋季跟進。展望未來，蘋果的AI發展還包括爲空氣Pods系列設備的進階，可能將配備攝像頭並支持Vision Pro的手勢檢測功能，其中特別注重的AirPods系列未來的設備推出，可能需時持續實現，但將進一步體現智能技術的深度應用，爲用戶提供更高級別沉浸式和高效的體驗。

Jul 8, 2024

194.7k

達摩院“尋光”炸場！可控編輯，輕鬆搞定AI視頻工作流

“尋光”平臺，由阿里達摩院打造的AI視頻創作革命性工具，在WAIC上精彩亮相，開啓內測預訂。這一雲端AI創作平臺整合劇本編排、分鏡圖設計、視頻素材編輯等功能，簡化視頻製作流程，提升創作效率。通過簡單的操作，目標對象能被轉變爲獨立圖層並無縫融入背景視頻，大幅度減化場景轉換。AI技術強項在於理解複雜劇情，保持生成對象一致，實現視頻精細編輯。平臺融入基於視頻圖層的編輯能力，用戶可生成具有透明背景的視頻並整合到其他背景中，同時支持自動追蹤並拆解視頻目標。作爲達摩院AI生產力與人類想象力結合的重要嘗試，“尋光”重塑視頻創作流程，欲推動行業進步並驗證其價值。作爲AI全球熱潮的一部分，“尋光”意在解放生產力，是重要的行業里程碑。對於創作者而言，這是一個強大工具，旨在提升和推進創作效率。隨着平臺的持續優化，它將成爲視頻製作領域的參考標尺。欲申請內測，可訪問官網鏈接https://top.aibase.com/tool/xunguangshipinchuangzuopingtai。

Jul 8, 2024

219.3k

中國AI論文數量全球第一，清華成論文發表熱門之地

自2017至2022年，中國在人工智能研究領域的崛起令人矚目，根據喬治城大學數據分析平臺ETO發佈的報告，期間中國發表了24.3萬篇AI論文，這個數量高達全球總量的25%，位居全球首位。美國以17.1萬篇論文，佔比18%，緊隨其後。從論文質量來看，美國在高被引論文方面領先，但中國在數量上逼近。特別引人注目的是，中國科學院與清華大學在AI研究領域內的論文引用次數超越了諸如麻省理工和斯坦福等世界著名大學，顯示出中國在學術機構層面的實力。在企業貢獻方面，谷歌更加突出，以6529篇論文、每篇平均183.8次的引用次數領跑。中國在生成式AI的專利申請中也極爲活躍，數量高達38210個，是美國的六倍。這表明了中國在人工智能領域對研究產出的重視程度和強大的技術實力。

Jul 8, 2024

237.8k

Meta AI 將在 Android 版 WhatsApp 中增強圖像處理能力

Meta 正在測試 Android 版 WhatsApp 新功能，旨在加強 Meta AI 在圖像處理中的協作能力。該測試版本允許用戶直接向 Meta AI 發送照片並提問，或使用文字編輯圖像，使 AI 更深入地融入日常對話與內容創作。此舉措是 Meta 強化 AI 在 WhatsApp 的應用之一，此前已引入多項圖像生成功能，如創建個性化頭像。測試階段還揭示了未來可能的商業化應用。功能雖未向所有用戶開放，但展示了 Meta 將 AI 更緊密集成至廣受歡迎通訊應用的願景。

Jul 8, 2024

184.4k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

阿里通義音頻生成大模型 FunAudioLLM 開源 支持情緒語音對話、有聲讀物等場景

相關推薦

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型 超越主要競爭對手

​蘋果Apple Intelligence和更強大的Siri或在春季登陸iPhone

達摩院“尋光”炸場！可控編輯，輕鬆搞定AI視頻工作流

中國AI論文數量全球第一，清華成論文發表熱門之地

Meta AI 將在 Android 版 WhatsApp 中增強圖像處理能力

阿里通義音頻生成大模型 FunAudioLLM 開源支持情緒語音對話、有聲讀物等場景

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型超越主要競爭對手

蘋果Apple Intelligence和更強大的Siri或在春季登陸iPhone