語音交互領域迎來里程碑式突破!國內AI公司階躍(Step Audio)近日震撼開源了一款



語音交互領域迎來里程碑式突破!國內AI公司階躍(Step Audio)近日震撼開源了一款


Pinterest推出AI購物助手,週四起逐步上線。用戶可通過語音對話獲取個性化時尚搭配建議,助手基於用戶收藏和當前圖片推薦商品,並以語音簡述結果。CEO稱此舉旨在提升互動體驗,目前僅支持語音輸入。
就在各家AI大模型競相迭代之際,一家備受矚目的人工智能初創公司Anthropic正悄然醞釀着一項重大升級——爲旗下AI聊天機器人Claude賦予“說話”的能力。Anthropic首席產品官邁克・克里格(Mike Krieger)近日向英國《金融時報》透露,公司正積極探索一系列全新的用戶體驗,讓用戶能夠直接通過語音與強大的Claude AI模型進行交流。克里格指出,隨着Claude的應用場景不斷拓展,尤其是在桌面端,語音交互有望成爲一種更加自然和高效的用戶界面。“我們正在深入研究桌面端的Claude如何進一步發展
Google 正式在蘋果 App Store 上線全新的 Gemini 應用,並推出語音交互功能 Gemini Live,這標誌着智能語音助手領域的一次重大突破。與此同時,蘋果計劃將 OpenAI 的 ChatGPT 整合到 Siri 中的消息,也預示着這一領域的競爭正在加劇。作爲 Google 在 2023 年推出的 Bard 的升級版本,Gemini 是 Google 對 OpenAI ChatGPT 的有力迴應。這款應用不僅具備面試準備、旅行建議和創意頭腦風暴等多樣化功能,更通過 Gemini Live 實現了更自然的語音交互。值得注意的是,Android 用戶已在今年 8 月獲得了優先體驗權。相比亞馬
Mini-Omni是一款開源多模態大型語言模型,通過集成先進AI技術,實現了實時語音輸入輸出與"邊思考邊說話"功能,提供自然交互體驗。其核心優勢在於端到端實時語音處理,無需額外配置ASR或TTS模型,支持文本等多種模態輸入與轉換,實現無縫交互。Mini-Omni的獨特之處在於其"Any Model Can Talk"功能,允許其他AI模型集成實時語音能力,擴展應用範圍。在性能上,Mini-Omni表現出色,支持多種複雜任務,如語音識別、生成、推理等。技術實現融合了Qwen2、litGPT、whisper、snac等模型與工具,提供便捷的本地安裝與交互式演示方式,支持AI技術的普及與創新。
知網近日推出新版AI學術研究助手手機版,旨在滿足科研工作者在移動設備上的便捷學術需求。該助手集成問答式增強檢索、靈感中心、語音交互和筆記問答四大功能,通過自然語言處理爲用戶提供全面專業答案,推薦選題、大綱、文獻,並支持語音輸入和播報。用戶可通過語音與系統互動,獲取相關資料,提高效率並享受便捷的檢索體驗。同時,用戶筆記信息可以在手機端與PC端實時同步,提升使用便捷度。此工具的全面升級旨在進一步優化研究服務,爲科研工作提供更多智能化支持。