Anthropic在其Claude移動應用程序的最新更新中新增了名爲“Glassy”的語音選項,進一步推動其語音模式(Voice Mode)的開發進程。據AIbase瞭解,“Glassy”作爲Claude語音模式的新增聲音,以其獨特音色引發社交平臺熱議,被認爲是迄今最具吸引力的語音選項之一。相關細節已通過Anthropic官網(anthropic.com)與Hugging Face社區公開。

Claude3 克勞德

核心功能:Glassy語音與多模態交互

Claude的語音模式通過引入“Glassy”語音,結合現有功能,爲用戶提供了更自然、沉浸式的交互體驗。AIbase梳理了其主要亮點:  

全新“Glassy”語音:新增“Glassy”語音,音色清脆且富有人性化特徵,加入已有“Airy”、“Mellow”和“Buttery”(英式口音)語音選項,提供多樣化選擇。  

雙向語音交互:支持用戶通過語音輸入(最長10分鐘)與Claude進行實時對話,AI以語音或文本響應,接近ChatGPT的Advanced Voice Mode。  

文件上傳與分析:語音模式界面集成上傳功能,支持相機、圖庫或文件(如PDF、圖片),用戶可直接討論上傳內容,如分析圖表或文檔。  

Google Workspace集成:新增Gmail、Google Calendar和Drive搜索功能(Beta版),允許用戶通過語音查詢郵件或日程,提升生產力。  

隱私與安全:語音輸入經端到端加密,音頻記錄在轉錄後立即刪除,不用於模型訓練,Pro與Team計劃用戶可自定義數據保留策略。  

AIbase注意到,社區測試顯示,用戶使用“Glassy”語音查詢“分析上傳的財務報表”,Claude不僅準確解析數據,還以清晰音色總結關鍵點,交互體驗媲美人類助手。

技術架構:多模態模型與語音優化

Claude語音模式的開發依託Anthropic的Claude3.7Sonnet模型,結合語音處理與多模態技術。AIbase分析,其核心技術包括:  

多模態推理:基於Claude3.7Sonnet(可能超200B參數),整合語音、文本與圖像處理,支持複雜任務如文檔分析與實時對話。  

語音合成引擎:可能與ElevenLabs合作,優化“Glassy”等語音的音色、語調與流暢度,確保自然對話體驗,參考Gemini Live的語音技術。  

語音轉錄系統:支持最長10分鐘的語音輸入,自動轉錄爲文本,兼容英語(後續或擴展多語言),轉錄準確率達98%以上。  

MCP支持:兼容Model Context Protocol(MCP),未來可與Qwen-Agent或Simular AI集成,擴展工具調用與跨平臺協作能力。  

高效推理:利用AWS與GCP雲端推理,推薦16GB RAM設備(如iPhone15Pro或M2Mac)以支持流暢語音交互。  

AIbase認爲,“Glassy”語音的加入與Google Workspace集成使Claude在生產力場景中更具競爭力,其隱私保護機制則進一步吸引了企業用戶,挑戰了OpenAI的ChatGPT與Google的Gemini。

應用場景:從個人助手到企業生產力

Claude語音模式的更新爲個人與企業用戶帶來了廣泛的應用場景。AIbase總結了其主要用途:  

個人助手:通過“Glassy”語音快速查詢信息(如“查找明天的航班”)或生成創意內容(如“用英式口音講故事”),提升移動端交互效率。  

企業工作流:結合Google Workspace,語音查詢郵件或日程(如“查找上週的會議記錄”),自動化報告生成,適合銷售與行政團隊。  

教育與研究:分析上傳的學術論文或生成教學筆記,語音交互降低輸入門檻,助力學生與研究人員。  

內容創作:生成播客腳本或社交媒體內容,結合文件上傳功能優化創意流程,適配TikTok與Instagram營銷。  

開發者生態:通過Hugging Face或Anthropic API,開發者可集成語音模式至定製應用,如智能客服或教育平臺。  

社區案例顯示,一位銷售經理利用Claude的“Glassy”語音與Drive搜索功能,快速彙總客戶資料並生成會議簡報,準備時間縮短約50%。AIbase觀察到,Claude語音模式與MiMo-7B的推理能力結合,或可進一步優化複雜任務處理。

上手指南:快速體驗Glassy語音

AIbase瞭解到,Claude語音模式(含“Glassy”語音)現已通過Claude iOS與Android應用(需iOS18+或Android8.0+)對部分用戶開放,免費、Pro(20美元/月)與Team計劃用戶均可申請測試。用戶可按以下步驟上手:  

更新Claude應用至最新版本(App Store或Google Play),確保設備支持語音權限;  

打開應用,點擊提示區域的麥克風圖標,選擇“Glassy”語音,錄製最長10分鐘的語音輸入;  

上傳文件(如PDF或圖片)或查詢Google Workspace數據(如“查找日曆中的下週會議”);  

調整語音選項(Airy、Mellow、Buttery或Glassy),測試不同音色與交互場景;  

開發者可訪問Anthropic API文檔(console.anthropic.com)或Hugging Face,探索語音模式集成。  

社區建議爲複雜查詢提供清晰語音輸入,並測試文件上傳功能以優化多模態交互。AIbase提醒,語音模式目前僅支持英語,需16GB RAM設備以確保流暢體驗,建議關注Anthropic官方更新(anthropic.com)獲取多語言支持時間表。

社區反響與改進方向

Claude語音模式新增“Glassy”語音後,社區對其音色多樣性與交互自然度給予高度評價。開發者稱“Glassy爲Claude注入了更人性化的對話魅力”,認爲其在教育與企業場景中的潛力堪比ChatGPT的語音模式。 然而,部分用戶反饋語音模式初期僅限英語,限制了全球用戶體驗,建議加速多語言支持。社區還期待視頻交互與更低的硬件需求。Anthropic迴應稱,多語言支持與視頻模式已在開發中,預計2025年底前推出。 AIbase預測,Claude語音模式可能與NIM Operator2.0的微服務框架或F-Lite的圖像生成技術整合,構建從語音到多模態生成的閉環生態。

未來展望:語音交互與AGI的橋樑

Claude語音模式的持續開發標誌着Anthropic在人機交互與通用人工智能(AGI)領域的深遠佈局。AIbase認爲,“Glassy”語音與Google Workspace集成的推出,不僅彌補了Claude在語音交互上的短板,還通過多模態能力挑戰了OpenAI的ChatGPT與Google的Gemini Live。 社區已在探討將其與Genie2的3D環境生成或Perplexity的WhatsApp集成結合,構建從虛擬助手到沉浸式交互的生態。長期看,Claude語音模式可能推出“語音插件市場”,提供定製化音色與API服務,類似Hugging Face的模型生態。AIbase期待2025年Claude在多語言支持、視頻交互與企業級部署上的突破。