微軟正式發佈 GPT-realtime 模型，主打更逼真語音與多模態輸入

微軟正式宣佈，其最新的語音轉語音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平臺上正式發佈。這款新模型將微軟在語音技術方面的多項改進整合到一個統一的產品中，其核心優勢聚焦於自然的語言處理、卓越的音頻質量以及更精準的指令跟隨能力。

開發者現在可以通過全新的 Real-time API 訪問 GPT-realtime。該模型旨在提供更自然、富有表現力的語音輸出和更高質量的音頻體驗。作爲此次發佈的一部分，微軟還推出了兩種全新的語音選項——Marin 和 Cedar，旨在爲用戶帶來逼真且清晰的語音合成效果。

微軟在公告中強調了新模型的幾項關鍵改進，包括增強的功能調用能力、更高的指令執行準確性，以及創新的圖像輸入支持。這項新功能允許用戶在語音對話中加入圖像並進行討論，從而實現多模態交互，而無需依賴視頻流。

除了技術層面的升級，微軟還對定價模型進行了調整。與之前的 gpt-4o-realtime 預覽版本相比，正式版的 gpt-realtime 價格降低了20%，成本將依據每百萬代幣（token）的使用量進行計算。

此次發佈標誌着微軟正致力於爲廣大開發者和企業擴展其實時 AI 能力。通過將富有表現力的語音合成、高質量音頻和多模態輸入相結合，GPT-realtime 有望爲從高級客戶支持系統到創新的輔助功能工具等廣泛的應用場景提供強大的技術支持。

算力生態深度整合：Anthropic Claude 模型正式接入 Azure AI Foundry

Anthropic與微軟合作深化，Claude系列模型正式登陸Azure AI Foundry平臺。企業用戶可在Azure體系內直接調用Claude，無縫集成身份驗證、合規治理及計費系統，降低使用門檻。首批接入模型陣容已公佈，標誌着AI模型與雲基礎設施協同進入新階段。

Claude桌面版官方支持使用第三方API：支持三大雲平臺，全面助力高效協同

Anthropic發佈Claude Cowork第三方平臺配置指南，幫助IT管理員在Amazon Bedrock、Google Cloud Vertex AI和Azure AI Foundry等雲端快速部署。該工具支持macOS 13.0及以上版本和Windows 10/11系統，Windows用戶需提前開啓相關設置，爲企業提供靈活的多平臺兼容部署方案。

OpenAI視頻生成模型Sora 2上線微軟Azure平臺：定價每秒0.1美元，進入公共預覽階段

微軟宣佈OpenAI視頻生成模型Sora2在Azure AI平臺開放公共預覽，首次通過雲API向企業和開發者提供。該多模態模型支持文本、圖像和視頻輸入，能組合生成新視頻內容，適用於廣告等商業場景，標誌生成式AI視頻工具邁入商業化應用階段。

微軟宣佈將OpenAI的gpt-oss模型引入Azure AI Foundry

OpenAI發佈首個開放權重模型gpt-oss，包含1200億參數的gpt-oss-120b和200億參數的gpt-oss-20b，支持企業自主部署和調整。微軟推出Azure AI Foundry平臺和Foundry Local方案，幫助開發者在雲端和邊緣設備上構建、微調及部署AI應用。新模型提供高性能推理能力，特別優化了工具使用和本地運行場景，同時確保數據隱私和部署靈活性。這一突破使AI技術更加普及，賦予開發者更多控制權。

微軟正式發佈 GPT-realtime 模型，主打更逼真語音與多模態輸入

相關推薦

算力生態深度整合：Anthropic Claude 模型正式接入 Azure AI Foundry

Claude桌面版官方支持使用第三方API：支持三大雲平臺，全面助力高效協同

OpenAI視頻生成模型Sora 2上線微軟Azure平臺：定價每秒0.1美元，進入公共預覽階段

OpenAI震撼發佈GPT-realtime！語音AI革命來了，人機對話真假難辨

微軟宣佈將OpenAI的gpt-oss模型引入Azure AI Foundry