商湯科技發佈“日日新5o”：對標GPT-4o 實現實時流式多模態交互

在2024年世界人工智能大會上，商湯科技發佈了國內首個所見即所得模型“日日新5o”，這一模型的交互體驗與GPT-4o相當，實現了實時的流式多模態交互。該模型通過整合聲音、文本、圖像和視頻等跨模態信息，能夠進行實時的理解和響應。例如，它能夠識別工作人員佩戴的胸卡並判斷出會場位置，描述小狗玩偶的外觀和穿戴，以及對工作人員隨手畫的圖畫進行即時評價。

微信截圖_20240705134314.png

“日日新5o”模型的實時交互能力特別適用於實時對話和語音識別等應用，它能夠在同一模型中處理多種任務，並且根據不同上下文自適應調整行爲和輸出。這一模型是基於“日日新5.5”基礎模型，而“日日新5.5”是在今年4月發佈的“日日新5.0”基礎上的升級版，綜合性能平均提升了30%，尤其在數學推理、英文能力和指令跟隨等方面有顯著提升。

“日日新5.5”採用了混合端雲協同專家架構，通過超過10TB tokens的高質量訓練數據，包括合成的思維鏈數據，來提升模型的推理思維能力。爲了降低企業用戶的接入門檻，商湯推出了“大模型0元Go”計劃，爲新註冊用戶提供多項免費服務，並贈送5000萬Tokens包，同時提供專屬搬家顧問幫助OpenAI用戶遷移，實現零服務成本。

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

商湯發佈並開源“日日新SenseNova-Vision”視覺大模型，核心是將視覺能力原生融入通用基礎模型，打破傳統將檢測、分割等專家模型打包的割裂模式。該模型以單模型在多項評測中實現了四大領域的性能碾壓，標誌着視覺任務向統一原生架構的關鍵升級。

商湯科技發佈“日日新5o”：對標GPT-4o 實現實時流式多模態交互

相關推薦

視覺模型新突破：商湯開源 SenseNova-Vision-7B-MoT

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

商湯科技挺進智能體賽道：全新“全模態”基座蓄勢待發

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

商湯 Seko AI 再進化：發佈生產鏈路 Seko Space，加速漫短劇工業化佈局