在2024年世界人工智能大會上,商湯科技發佈了國內首個所見即所得模型“日日新5o”,這一模型的交互體驗與GPT-4o相當,實現了實時的流式多模態交互。該模型通過整合聲音、文本、圖像和視頻等跨模態信息,能夠進行實時的理解和響應。例如,它能夠識別工作人員佩戴的胸卡並判斷出會場位置,描述小狗玩偶的外觀和穿戴,以及對工作人員隨手畫的圖畫進行即時評價。
“日日新5o”模型的實時交互能力特別適用於實時對話和語音識別等應用,它能夠在同一模型中處理多種任務,並且根據不同上下文自適應調整行爲和輸出。這一模型是基於“日日新5.5”基礎模型,而“日日新5.5”是在今年4月發佈的“日日新5.0”基礎上的升級版,綜合性能平均提升了30%,尤其在數學推理、英文能力和指令跟隨等方面有顯著提升。
“日日新5.5”採用了混合端雲協同專家架構,通過超過10TB tokens的高質量訓練數據,包括合成的思維鏈數據,來提升模型的推理思維能力。爲了降低企業用戶的接入門檻,商湯推出了“大模型0元Go”計劃,爲新註冊用戶提供多項免費服務,並贈送5000萬Tokens包,同時提供專屬搬家顧問幫助OpenAI用戶遷移,實現零服務成本。