相關推薦
字節跳動開源Lance 3B:用一個“腦子”同時搞定圖視理解與生成
字節跳動開源Lance,一款僅3B激活參數的原生統一多模態大模型,打破“理解模型(VLM)”與“生成模型(DiT/Diffusion)”的技術壁壘。它以極致輕量化實現全功能覆蓋,挑戰當前AI行業堆砌參數或“拼積木”組裝模型的風氣,成爲技術創新的重要突破。
May 22, 2026
217.3k
英偉達發佈多模態“全能模型”,推理效率達競品 9 倍
英偉達發佈開放式多模態大模型Nemotron3Nano Omni,整合視頻、音頻、圖像和文本的深度推理能力,採用30B-A3B混合專家架構,內置視覺與音頻編碼器,旨在爲開發者提供更快速、更智能的交互響應方案。
Apr 29, 2026
228.5k
騰訊推出具身多模態大模型 HY-Embodied-0.5-X,賦能機器人智能交互
騰訊 Robotics X 與混元團隊聯合開源HY-Embodied-0.5-X多模態大模型,專爲機器人具身任務優化。該模型基於MoT-2B架構,強化“看懂、想清、做到”能力,在精細操作、空間推理、動作預測和風險判斷上表現突出。系列包含MoT-2B和MoE-32B兩個版本,旨在提升機器人在真實環境的智能交互水平。
Apr 27, 2026
225.8k
阿里ATH事業羣HappyHorse模型登頂AI視頻榜,Elo積分力壓Seedance2.0
國產多模態模型“HappyHorse-1.0”在文本轉視頻評測中以1332分登頂,領先字節跳動模型近60分。其海外社交賬號首位關注者爲阿里巴巴,暗示其研發背景。
Apr 10, 2026
223.8k
美團發佈原生多模態 LongCat-Next:視覺語音實現底層統一
美團發佈原生多模態大模型LongCat-Next,突破傳統“語言基座+插件”架構,通過DiNA技術將圖像、語音與文本統一轉化爲同源離散Token,實現AI原生“看”與“聽”物理世界,完成多模態建模深度統一。
Apr 3, 2026
303.6k
