正文

上海 AI 實驗室開源 “書生・萬卷”1.0 多模態預訓練語料

發布於AI新閒資訊

時間 :Aug 15, 2023

閱讀 :1分鐘

上海 AI 實驗室與語料數據聯盟發佈了 “書生・萬卷”1.0 多模態預訓練語料，包含文本、圖文和視頻數據集。這個開源語料庫總量超過 2TB，經過細粒度清洗和去重，具備多元融合、精細處理和易用高效的特點。該語料庫的發佈有助於推動大模型的應用和創新，降低大模型技術的門檻。

國產多模態大模型迎來里程碑，MiniMax M3 正式開源且響應速度倍增

稀宇科技今日宣佈開源其原生多模態旗艦模型MiniMax M3，總參數428B，激活參數23B，爲行業首個此類模型。此前已開放權重併發布稀疏注意力機制論文，引發廣泛關注。該模型綜合性能在開源模型中排名第一。

國內AIGC多模態創作領域迎來新進展，網易有道旗下開源AI產品LobsterAI（龍蝦）升級，正式上線圖片和視頻生成能力。此次升級採用矩陣式整合策略，接入四大主流多模態大模型：Seedream、Seedance、HappyHorse和MiniMax-Hailuo，提升創作效率與多樣性。

阿里雲百鍊於2026年5月29日宣佈全面CLI化，並開源其CLI項目。此舉推動AI Agent接入與開發實現全棧一體化變革。CLI將主流模型、工作流、知識庫、記憶管理、聯網搜索及多模態文件處理等核心能力封裝爲輕量命令行入口，開發者安裝鑑權後即可高效使用。

科技初創公司正加速開發基於大模型的上層應用，其中開源平臺Osaurus專爲蘋果生態打造，允許用戶在本地和雲端大模型間自由切換，同時將核心文件保存在本地硬件。該工具源於開發者對隱私和高昂Token費用的關注，前身已引起廣泛關注。

百靈大模型開源萬億參數旗艦模型Ring-2.6-1T，聚焦解決大模型在真實生產環境中的執行力不足問題。該模型轉向端到端推進Agent工作流、軟件工程及科研分析等長鏈路任務。技術層面實現三大突破：Agent執行能力全面增強，在PinchBench與ClawEval等基準測試中達開源最優水平。

智啟未來，您的人工智能解決方案智庫