相關推薦
重磅發佈!中文互聯網基礎語料3.0助力AI發展,數據量高達120GB
9月18日,在昆明舉行的2025年國家網絡安全宣傳週人工智能安全治理分論壇上,中文互聯網基礎語料3.0正式發佈。這一新版本的數據量達到了驚人的120GB,旨在爲大模型訓練和人工智能的進一步發展提供可靠的數據支持。中文互聯網基礎語料3.0的發佈,是在中央網信辦的指導下,由中國網絡空間安全協會與國家互聯網應急中心等單位協同合作的成果。此次語料的開發與構建,得益於企業、高校和科研單位之間的緊密合作,充分利用了網安協會人工智能安全治理專委會建立的語料共建共享機制
谷歌新研究:合成數據助力大模型,數學推理能力提升八倍
近期,谷歌、卡內基梅隆大學與 MultiOn 的研究團隊聯合發佈了一項關於合成數據在大模型訓練中應用的新研究。根據 AI 發展科研機構 Epoch AI 的報告,目前人類公開的高質量文本訓練數據大約有300萬億 tokens,但隨着大型模型如 ChatGPT 的快速發展,對訓練數據的需求正以指數級增長,預計在2026年前這些數據將被消耗殆盡,因此合成數據逐漸成爲重要的替代方案。研究人員探索了合成數據的兩種主要類型:正面數據和負面數據。正面數據是指來自高性能大模型(如 GPT-4和 Gemini1.5Pro)生成的正確
火山引擎發佈大模型訓練視頻預處理方案 PixelDance已採用
火山引擎在近期的視頻雲技術大會上發佈了一項重要創新:大模型訓練視頻預處理方案。這一技術已成功應用於豆包視頻生成模型,標誌着AI視頻生成技術的重大進展。火山引擎總裁譚待強調,AIGC和多模態技術正在深刻改變用戶體驗。基於抖音的實踐經驗,火山引擎正積極探索AI大模型與視頻技術的融合,爲企業提供全方位解決方案。抖音集團視頻架構負責人王悅指出,大模型訓練面臨諸多挑戰,包括海量數據處理成本高、樣本質量不一、處理鏈路複雜,以及多種異構算力資源的調度問題。
騰訊雲推出星脈網絡2.0 大模型訓練再提速20%
騰訊雲最近推出了升級版的星脈網絡2.0,旨在提高大模型訓練的效率。在之前的版本中,大型模型的計算結果同步通信時間佔據了50% 以上的比例,導致效率低下。新版本的星脈網絡2.0在多個方面進行了升級:
中興通訊發佈支持大模型訓練的最新 AI 服務器
["中興通訊推出最新 AI 服務器,支持大模型訓練","針對中小型模型的訓練和推理需求,中興通訊推出 G5 系列服務器","中興通訊計劃在今年發佈一款支持大模型訓練的最新 AI 服務器"]
