相關推薦
字節開源全新代碼大模型評估基準“FullStack Bench”
12月5日,字節豆包大模型團隊推出了最新的代碼大模型評估基準——FullStack Bench,涵蓋了超11類真實場景,支持16種編程語言,幷包含3374個問題。這一基準相比之前的評估標準,在更廣泛的編程領域中能更準確地評估大模型的代碼開發能力,推動了模型在現實世界編程任務中的優化。目前的主流代碼評估基準,如HumanEval和MBPP,通常集中在基礎和高級編程問題,而DS-1000則專注於數據分析和機器學習任務,且僅支持Python。xCodeEval則側重於高級編程和數學領域,存在較大的應用場景和語言覆蓋限
DeepSeek 發佈開源代碼大模型 DeepSeek Coder
["DeepSeek(深度求索)發佈了開源代碼大模型 DeepSeek Coder","DeepSeek Coder 是一個智能代碼助手,可以生成各種代碼","DeepSeek Coder 已經在 Hugging Face 和 GitHub 上開源","DeepSeek Coder 在國際權威數據集的測試中表現出色","DeepSeek 致力於探索 AGI 的本質,將推出更多研究成果"]
Mistral AI全面轉型全棧服務商,築起歐洲算力與定製化護城河
Mistral AI在巴黎峯會上宣佈全面轉型,從模型研發企業升級爲覆蓋算力、模型和應用的全棧AI供應商。爲爭奪算力自主權,公司已在巴黎建成40兆瓦數據中心,並計劃繼續重金投入基礎設施,以應對全球大模型競爭。
百度文心發佈PaddleOCR-VL-1.6:準確率破96.33%刷新文檔解析SOTA
百度發佈文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6評測中以96.33%準確率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,綜合性能全球第一。該模型標誌着多模態大模型在複雜文檔理解與真實場景解析上的重大突破,支持超100種語言識別,用戶覆蓋廣泛。
最高狂降97.5%!騰訊雲大模型全面降價,徹底持平官方原廠價
騰訊雲智能體開發平臺宣佈自6月3日起,對DeepSeek V4系列大模型進行大幅降價,其中主力模型DeepSeek-V4-Pro的推理輸入和輸出價格均降低75%,旨在降低企業與開發者的創新門檻,減少日常調用成本。
