相關推薦
字節開源全新代碼大模型評估基準“FullStack Bench”
12月5日,字節豆包大模型團隊推出了最新的代碼大模型評估基準——FullStack Bench,涵蓋了超11類真實場景,支持16種編程語言,幷包含3374個問題。這一基準相比之前的評估標準,在更廣泛的編程領域中能更準確地評估大模型的代碼開發能力,推動了模型在現實世界編程任務中的優化。目前的主流代碼評估基準,如HumanEval和MBPP,通常集中在基礎和高級編程問題,而DS-1000則專注於數據分析和機器學習任務,且僅支持Python。xCodeEval則側重於高級編程和數學領域,存在較大的應用場景和語言覆蓋限
Dec 5, 2024
215.5k
DeepSeek 發佈開源代碼大模型 DeepSeek Coder
["DeepSeek(深度求索)發佈了開源代碼大模型 DeepSeek Coder","DeepSeek Coder 是一個智能代碼助手,可以生成各種代碼","DeepSeek Coder 已經在 Hugging Face 和 GitHub 上開源","DeepSeek Coder 在國際權威數據集的測試中表現出色","DeepSeek 致力於探索 AGI 的本質,將推出更多研究成果"]
Nov 6, 2023
260.4k
醫療 AI 換代!星火醫療大模型 X2 正式發佈:智能報告解讀多項核心能力超越 GPT-5.2
科大訊飛發佈新一代星火醫療大模型X2,基於國產算力訓練,在醫療垂直領域實現多項突破,多項任務表現超越國際頂尖模型,引發行業高度關注。
Feb 12, 2026
133.9k
Google 推出非洲語音數據集 WAXAL,助力非洲奪回 AI 數據主權
Google在非洲推出WAXAL語音數據集,涵蓋21種非洲語言,旨在提升AI系統對非洲語言的識別準確率。其核心突破在於將數據所有權歸還給非洲本地機構,而非由Google掌控,解決了數據主權問題。
Feb 12, 2026
125.5k
MiniMax M2.5 正式發佈:編程力對標 Claude Opus 4.6,市值狂飆突破 1800 億
國產AI公司MiniMax發佈旗艦編程大模型M2.5,號稱全球首個爲Agent場景原生設計的生產級模型。該模型在編程與智能體性能上表現突出,支持全棧開發,引發技術和資本市場關注。
Feb 12, 2026
196.7k
