相關推薦
字節開源全新代碼大模型評估基準“FullStack Bench”
12月5日,字節豆包大模型團隊推出了最新的代碼大模型評估基準——FullStack Bench,涵蓋了超11類真實場景,支持16種編程語言,幷包含3374個問題。這一基準相比之前的評估標準,在更廣泛的編程領域中能更準確地評估大模型的代碼開發能力,推動了模型在現實世界編程任務中的優化。目前的主流代碼評估基準,如HumanEval和MBPP,通常集中在基礎和高級編程問題,而DS-1000則專注於數據分析和機器學習任務,且僅支持Python。xCodeEval則側重於高級編程和數學領域,存在較大的應用場景和語言覆蓋限
DeepSeek 發佈開源代碼大模型 DeepSeek Coder
["DeepSeek(深度求索)發佈了開源代碼大模型 DeepSeek Coder","DeepSeek Coder 是一個智能代碼助手,可以生成各種代碼","DeepSeek Coder 已經在 Hugging Face 和 GitHub 上開源","DeepSeek Coder 在國際權威數據集的測試中表現出色","DeepSeek 致力於探索 AGI 的本質,將推出更多研究成果"]
通義千問Qwen Code重磅升級至v0.5.0!從命令行工具邁向完整開發生態
阿里雲通義實驗室發佈Qwen Code v0.5.0版本,國產AI編程工具從命令行工具升級爲全鏈路開發生態平臺。新版本強化核心編碼能力,並突破插件集成、工程上下文理解和開發者協作支持,引入多工具協同架構,構建開發者“數字工作臺”。
元寶 X 混元2025 年度報告發布:超7成用戶請求選擇快思考模式
元寶平臺2025年報告顯示,混元大模型實現AI能力多維度升級。平臺提供“快思考”與“深度思考”兩種模式:超七成用戶選擇“快思考”,近半數問題首輪即可解決;“深度思考”適用於複雜場景,對話通常持續三輪以上,近半數能輸出多步驟結構化內容。圖像交互方面,混元T1-Vis模型於5月上線。
Grok全面接管𝕏算法!每日分析超1億帖子,徹底顛覆你的信息流體驗
社交平臺X(原Twitter)宣佈其推薦系統全面升級,由xAI開發的Grok大模型驅動,從傳統規則轉向純AI智能推薦。該變革旨在爲全球用戶提供更精準、個性化的內容體驗,被視爲社交媒體算法演進的重要里程碑。Grok每日處理超過1億條帖子,支撐新系統的核心處理能力。
