隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
大模型評測亂象調查:參數規模不代表一切

隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
近日,米哈遊創始人蔡浩宇所創辦的神祕 AI 遊戲公司 Anuttacon 推出了新作《羣星低語》(Whispers From The Star),該遊戲以科幻主題爲背景,結合了先進的 AI 技術,給玩家帶來了獨特的互動體驗。與傳統敘事遊戲不同,《羣星低語》通過實時對話,讓玩家的選擇直接影響遊戲進程和角色命運。在遊戲中,玩家將扮演一名天體物理系的女生 Stella,她是外星星球 GAIA 上的唯一倖存者。玩家需要通過與 Stella 的對話來幫助她生存並找到逃離星球的方法。遊戲中的對話、情緒和肢體動作都是由 AI 實時
法拉第未來(Faraday Future,簡稱FF)近日在洛杉磯總部成功舉辦了首屆FF Open AI Day,重點展示了公司的AI戰略、產品及技術規劃。會上,FF宣佈正式成立全球首家AI混增電驅系統公司——Future AIHER Inc.,這家全資子公司將專注於超級AI混增系統和超級AI增程系統的設計與開發,爲增程式電動車(EREV)提供全面動力解決方案。超級AI混增(AIHER)技術被描述爲AI驅動的"增程+混動"、"強增程,弱混動"的融合技術。此次活動由FF創始人兼首席產品與用戶生態官賈躍亭及FX全球CEO Max Ma主講,同時還包括AI關鍵
騰訊搜狗輸入法宣佈其PC版「AI助手」正式接入滿血版「騰訊元寶」大模型能力,爲用戶帶來更便捷的AI體驗。此次升級無需額外下載AI軟件,用戶即可在鍵盤上直接體驗騰訊混元和DeepSeek大模型的強大功能,支持「深度思考」和「聯網搜索」,助力辦公和學習效率大幅提升。
北京大學張牧涵團隊提出了一種全新的框架——Long Input Fine-Tuning (LIFT),通過將長輸入文本訓練進模型參數中,使任意短上下文窗口模型獲得長文本處理能力。這一方法顛覆了傳統的長文本處理思路,不再專注於無限擴充上下文窗口,而是將長文本知識內化到模型參數中,類似於人類將工作記憶轉化爲長期記憶的過程。目前大模型處理長文本面臨兩大主要挑戰:傳統注意力機制的平方複雜度導致處理長文本時計算和內存開銷巨大 模型難以理解散落在長文本各處的長程依賴關係現有的解決
近日,據界面報道,AI獨角獸百川智能聯合創始人焦可已正式離職,而另一位聯合創始人陳煒鵬也將離開,目前仍在辦理內部離職手續。這一消息引發業內廣泛關注。據知情人士透露,焦可已開啓AI語音領域的創業項目,並積極尋求融資支持。陳煒鵬雖未完成離職流程,但已開始籌備AI Coding方向的創業計劃,並與部分投資人展開接觸。截至發稿,雙方暫未做出迴應。百川智能由前搜狗CEO王小川於2023年創立,焦可與陳煒鵬作爲早期核心成員,爲公司發展奠定了重要基礎。此次兩位聯合創始人
近日,AI代碼編輯器Cursor在其最新版本0.47.5的更新日誌中透露,正在爲Anthropic即將推出的“Claude3.7Sonnet Max”模型做準備。這一消息迅速引發業內關注。然而,目前Anthropic尚未發佈任何官方公告,關於“Claude3.7Sonnet Max”的具體信息仍是個謎。據瞭解,Cursor的更新日誌明確提到爲“3.7-sonnet-max”做準備,而Anthropic近期對API進行了多項更新,包括提升Claude3.7Sonnet的處理效率、減少(token)使用量,並增強開發者的請求處理能力。這或許暗示Anthropic正在爲新模型鋪墊技術基礎。目前,外界對“Claude