作爲OpenAI和Anthropic之外最受關注的AI初創公司之一,Cohere在 7 月份的估值已高達 55 億美元。這家公司的聯合創始人之一正是“Attention Is All You Need”論文的作者,這篇論文被認爲是引發大型語言模型(LLM)革命的關鍵。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

作爲OpenAI和Anthropic之外最受關注的AI初創公司之一,Cohere在 7 月份的估值已高達 55 億美元。這家公司的聯合創始人之一正是“Attention Is All You Need”論文的作者,這篇論文被認爲是引發大型語言模型(LLM)革命的關鍵。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
MiniMax M2模型採用全注意力機制,放棄線性或稀疏注意力技術。開發團隊認爲,儘管後者能節省計算資源,但全注意力在工業應用中更高效,能提升模型性能。這一決策旨在優化實際部署效果,推動AI技術發展。
Meta與愛丁堡大學合作開發CRV技術,通過分析大型語言模型內部推理電路,預測其推理正確性並修復錯誤。該方法構建模型激活計算圖,高精度檢測推理錯誤,提升AI可靠性。
蘋果公司正加緊招聘推理模型領域專家,以解決其研究揭示的大型語言模型重大缺陷。招聘聚焦開發更準確高效的新型架構,重點強化推理、規劃、工具使用和基於代理的LLM能力。
人工智能初創公司Viven利用大型語言模型和數據隱私技術,打造員工數字孿生,解決因休假或時區差異導致的關鍵信息缺失問題,避免項目停滯,降低時間成本。
大語言模型在數學幾何題上表現不佳。GPT-4.1和Gemini-2.5-Pro雖在寫作、編程領域優秀,但面對需畫輔助線或函數圖像的題目時頻繁出錯。根源在於模型擅長文本推理,卻缺乏幾何空間想象能力,無法精準腦中構圖,導致錯誤結論。