騰訊的研究者們發現,大語言模型的性能會隨着實例化agent數量的增加而增強,無需複雜的多LLM agents協作框架。實驗結果顯示多個小LM集成可以超越較大LM的性能。論文探討了性能提升與問題難度之間的關係,並提出了逐步採樣和投票、分層採樣和投票兩種優化策略。
相關推薦
惡意開發者利用Claude編寫惡意包:超670個受污染npm包威脅開源生態安全
近期,一名惡意開發者利用Anthropic的AI模型Claude協助編寫惡意代碼,向npm倉庫推送超670個含惡意腳本的軟件包,大規模污染包管理器生態。該事件暴露了大語言模型被用於自動化開發惡意軟件的風險,引發網絡安全行業高度警惕。
May 28, 2026
166.7k
連自己名字都拼不對?谷歌AI搜索屢屢“翻車”引發用戶集體卸載
谷歌近期升級其“AI概覽”搜索功能,試圖將傳統搜索引擎轉變爲對話式引擎,但遭遇重大挫敗。用戶測試發現,該AI系統頻繁出現低級拼寫錯誤,如誤判“poop”中字母“r”的數量,將“journalism”拼錯爲“journadism”,甚至無法正確拼寫母公司名稱“Google”。這些錯誤暴露了AI在基礎文字處理上的短板,引發廣泛質疑。
May 28, 2026
141.5k
網絡快餐還是精神斷糧?AI生成文章已全面碾壓人類創作
AI生成的英文文章數量已超過人類,每兩篇內容中有一篇出自機器。這類低質內容被稱爲“Slop”,如糖蜜般氾濫於社交平臺,導致人類原創文字可能成爲稀缺品,思維邊界正悄然塌陷。
May 25, 2026
181.8k
圖靈測試塵埃落定:GPT-4. 5 勝率超真人,AI學會了完美撒謊
英國數學家圖靈1950年提出的圖靈測試設想,在76年後由加州大學聖地亞哥分校研究團隊在《美國國家科學院院刊》發表論文證實。認知科學家卡梅倫·瓊斯和本·伯根教授通過嚴格的經典三方圖靈測試,首次提供確鑿實證數據,標誌着計算機科學史上的里程碑時刻。
May 22, 2026
325.0k
阿里雲百鍊重磅升級:全棧開放接入,打造模型“超級市場”
阿里雲在5月20日峯會上宣佈,其大模型服務平臺“百鍊”強化開放生態,接入多家第三方頂尖模型,覆蓋文本、圖像、視頻及多模態生成等領域。此舉標誌着百鍊從阿里自研“千問”模型的展示臺,轉型爲涵蓋全行業主流模型的“AI模型超級市場”,首批接入的模型矩陣豐富多元。
May 21, 2026
267.9k
