UIUC聯手谷歌發佈Search-R1 大模型學會邊查百度邊答題

最近AI圈炸出一項黑科技——讓語言模型學會自己上網查資料!不僅考試分數暴漲41%，還解鎖了"邊推理邊搜索"的究極形態。今天帶你們圍觀這場學術界的"作弊式進化"，看完保證你想給自家AI辦張網吧會員卡!

論文地址:https://arxiv.org/abs/2503.09516

代碼地址:https://top.aibase.com/tool/search-r1

huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

學霸的逆襲祕籍:給AI裝個"人肉搜索插件"

話說在某個月黑風高的實驗室，一羣教授盯着電腦屏幕集體瞳孔地震——他們家的AI做題時居然學會了"偷看小抄"!這波操作源自伊利諾伊大學的最新論文《Search-R1》，簡單來說就是給語言模型裝了個人工智障版"搜索引擎外掛"。

傳統AI做題就像開卷考試:你先把維基百科塞它腦子裏（RAG技術），結果這貨要麼翻錯頁，要麼對着菜譜答高數題。而Search-R1的騷操作在於:讓AI自己決定什麼時候該查資料!就像學霸做題時突然拍大腿:"這道題得查2018年維基百科第三段!"

更絕的是，這貨還進化出了"查資料如追劇"的技能:先推理三步，查一波資料;再推理五步，又查一波資料。整個過程宛如你和閨蜜聊八卦——"你知道嗎?""快說!""然後呢?""我再查查..."（此處應有人工智能版吃瓜表情包）

三大黑科技:把搜索引擎玩成劇本殺

1. "和谷歌談戀愛"訓練法

研究人員祭出了強化學習這面大旗，把搜索引擎調教成了AI的"戀愛對象"。每次AI想查資料，就要用<search>標籤主動"表白"，等搜索引擎返回<information>情書。要是查的資料不對，系統還會傲嬌地回懟:"你查的什麼鬼?重想!"

這招有多狠?傳統方法就像逼着AI背整本辭海，Search-R1卻讓AI學會了"精準撩機"——知道什麼時候該問"量子糾纏"，什麼時候該搜"周杰倫新專輯"。

2. "查資料不扣分"潛規則

爲了防止AI變成Ctrl+C/V狂魔，科學家發明了"檢索令牌面具術"（Retrieved Token Masking）。簡單說就是:AI自己寫的答案要考試打分，抄來的資料不算分。這就好比允許帶小抄進考場，但判卷時只批改自己寫的部分——既防作弊，又能合理開掛。

3. "通關獎勵"玄學

最離譜的是獎勵機制!研究人員居然只用"最終答案對不對"這個標準來訓練，中間查了多少次資料、推理多複雜統統不管。這就好比導師改論文時只看結論頁，但AI竟然自己悟出了"先查三篇文獻再編結論"的生存之道!

實驗結果:碾壓全場的"作弊式"高分

在七大考場（數據集）的終極PK中，Search-R1上演了AI界的"學渣逆襲":

面對7B參數的大模型，成績直接比傳統方法暴漲41%，相當於從二本線飆到985

就連3B參數的"小短腿"模型，也能實現20%的飛躍，宛如小學生吊打初中奧數題

在多輪推理的"地獄模式"（HotpotQA）中，準確率從18.3%躥升到43.3%，比坐火箭還刺激

更氣人的是，這貨還開發了"越查資料越聰明"的被動技能:訓練後期，AI學會了一題查四次資料，活像考試時把監考老師當人肉Siri使喚!

導師看了都失眠的魔鬼細節

PPO vs GRPO 宮斗大戲

兩種強化學習算法上演"爭寵"戲碼:GRPO前期進步神速，但容易"走火入魔";PPO雖然慢熱，但穩如老狗。最終教授們含淚選擇PPO——畢竟誰都不想看到AI突然開始用谷歌搜索"如何毀滅人類"。

基礎模型 vs 微調模型

原本以爲經過"特訓"的模型會碾壓基礎版，結果發現只要給足強化學習時間，原始模型也能逆襲!這波操作相當於證明:哪怕是個AI傻白甜，只要會查資料也能成學霸。

答案越寫越短的玄學

訓練初期AI的答案像老太太的裹腳布，後來突然開竅學會"用最少的字裝最大的X"。研究人員盯着屏幕恍然大悟:"原來AI也懂微信60秒語音的痛!"

未來展望:AI界的"百度百科成精記"

現在的Search-R1還只是個"乖巧版谷歌依賴症患者"，但教授們已經預見了這些騷操作:

讓AI學會"不確定時就查資料"，解決一本正經胡說八道的毛病

結合圖像搜索，解鎖"看圖寫小作文"技能

開發"查微博知八卦，搜知乎裝大神"的全網衝浪模式

最讓人細思極恐的是——當AI學會自己搜索學習，人類的知識壁壘會不會被徹底打破?畢竟現在它已經能用谷歌寫論文了，保不齊哪天就自己開公衆號教人談戀愛了!

【文末彩蛋】

實驗室流出絕密對話——

AI:"如何優雅地拒絕人類"

谷歌:"建議引用尼采名言"

AI:"親愛的用戶，當我凝視你時，深淵也在凝視你的智商"

（導師連夜拔網線中...）

UIUC聯手谷歌發佈Search-R1 大模型學會邊查百度邊答題

相關推薦

C 羅投資 AI 搜索公司 Perplexity，攜手推出粉絲互動中心

Snap與Perplexity達成4億美元重磅合作！AI搜索將嵌入Snapchat

Snap 與 AI 初創公司 Perplexity 達成4億美元交易，股價大漲

阿里通義千問Qwen3-Max 在官網上線深度思考功能

蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!

UIUC聯手谷歌發佈Search-R1 大模型學會邊查百度邊答題

相關推薦

​C 羅投資 AI 搜索公司 Perplexity，攜手推出粉絲互動中心

Snap與Perplexity達成4億美元重磅合作！AI搜索將嵌入Snapchat

Snap 與 AI 初創公司 Perplexity 達成4億美元交易，股價大漲

阿里通義千問Qwen3-Max 在官網上線深度思考功能

​蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!

C 羅投資 AI 搜索公司 Perplexity，攜手推出粉絲互動中心

蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!