在人工智能領域,如何準確地從知識數據庫中獲取信息一直是個大難題。近日,人工智能公司 Anthropic 宣佈推出了一種名爲 “上下文檢索” 的新方法,旨在提高知識檢索的精確度。該方法通過在檢索時添加更多的上下文信息,幫助 AI 系統提供更準確的答案。

Anthropic、克勞德

現有的檢索增強生成(RAG)系統通常將文檔分割成小塊進行索引,這樣一來,重要的上下文信息可能會被忽略。Anthropic 的解決方案是在每個小塊之前加上簡短的文檔摘要,這些摘要通常不超過100個字。例如,原本的文本片段 “該公司的收入比上一季度增長了3%”,經過上下文處理後變爲:“這一片段來自 ACME 公司2023年第二季度的 SEC 文件;上一季度的收入爲3.14億美元,該公司的收入比上一季度增長了3%。” 通過這種方式,Anthropic 表示其新方法可以將信息檢索的錯誤率降低多達49%。如果再結合結果重排序,準確率的提升甚至可以達到67%。

更有趣的是,Cornell 大學的研究也支持了這種上下文檢索的方法。研究人員提出了一種類似的技術,稱爲 “上下文文檔嵌入”(CDE)。他們的方法通過重新組織訓練數據,讓每個批次都包含相似但難以區分的文檔,從而促使模型學習更細微的差別。此外,研究者們還開發了一種雙階段編碼器,將鄰近文檔的信息直接融入嵌入中,這樣模型就能夠考慮到相對詞頻和其他上下文線索。

在 “巨量文本嵌入基準”(MTEB)的測試中,CDE 模型在其尺寸類別中取得了最佳成績。實驗還顯示,CDE 在金融或醫學等領域的小型特定數據集上特別有優勢,並在分類、聚類和語義相似性等任務上表現出色。不過,研究者們也指出,目前尚不清楚 CDE 對擁有數十億文檔的大型知識庫的影響,關於最佳上下文大小和選擇的研究也還有待深入。

劃重點:

🌟 Anthropic 的 “上下文檢索” 方法能降低信息檢索錯誤率多達49%,並可與其他技術結合進一步提升準確性。  

📊 Cornell 大學的 “上下文文檔嵌入” 方法顯示出在特定領域中的強大優勢,能有效改善分類和聚類任務。  

🔍 未來仍需深入研究如何將這些方法應用於大規模知識庫,尋找最佳上下文處理策略。