谷歌發佈Titans:仿生設計突破200萬Token上下文長度

谷歌研究院近日發佈了革新性的"Titans"系列模型架構，通過仿生設計實現了突破性的200萬Token上下文長度，並計劃在未來開源相關技術。

這一架構的核心創新在於引入深度神經長期記憶模塊，其設計靈感來源於人類記憶系統。Titans巧妙地結合了短期記憶的快速響應能力和長期記憶的持久性特徵，同時運用注意力機制來處理即時上下文，形成了一個高效的信息處理體系。

谷歌 (2)

據谷歌介紹，Titans在長序列處理任務中展現出顯著優勢。無論是在語言建模還是時間序列預測方面，這一架構都實現了突破性進展。更值得注意的是，在某些應用場景中，Titans甚至超越了擁有數十倍參數量的GPT-4等模型。

隨着谷歌承諾開源相關技術，Titans的出現可能爲AI領域的長文本處理帶來新的發展方向。這一融合生物智能原理的創新設計，展現了在降低模型參數量的同時提升處理效能的可能性。

清華與微軟聯手打造Differential Transformer，讓 AI 的注意力更集中，精度飆升30%！

最近大語言模型（LLM）發展迅猛，其中Transformer模型功不可沒。Transformer的核心是注意力機制，它像一個信息過濾器，讓模型關注句子中最重要的部分。但即使是強大的Transformer，也會被無關信息干擾，就好比你在圖書館想找本書，結果被一堆無關的書淹沒，效率自然低下。這種注意力機制產生的無關信息，在論文中被稱爲注意力噪音。想象一下，你想在文件中找一個關鍵信息，結果Transformer模型的注意力卻分散到各種無關的地方，就像一個近視眼，看不清重點。爲了解決這個問題，這篇論

深度解析AlphaFold 3：斯坦福博士帶你從ML工程師視角看超詳細圖解！

AlphaFold3（AF3）是DeepMind團隊的最新增強工具，用於預測蛋白質、核酸和小分子的結構。憑藉能夠解析單個蛋白質序列及其複合結構的能力，AF3實現了"食譜到三維結構"的轉變。其架構由三項核心模塊組成：輸入準備梳理序列、檢索具備相似結構的分子；表示學習運用多層注意力機制更新表徵；結構預測通過條件擴散模型實現預測。AF3創造性地將各類分子轉化爲獨特數值張量，彷彿給每個分子一個獨一無二的"身份證"，並運用注意力機制捕捉分子間的互相關係。在預測層面，條件擴散模型從隨機噪聲開始，逐步構建結構預測。訓練中多種損失函數和信心評估共同作用，提高了AF3的預測準確性和可靠性，實現自我反省與提升。AF3的可視化指導和先進架構，展示了人工智能在生物學領域預測模型的革命性進步。

告別傳統爬蟲！Firecrawl Extract無需編寫代碼，輕鬆抓取任何網站的數據

在數據採集的傳統方法中，網絡爬蟲是許多開發者的必備工具。然而，這一時代或許已經走到盡頭。Firecrawl Extract推出了全新的數據提取方式，讓用戶只需通過簡單的自然語言提示，就能輕鬆獲取任何網站的數據，徹底省去手動編寫爬蟲腳本的繁瑣步驟。智能化數據提取Firecrawl Extract憑藉其創新的自然語言處理技術，能夠將整個網站或單一頁面的數據轉換爲結構化信息。無論用戶需要提取的是簡單的一頁內容，還是整個網站的大量數據，該工具都能輕鬆應對，併爲開發者節省了大量的時間和

月之暗面發佈新一代SOTA模型 k1.5：多模態推理能力再升級

月之暗面公司隆重推出其全新的 SOTA（state-of-the-art）模型 ——k1.5多模態思考模型，標誌着在多模態推理和通用推理領域的重大突破。該模型不僅具備出色的多模態處理能力，還展示了卓越的通用推理能力，能夠有效應對各類複雜任務。k1.5模型的最大亮點在於其多模態推理能力。它可以同時處理來自文本、圖像、聲音等不同模態的信息，進而提供更加全面和準確的理解。這一特性使其在視覺問答、視覺常識推理及視覺語言導航等任務中表現尤爲出色。舉例來說，用戶可以通過圖像和文本結

世界首個聊天機器人 ELIZA 復活，源自 60 年前的代碼

一支來自美國和英國的研究團隊最近成功復活了一個名爲 ELIZA 的聊天機器人代碼，這被認爲是歷史上第一個電子聊天機器人。根據他們在 arXiv 預印本服務器上發佈的論文，這段代碼最初是由已故的麻省理工學院教授約瑟夫・韋岑鮑姆在1960年代編寫的。2021年，麻省理工學院的一名檔案管理員邁爾斯・克勞利在一個裝有韋岑鮑姆個人物品的箱子裏發現了這些代碼的打印稿。經過後續的審查，這些代碼被確認是 ELIZA 的原始代碼。那個時候，"聊天機器人" 這個詞尚未被創造出來，韋岑鮑姆可能