DeepSeek AI推出Smallpond:基於DuckDB與3FS的輕量級數據處理框架

隨着數據集的不斷擴大和分佈式處理的複雜性加劇，現代數據工作流面臨越來越大的挑戰。許多組織發現，傳統的數據處理系統在處理時間、內存限制和分佈式任務管理方面存在顯著的短板。在這樣的背景下，數據科學家和工程師往往需要花費大量時間在系統維護上，而非從數據中提取有價值的見解。顯然，市場迫切需要一種既能簡化流程又不犧牲性能的工具。

最近，DeepSeek AI 發佈了 Smallpond，這是一個輕量級的數據處理框架，基於 DuckDB 和3FS 構建。Smallpond 旨在將 DuckDB 在進程內的高效 SQL 分析擴展到分佈式環境中。通過與3FS—— 一種針對現代 SSD 和 RDMA 網絡優化的高性能分佈式文件系統 —— 的結合，Smallpond 爲處理大型數據集提供了實用的解決方案，避免了長時間運行服務的複雜性和高昂的基礎設施開銷。

Smallpond 框架設計簡單且模塊化，與 Python3.8至3.12版本兼容，用戶可以通過 pip 快速安裝，迅速開始數據處理。框架的一大亮點是支持手動數據分區，用戶可以根據文件數量、行數或特定列的哈希值來進行分區，這種靈活性使得用戶能夠根據自身的數據和基礎設施進行定製處理。

在技術層面，Smallpond 充分利用 DuckDB 的原生 SQL 查詢性能，並與 Ray 集成以實現分佈式計算節點的並行處理。這種結合不僅簡化了擴展操作，還確保在多個節點之間高效處理工作負載。此外，通過避免持久化服務，Smallpond 降低了通常與分佈式系統相關的運營開銷。

在性能測試中，Smallpond 在 GraySort 基準測試中表現出色，僅用30多分鐘就對110.5TiB 的數據進行了排序，平均吞吐量達到了每分鐘3.66TiB。這些性能指標表明，Smallpond 能夠滿足處理從數 TB 到 PB 級別數據的組織需求。作爲一個開源項目，Smallpond 也歡迎用戶和開發者的參與，以實現進一步的優化和適應多樣化的使用場景。

Smallpond 爲分佈式數據處理邁出了重要一步，它通過將 DuckDB 的高效性擴展到分佈式環境中，結合3FS 的高吞吐能力，爲數據科學家和工程師提供了一個實用的工具。無論是處理小型數據集還是擴展到 PB 級別的操作，Smallpond 都是一個有效且易於接入的框架。

項目:https://github.com/deepseek-ai/smallpond?tab=readme-ov-file

劃重點:
🌟 Smallpond 是 DeepSeek AI 推出的輕量級數據處理框架，基於 DuckDB 和3FS 構建。
⚙️ 支持 Python3.8至3.12，用戶可快速安裝並靈活定製數據處理。
🚀 在 GraySort 基準測試中，Smallpond 以超高性能展示了其處理 TB 級數據的能力。

DeepSeek開源周第五天：6.6TiB/s炸場！3FS重新定義AI存儲基建

中國AI領軍企業DeepSeek在開源周收官之際投下技術"核彈"，正式發佈專爲現代算力場景設計的高性能並行文件系統3FS（Fire-Flyer File System）及配套數據處理框架Smallpond。這套組合拳直擊AI訓練與推理的數據處理痛點，以6.6TiB/s的集羣吞吐量創下行業新紀錄，標誌着分佈式存儲技術邁入新紀元。性能顛覆:架構創新定義新標準3FS通過去中心化架構與強一致性語義設計，在180節點集羣中實現6.6TiB/s聚合讀取吞吐，單節點KVCache查找峯值突破40GiB/s。其GraySort基準測試表現達3.66TiB/min（25節點），較傳統方案

一夜刷屏！AI新品Manus團隊公司名叫蝴蝶效應

據報道，中國AI產品Manus一夜刷屏，這是全球首款真正意義上的通用 AI Agent，從官網展示的案例可以看到，它能夠獨立思考、規劃並執行復雜任務，直接交付完整成果。據悉，Manus AI 背後的創始人肖弘2015年創立夜鶯科技，推出「壹伴助手」和「微伴助手」。縈繞在肖弘身上的還有一個更鮮明的 AI 產品——Monica，這是一款號稱 All-in-One 的 AI 助手，最初以瀏覽器插件的形式推出。企查查APP顯示，Monica相關公司中，北京紅色蝴蝶科技有限公司成立於2023年7月，由Butterfly Effect（Hong Kong）Limited全資

全球首發：5G-A人形機器人“夸父”亮相MWC，獲國王點贊

在世界移動通信大會（MWC2025）上，樂聚機器人聯合中國移動和華爲，發佈了全球首款搭載5G-A技術的人形機器人“夸父”，並獲得西班牙國王費利佩六世的關注。“夸父”機器人利用5G-A技術，實現了大場景下的高精度定位，增強了多機協作的可靠性，並拓寬了工業場景適用範圍。5G-A網絡的高帶寬能力，爲機器人的深度學習模型提供豐富的訓練數據，縮短了開發週期。該機器人突破了室內Wi-Fi侷限，支持遠程操控，減輕了硬件負擔，提升了運算速度。此前，“夸父”已在華爲開發者大會上展

抖音集團擬尋求AI數據標註供應商註冊資本不低於百萬

3月6日，抖音集團在其官方採購平臺上發佈則徵詢意向公告，宣佈將招募優質的 AI 數據標註供應商，以滿足其快速增長的業務需求。公告中提到，此次招募主要針對擁有豐富垂直資源的供應商，特別是在醫療、法律、教育等領域的企業，不限地域參與。根據公告，參與報名的公司必須是在中國境內依法註冊成立的獨立法人，且需具備良好的社會信譽和企業資信，註冊成立時間不得少於六個月。此外，報名者及其法定代表人不得被列入失信被執行人名單，報名公司也不能被列入重大稅收違法

AI安全承諾“蒸發”？Anthropic悄然撤下拜登政府時期合作，科技巨頭風向突變？

在瞬息萬變的AI領域，一個細微卻意義深遠的舉動，在悄無聲息中發生，直到近日才被外界捕捉——知名AI公司Anthropic，似乎正與過去“告別”。這家明星企業，被曝已悄然從其官方網站上，撤下了多項在2023年與拜登政府聯合發佈的自願承諾。這些承諾，曾被視爲Anthropic積極擁抱AI安全與“可信賴”人工智能的有力證明，如今卻如同被橡皮擦抹去一般，蹤跡難尋。率先捕捉到這一動向的，是人工智能監督機構“邁達斯計劃”。據該組織披露，Anthropic透明度中心內，原本公開展示的，關於與