谷歌公司在近期宣佈推出 Magika1.0,這是其基於人工智能的文件類型檢測系統的最新穩定版本。此次版本的發佈,標誌着 Magika 在性能和安全性方面的重大提升,因爲核心引擎已全面遷移至 Rust 語言。自去年開源以來,Magika 已經在開源社區中獲得了廣泛應用,每月下載量超過100萬次。

新版 Magika 的架構進行了全面重構,顯著提高了處理速度和內存安全性。谷歌表示,這款工具能夠在單核處理器下每秒識別數百個文件,藉助多核 CPU 則可擴展至每秒數千個文件。Magika1.0採用 ONNX Runtime 進行模型推理,並利用 Tokio 框架實現異步處理,確保其高效運行。
在文件格式的支持方面,Magika1.0的檢測能力已經擴展到200多種文件格式,幾乎是初始版本的兩倍。新增的文件類型包括數據科學與機器學習中的 Jupyter Notebooks、Numpy、PyTorch 等,以及現代編程和網頁開發中的 Swift、Kotlin、TypeScript 等。此外,還支持 DevOps 相關文件和多種數據庫及圖形格式文件,如 SQLite 和 AutoCAD。
Magika1.0不僅提升了對相似格式文件的識別能力,還改善了對不同編程語言文件的區分,如 C 與 C++、JavaScript 與 TypeScript 等。谷歌在技術實現方面也面臨諸多挑戰,包括訓練數據的龐大規模和部分文件類型樣本稀缺。爲此,谷歌開發了自有的數據集庫 SedPack,並通過生成式 AI 工具 Gemini 創造高質量的合成訓練數據,以提升模型的泛化能力。
值得注意的是,Magika 還更新了 Python 與 TypeScript 模塊,使得開發者可以更輕鬆地進行集成。用戶可以通過簡單命令在不同操作系統上安裝 Magika,並且谷歌鼓勵開發者參與到該項目中來,繼續優化與擴展工具的功能。
劃重點:
🌟 Magika1.0採用 Rust 語言重構,性能與安全性大幅提升。
📂 支持200多種文件格式,新增多種數據科學與編程語言類型。
⚙️ 簡化開發者集成過程,鼓勵社區參與項目優化。
