開源網絡爬蟲項目Crawl4 AI近日發佈了v0.4. 1 版本,帶來多項重大更新。最引人注目的是新增的文本模式(Text-Only Mode)功能,該模式通過優化資源加載策略,將爬取效率提升至原來的3- 4 倍。
"這次更新的核心是讓爬蟲變得更快、更智能,"項目維護者表示,"特別是在處理現代網頁時,新版本展現出顯著優勢。"
本次更新的一大亮點是全新的文本模式。通過關閉圖片加載、JavaScript執行和GPU處理,該模式可以大幅提升爬取速度。用戶只需設置text_only=True參數即可啓用這一功能,特別適合那些只需獲取網頁文本內容的場景。
針對現代網頁的特點,v0.4. 1 版本還優化了內容加載機制。新版本改進了對懶加載內容的處理,並引入了wait_for_images參數確保圖片完整加載。同時,新增的動態視口調整功能(adjust_viewport_to_content)能夠確保所有動態內容都能被正確捕獲。
爲了更好地處理無限滾動等動態加載頁面,Crawl4AI引入了全頁面掃描功能。用戶可通過設置scan_full_page=True啓用該功能,配合scroll_delay參數精確控制掃描節奏,模擬真實用戶的瀏覽行爲。
在性能優化方面,新版本還對會話管理進行了改進。通過會話複用機制,避免了重複創建瀏覽器標籤頁的開銷,顯著降低了內存佔用,提升了整體運行效率。
這次更新標誌着Crawl4AI在網頁數據採集領域邁出了重要一步,爲開發者提供了更高效、更可靠的爬蟲工具。
開源發佈地址:https://crawl4ai.com/mkdocs/blog/releases/0.4.1/