近日,Firecrawl 推出了一項全新的功能 ——LLMs.txt 生成器接口(Alpha 版),旨在幫助用戶將任何網站的內容轉化爲清晰、適用於大語言模型(LLM)訓練的文本文件。用戶只需提供一個網站的 URL,Firecrawl 便會對該網站及其鏈接頁面進行抓取,生成兩種格式的文本文件:llms.txt 和 llms-full.txt,便於後續的分析和訓練。

QQ_1741571298119.png

該生成器的工作流程相對簡單。用戶只需提供一個網址,系統便會自動爬取該網站的內容,提取出乾淨且有意義的文本信息。生成的文件分爲兩種類型:llms.txt 是對網站內容的簡明總結,包含關鍵的信息;而 llms-full.txt 則是更爲詳細的完整文本內容,適合需要深入分析的用戶。

在使用過程中,用戶可以設置一些關鍵參數。首先是 “url”,即希望生成 LLMs.txt 文件的網址。用戶還可以選擇 “maxUrls” 參數,控制最多爬取的頁面數量,範圍在1到100之間,默認值爲10。此外,用戶還可以選擇是否生成 llms-full.txt,默認設置爲不生成。

值得注意的是,LLMs.txt 生成器的工作是異步進行的,用戶可以發起請求並實時監測生成狀態。系統會提供狀態更新,例如 “正在進行中” 或 “已完成”,方便用戶隨時掌握進度。

然而,由於目前處於 Alpha 階段,該功能也存在一些已知限制。首先,僅支持公開可訪問的頁面,登錄保護或付費牆內容無法處理。其次,在 Alpha 階段,處理的網站數量上限爲5000個 URL。此外,作爲一項 Alpha 特性,輸出格式和處理流程可能會根據用戶反饋進行調整。

在計費方面,使用 LLMs.txt 生成器的費用是基於處理的 URL 數量,基本費用爲每處理一個 URL 消耗1個積分。用戶可以通過設置 maxUrls 參數來控制費用。

入口:https://docs.firecrawl.dev/features/alpha/llmstxt

劃重點:

🌐 提供網站 URL,即可快速生成適用於 LLM 的文本文件。

📝 生成兩種文本格式,便於不同需求的用戶選擇使用。

🔒 僅支持公開頁面處理,且 Alpha 階段有數量限制。