近日,人工智能公司 Anthropic 宣佈,在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件處理的功能,目前該功能已進入公共測試階段。用戶現在可以使用該模型分析 PDF 文檔中的文本和視覺元素,包括圖像、圖表和表格等,適用於金融報告、法律文件以及文檔翻譯等多種場景。
Claude 3.5 Sonnet 的 PDF 處理過程分爲三個步驟。首先,系統會從文檔中提取文本內容。接着,每一頁文檔會被轉換爲圖像,以便進行更深入的分析。這樣一來,用戶不僅可以獲取文本信息,還能夠洞悉 PDF 文件中的視覺信息。
值得一提的是,Claude 的 PDF 功能還可以與其他功能結合使用,比如提取特定信息並將其用作工具輸入。需要注意的是,上傳的文件必須小於 32MB,且頁面數量不得超過 100 頁。該系統目前不支持加密或密碼保護的文檔。
處理 PDF 文件的費用會根據文檔的長度和內容密度有所不同。通常,每頁文檔會消耗 1,500 到 3,000 個 tokens,而不收取超過標準 token 費用的額外費用。用戶可以通過 Claude Chat 功能預覽和 API 訪問來使用這一新特性,API 請求中需要使用特定的請求頭 “anthropic-beta: pdfs-2024-09-25”。Anthropic 計劃未來將此功能擴展到 Amazon Bedrock 和 Google Vertex AI 平臺。
爲了提高處理效果,Anthropic 建議用戶確保文檔中有清晰可讀的文本,以及頁面佈局正確。此外,在引用特定內容時,用戶應使用 PDF 閱讀器中顯示的頁碼。而在 API 使用過程中,PDF 文件應放置在文本之前。如果文檔較大,超過了限制,Anthropic 建議將其拆分爲較小的部分。最後,當多次分析同一文檔時,用戶還可以考慮使用提示緩存,以提高處理效率。
劃重點:
📄 Anthropic 推出 Claude 3.5 Sonnet,增加 PDF 文件處理功能,支持文本和圖像分析。
🖼️ 處理過程分爲提取文本、轉換頁面爲圖像和綜合分析三個步驟。
💰 處理費用根據文檔長度和內容密度而異,用戶需遵循文件大小和頁數限制。
