Jina AI 推出了兩款專門爲將原始 HTML 內容轉化爲乾淨整潔的 Markdown 格式而設計的小型語言模型,讓我們擺脫瑣的網頁數據處理。
這款名爲 Reader-LM 的模型,最大的亮點在於它能夠快速且高效地將網頁內容轉換爲 Markdown 文件。

使用它的好處在於,你不再需要依賴複雜的規則或者費力的正則表達式。這些模型聰明地自動剔除了網頁中的雜亂內容,比如廣告、腳本和導航欄,最終呈現出條理清晰的 Markdown 格式。
Reader-LM 提供了兩個不同參數的模型,分別是 Reader-LM-0.5B 和 Reader-LM-1.5B。雖然這兩個模型的參數量不算龐大,但它們針對 HTML 轉 Markdown 的任務進行了優化,結果令人驚喜,表現超越了許多大型語言模型。

得益於其小巧精悍的設計,這些模型在資源受限的環境中也能高效運行。更令人稱道的是,Reader-LM 不僅支持多種語言,還能處理長達256K tokens 的上下文數據,使得即使是複雜的 HTML 文件也能遊刃有餘。
與傳統的需要依賴正則表達式或手動設置的方式不同,Reader-LM 提供了一個端到端的解決方案,能夠自動清理 HTML 數據並提取出關鍵信息。

通過與 GPT-4和 Gemini 等大型模型的對比測試,Reader-LM 展現出了優異的性能,特別是在結構保留和 Markdown 語法使用方面。Reader-LM-1.5B 在各項指標上表現尤爲突出,ROUGE-L 分數高達0.72,顯示出它在生成內容時的高準確性,錯誤率也顯著低於同類產品。
由於 Reader-LM 的緊湊設計,它在硬件資源佔用上更爲輕便,尤其是0.5B 模型,可以在像 Google Colab 這樣的低配置環境中流暢運行。儘管體量小,Reader-LM 依舊具備強大的長上下文處理能力,能夠高效處理龐大複雜的網頁內容而不影響性能。

在訓練方面,Reader-LM 採用了多階段的流程,專注於從原始且噪聲較多的 HTML 中提取出 Markdown 內容。
訓練過程包括大量真實網頁和合成數據的配對,確保了模型的高效性和準確性。經過精心設計的兩階段訓練,Reader-LM 逐步提升了對複雜 HTML 文件的處理能力,並有效避免了重複生成的問題。
官方介紹:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/
