Reader-LM: Small Language Models for Cleaning and Converting HTML to Markdown
Link📌 Summary: 本文介紹了 Jina Reader 的新版本 —— Reader-LM,一種專為從雜亂的 HTML 轉換為乾淨的 markdown 而設計的小型語言模型 (SLM)。此模型擁有兩個版本,reader-lm-0.5b 和 reader-lm-1.5b,均支持多語言且具有高達 256K 的上下文長度。儘管參數較少,這些模型在轉換效率和性能上表現優於許多大型模型。文章詳細描述了數據準備、模型訓練及其面臨的挑戰,並強調該模型在長上下文支持和生成能力上的優勢。
🎯 Key Points:
- 模型發佈:推出 reader-lm-0.5b 和 reader-lm-1.5b 兩個小型語言模型。
- 核心技術:使用語言模型進行 HTML 到 markdown 的轉換,相比傳統的正則表達式和過濾器解決方案更為高效。
- 性能評估:在 ROUGE-L、字元錯誤率 (TER) 等指標上表現優於大型模型。
- 訓練策略:兩階段訓練方法,突破訓練過程中的重複與迴圈問題,並利用對比搜索等方法來優化生成結果。
- 應用與實用性:模型將在 Azure Marketplace 和 AWS SageMaker 上提供,教學筆記本可在 Google Colab 試用。
🔖 Keywords: #小型語言模型 #HTML轉markdown #多語言 #模型訓練 #開源人工智慧