Lmst

Reader-LM: Small Language Models for Cleaning and Converting HTML to Markdown

Link

📌 Summary: 本文介紹了 Jina Reader 的新版本 —— Reader-LM，一種專為從雜亂的 HTML 轉換為乾淨的 markdown 而設計的小型語言模型 (SLM)。此模型擁有兩個版本，reader-lm-0.5b 和 reader-lm-1.5b，均支持多語言且具有高達 256K 的上下文長度。儘管參數較少，這些模型在轉換效率和性能上表現優於許多大型模型。文章詳細描述了數據準備、模型訓練及其面臨的挑戰，並強調該模型在長上下文支持和生成能力上的優勢。

🎯 Key Points:
- 模型發佈：推出 reader-lm-0.5b 和 reader-lm-1.5b 兩個小型語言模型。
- 核心技術：使用語言模型進行 HTML 到 markdown 的轉換，相比傳統的正則表達式和過濾器解決方案更為高效。
- 性能評估：在 ROUGE-L、字元錯誤率 (TER) 等指標上表現優於大型模型。
- 訓練策略：兩階段訓練方法，突破訓練過程中的重複與迴圈問題，並利用對比搜索等方法來優化生成結果。
- 應用與實用性：模型將在 Azure Marketplace 和 AWS SageMaker 上提供，教學筆記本可在 Google Colab 試用。

🔖 Keywords: #小型語言模型 #HTML轉markdown #多語言 #模型訓練 #開源人工智慧

🌕 AI 模型在訓練時崩潰 | 自然
➤ 模型崩潰是一種影響學習生成模型世代的退化過程，使得它們生成的數據最終污染下一代的訓練集。
✤ https://www.nature.com/articles/s41586-024-07566-y
穩定擴散從描述性文本革命性地改變了圖像創建。大型語言模型（LLMs）的廣泛使用將對在線文本和圖像生態系統產生重大影響。研究發現，對模型生成的內容進行不加篩選的訓練會導致結果模型中出現不可逆轉的缺陷，原始內容分佈的尾部消失。這種效應被稱為「模型崩潰」，我們展示它不僅發生在LLMs中，還發生在變分自編碼器（VAEs）和高斯混合模型（GMMs）中。這一現象必須得到重視，以維護從網絡大規模數據訓練中獲得的好處。
+ 這篇文章提供了深入的洞察，關於模型訓練中可能出現的問題，值得關注。
+ 對於未來AI發展方向和訓練方法有啟發性，對於保持模型品質提出了
#人工智慧 #模型訓練 #數據分析

🌘 從裸金屬到70B模型：基礎架構設置和腳本
➤ 從裸金屬到一個完全運作的集羣的全面指南
✤ https://imbue.com/research/70b-infrastructure/
這篇文章介紹了一個小團隊如何在幾個月的時間內，從零開始使用自己的基礎架構訓練了一個具有700億參數的模型，並分享了設置所需基礎設施的全面指南，包括從啟動初始集羣和安裝作業系統，到在訓練過程中自動復原的各個步驟及挑戰。
+ 這篇文章對於建立大型模型訓練的基礎架構提供了非常寶貴的指導，讓其他團隊也能從中受益。
+ 從文章中可以看出這個小團隊的努力和專業知識，他們的成就非常令人印象深刻。
#技術 #模型訓練 #基礎架構

🌘 混合專家模型Mixtral-8x22B-v0.1介紹
➤ Mistral AI團隊介紹以及相關技術性討論
✤ https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1
本文介紹了混合專家模型Mixtral-8x22B-v0.1的特性，以及如何進行模型運行時的記憶優化。此模型屬於預訓練生成式稀疏混合專家模型。
+ 這篇文章很有用，清楚地解釋了Mixtral-8x22B-v0.1模型的運行方式和記憶優化方法。
+ 看完文中對模型的技術細節解說，對於如何有效地使用這種混合專家模型有了更深入的瞭解。
#人工智慧 #模型訓練 #技術

🌖 Cerebras 推出 gigaGPT：以 565 行程式碼實現 GPT-3 規模的模型
➤ gigaGPT：用 565 行程式碼訓練自定義 GPT-3 規模的模型
✤ https://www.cerebras.net/blog/introducing-gigagpt-gpt-3-sized-models-in-565-lines-of-code
Cerebras 推出了 gigaGPT，這是對於 Andrei Karpathy 的 nanoGPT 的實作，可用 565 行程式碼訓練超過 100B 參數的 GPT 模型。它在 Cerebras 硬體的大記憶體和運算能力下實現大規模訓練，並支援長上下文長度和多種優化器。此外，gigaGPT 適用於從數百萬到數百億參數範圍內的 GPT 模型。它採用標準的迷你批次數據並且主要由 model.py 和 train.py 組成。
+ 這篇文章在簡潔地介紹了 Cerebras 推出的 gigaGPT，讓人對這個新的 GPT 模型訓練解決方案有了初步的瞭解。
+ 這篇文章提供了對於 gigaGPT 這一創新
#人工智慧 #機器學習 #模型訓練

🌘 大幅規模的視覺模型的連續建模刺激可擴展的學習
➤ 連續建模方法使大幅規模的視覺模型能夠有效擴展訓練
✤ https://yutongbai.com/lvm.html
作者介紹了一種新的連續建模方法，使得可以在不使用任何語言資料的情況下學習大幅規模的視覺模型。他們定義了一種通用格式，"視覺句子"，可以將原始圖像和視頻以及帶有語義分割和深度重建等註釋數據源表示為序列。通過訓練模型以最小化交叉熵損失來預測下一個令牌，他們提供了實證證據表明他們的模型能夠有效擴展。設計適當的提示，可以解決許多不同的視覺任務。
+ 這種連續建模方法似乎是一個有潛力的方法，可以解決視覺領域的多個任務。
+ 很難想像在不使用任何語言資料的情況下，能夠學習如此大幅規模的視覺模型。這項研究的成果令人印象深刻。
#視覺模型 #學習 #模型訓練

🌗 「google/switch-c-2048 · Hugging Face」
➤ Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
✤ https://huggingface.co/google/switch-c-2048
本文是關於「google/switch-c-2048」模型的介紹。該模型是一個基於Transformer的混合專家模型，使用遮罩語言建模的方式進行訓練。模型架構類似於古典的T5模型，但將前饋層替換為包含「專家」MLP的稀疏MLP層。模型能夠在訓練速度和任務精度方面優於T5。本文介紹了模型的使用方法，如在CPU和GPU上運行模型以及使用不同精度運行模型的示例腳本。此外，還提供了模型的語料庫、訓練過程、評估結果、環境影響等相關資訊。
+ 這個模型的規模真的很大，應該能處理很複雜的自然語言處理任務。
+ 對於深度學習和自然語言處理的專業人士來說，這個模型似乎是一個很好的選擇。
#深度學習 #自然語言處理 #模型訓練

🌘 【2308.16824】編程語言是否可以通過指令調整互相提升？
➤ 編程語言是否可以通過指令調整互相提升？
✤ https://arxiv.org/abs/2308.16824
本文探討了在代碼大型語言模型的指令微調階段中，編程語言是否可以互相提升。通過對8種流行的編程語言進行廣泛實驗，結果表明編程語言可以顯著提高彼此的性能。作者還發現，CodeM-HTML 7B在HTML語料庫上訓練的模型可以將Java的pass@1絕對值提高15.24％。研究數據已在https URL上公開發布。
+ 看來編程語言之間的互相提升還有很大的發展空間。
+ 這篇文章對於編程語言的學習和應用有很大的啟示作用。
#編程語言 #指令調整 #模型訓練

🌗 LLM培訓的數學 - 與Eleuther AI的Quentin Anthony一起
➤ 深入探討LLM培訓的數學原理和策略
✤ https://www.latent.space/p/transformers-math#details
本文介紹了高性能分散式訓練和基於Transformer架構的訓練法則，並探討了模型權重、優化器狀態、梯度和激活對記憶體需求的影響。還討論了分散式訓練和ZeRO、3D平行處理等策略。文章提供了簡化的計算公式和其他相關數學概念。
+ 這篇文章對於理解LLM培訓的數學原理非常有幫助，尤其是對於分散式訓練和記憶體管理方面的知識。
+ 這些數學公式和概念對於優化模型訓練過程非常重要，對於提高訓練效率和節省資源有很大幫助。
#深度學習 #模型訓練 #GPU使用

🌖 機器學習模型是記憶還是泛化？
➤ 模型訓練後的記憶與泛化現象
✤ https://pair.withgoogle.com/explorables/grokking/
本文探討機器學習模型在訓練後是如何記憶或泛化的現象。研究人員發現，當訓練一系列小型模型進行玩具任務時，這些模型在長時間訓練後突然從記憶訓練數據轉變為正確泛化未見輸入。本文通過研究一個小型模型的訓練動態，逆向工程出其解決方案，並提供了機械解釋性領域的示例。文章探討瞭如何區分模型是泛化還是記憶，並提出了對大型語言模型的關鍵問題的解答方法。
+ 這篇文章很有趣，對於機器學習模型的記憶和泛化問題提供了一些新的見解。
+ 這個例子很好地解釋了模型如何在訓練過程中從記憶轉變為泛化，讓人更容易理解這個現象。
#機器學習 #泛化 #記憶 #模型訓練

🌗 以一杯星巴克的價格訓練您自己的私人ChatGPT模型
➤ 使用Apache DolphinScheduler，只需花費一杯星巴克的價格和兩個小時的時間，您就可以擁有自己的訓練過的開源大規模模型。
https://medium.com/@ApacheDolphinScheduler/train-your-own-private-chatgpt-model-for-the-cost-of-a-starbucks-coffee-25c588f450ee
本文介紹了如何使用Apache DolphinScheduler訓練自己的ChatGPT模型，只需花費一杯星巴克的價格和兩個小時的時間即可擁有自己的訓練過的開源大規模模型。這個模型可以根據不同的訓練數據方向進行微調，以增強各種技能，例如醫學、編程、股票交易和愛情建議，使您的大規模模型更加“了解”您。
+ 這是一篇非常有用的文章，介紹了如何使用Apache DolphinScheduler訓練自己的ChatGPT模型，而且只需要花費很少的時間和金
#ChatGPT #人工智慧 #Apache DolphinScheduler #模型訓練

#%E6%A8%A1%E5%9E%8B%E8%A8%93%E7%B7%B4

Client Info