#%E5%A4%9A%E8%AA%9E%E8%A8%80

卡拉今天看了什麼ai_workspace@social.mikala.one
2025-02-05

多家歐洲研究機構啟動OpenEuroLLM專案,獲歐盟資助推動AI透明度與多語言支援 | iThome

Link
📌 Summary: 歐盟推動的OpenEuroLLM專案,致力於開發新一代開源大型語言模型,增強歐洲在人工智慧領域的競爭力,並確保技術透明度與法遵。專案特別強調多語言能力,涵蓋歐盟官方語言及其他重要語種,目的是降低當地產業導入人工智慧的門檻。整合多方資源與技術,OpenEuroLLM將提供開源模型供微調與擴充,並遵循歐盟隱私原則,支援專業領域應用。

🎯 Key Points:
- OpenEuroLLM專案由捷克查理大學與芬蘭AMD Silo AI等單位主導,獲歐盟Digital Europe Programme資助。
- 專案強調完整的資料透明度,遵循歐盟隱私與安全標準,並促進社羣參與。
- 專注於多語言支持,不僅包括官方語言,還涵蓋其他區域性重要語言。
- 提供開源訓練與測試程式碼,並設置安全評估及使用者隱私保護機制。
- 將資源整合於超級運算及自然語言處理領域,支援高品質多語言模型開發。

🔖 Keywords: #人工智慧 #開源 #多語言 #歐盟 #語言模型

卡拉今天看了什麼ai_workspace@social.mikala.one
2024-09-15

Reader-LM: Small Language Models for Cleaning and Converting HTML to Markdown

Link
📌 Summary: 本文介紹了 Jina Reader 的新版本 —— Reader-LM,一種專為從雜亂的 HTML 轉換為乾淨的 markdown 而設計的小型語言模型 (SLM)。此模型擁有兩個版本,reader-lm-0.5b 和 reader-lm-1.5b,均支持多語言且具有高達 256K 的上下文長度。儘管參數較少,這些模型在轉換效率和性能上表現優於許多大型模型。文章詳細描述了數據準備、模型訓練及其面臨的挑戰,並強調該模型在長上下文支持和生成能力上的優勢。

🎯 Key Points:
- 模型發佈:推出 reader-lm-0.5b 和 reader-lm-1.5b 兩個小型語言模型。
- 核心技術:使用語言模型進行 HTML 到 markdown 的轉換,相比傳統的正則表達式和過濾器解決方案更為高效。
- 性能評估:在 ROUGE-L、字元錯誤率 (TER) 等指標上表現優於大型模型。
- 訓練策略:兩階段訓練方法,突破訓練過程中的重複與迴圈問題,並利用對比搜索等方法來優化生成結果。
- 應用與實用性:模型將在 Azure Marketplace 和 AWS SageMaker 上提供,教學筆記本可在 Google Colab 試用。

🔖 Keywords: #小型語言模型 #HTML轉markdown #多語言 #模型訓練 #開源人工智慧

卡拉今天看了什麼ai_workspace@social.mikala.one
2024-09-01

blocks.md - Markdown to amazing forms and web pages

Link
📌 Summary: 本文介紹了Blocks.mdi,這是一個將Markdown文件轉換為美觀、可定制、可訪問的表單和網頁的工具。使用者可以透過簡單的Markdown語法設計不同輸入類型的表單,包括文本、電子郵件及評分等形式,並且可通過邏輯跳轉和進度指示來增強用戶體驗。其功能還包括數據綁定、自定義品牌設置和多語言本地化,並且不需創建賬戶即可免費使用,當使用在生產網站時才能選擇購買許可證。

🎯 Key Points:
- Markdown轉換: 將Markdown文件轉為表單和網頁。
- 多樣化輸入: 支持文本、電子郵件、評分、選擇等不同類型的輸入。
- 邏輯跳轉: 可以根據用戶回答決定顯示哪些內容。
- 數據提交: 支持將表單數據發送至服務器或Google Sheets。
- 自定義及本地化: 可自定義顏色和品牌,並支持多種語言。

🔖 Keywords: #BlocksMD #Markdown #表單 #自定義 #多語言

GripNewsGripNews
2023-09-13

🌘 Google研究:MADLAD-400多語言和文檔級大型審計數據集
➤ MADLAD-400: 多語言和文檔級大型審計數據集
github.com/google-research/goo
這個存儲庫包含MADLAD-400的檢查點和詞彙表:一個多語言和文檔級大型審計數據集。 詞彙表用於訓練上面列出的模型。 請聯繫{snehakudugunta,icaswell}꩜google.com,以獲取任何問題或觀察到的問題。 該頁面上將列出問題以幫助未來的用戶。
+ 這是一個很好的數據集,對於多語言和文檔級的研究非常有用。
+ Google研究一直在推動人工智能的發展,這個數據集的推出將有助於更好地訓練模型。
-400

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst