#QLoRA

2024-11-05

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате BF16. Как вообще получилось, что Llama работает на мобильных процессорах, ведь для ее запуска нужен определенный программный стек, чаще всего библиотека Pytorch и CUDA на операционной системе Linux? Дело в том, что Meta* ( признана в России экстремистской организацией) используют ExecuTorch - это фреймворк, который является частью Pytorch-платформы и предназначен для запуска Pytorch-программ на мобильных девайсах. ExecuTorch поддерживается фреймворком Llama Stack для запуска моделей Llama, а именно легковесных Llama 3.2 1B и 3B , на iOS и Android. Для разработки мобильных приложений под эти платформы Llama Stack предоставляет клиентский SDK на Swift для iOS и Kotlin для Android, оба написаны под ExecuTorch бэкенд. Какого именно уровня производительности удалось добиться новым квантованным моделям Llama? В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama. Сразу стоит отметить важную деталь: речь идет не об обычной post-training квантизации , когда вы берете веса в FP16 и квантуете в GGUF или GPTQ. Хотя такие веса, безусловно, имеют практическое применение для множества задач, они страдают падением качества, это хорошо заметно на бенчмарках ниже.

habr.com/ru/articles/856244/

#llama #qlora #llama_32 #генеративные_модели #generative_models #нейронные_сети

2024-07-24

[Перевод] Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

habr.com/ru/articles/829318/

#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка

2024-01-23

Looking for an #LLM #finetuning #qlora #mistral primer article and/or links to an active forum where it is discussed.

Any interesting finds lately? Shot-in-the-dark pinging @simon 🤞

GripNewsGripNews
2023-08-25

🌘 GitHub - iamarunbrahma/finetuned-qlora-falcon7b-medical: 使用 QLoRA 在心理健康對話數據集上微調 Falcon-7B LLM
➤ 使用 QLoRA 在心理健康對話數據集上微調 Falcon-7B LLM
github.com/iamarunbrahma/finet
本文介紹了使用 QLoRA 在心理健康對話數據集上微調 Falcon-7B LLM 的方法,並提供了相關的數據集和模型。Chatbot 可以作為一種可靠的心理健康支持平臺,但不能替代專業的心理健康護理。微調過的模型可以提供更好的回答,並且可以使用 Gradio 進行演示。
+ 這是一個很有用的工具,可以幫助人們更好地理解心理健康問題。
+ 微調模型需要一定的技術知識,但是這篇文章提供了很好的指導和數據集。
-7B

Eugenio Culurcielloculurciello@sigmoid.social
2023-05-25

While we wait for better #AI hardware, or better Transformer models, we have #QLoRa: arxiv.org/abs/2305.14314 which can let you train a large #LLM with less memory #deeplearning #machinelearning

GripNewsGripNews
2023-05-25

🌘 bitsandbytes和4位量化使LLMs更易於使用
➤ Hugging Face與bitsandbytes合作,使大多數HF模型都可以在4位精度下運行,並且可以使用QLoRA進行微調。
huggingface.co/blog/4bit-trans
本文介紹了Hugging Face與bitsandbytes合作,使大多數HF模型都可以在4位精度下運行,並且可以使用QLoRA進行微調。QLoRA是一種新的微調方法,可以在不影響性能的情況下減少記憶體使用,並且可以在單個GPU上微調65B參數模型。本文還介紹了4位浮點數的表示方法和QLoRA的工作原理。
+ 這是一個非常有用的技術,可以使更多的人使用LLMs,而不需要昂貴的硬件。QLoRA的引入還可以使微調更加高效。
+ 4位量化是一個非常有前途的技術,可以在不影響性能的情況下減少記憶體使用。這對於微調大型模型非常有用,因為它們需要大量的記憶體。

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst