Lmst

Гений против алгоритма: почему ИИ не способен повторить «Войну и мир»

Нейросети стремительно обучаются и при грамотном запросе могут генерировать достаточно качественный литературный контент. Вопрос: «Может ли ИИ превзойти Льва Толстого и самостоятельно написать шедевр, подобный "Войне и миру"?» В обозримом будущем ответ: «Нет!» Конечно, шанс, что ИИ напишет лучше Толстого, есть, но равен 0,0001%. Это символическая вероятность — технически возможно, но практически нереально по ряду причин. Давайте разберёмся, почему даже самый продвинутый алгоритм уступает Льву Николаевичу.

https://habr.com/ru/articles/911530/

#нейросеть #языковая_модель #генеративный #генерация #токен #контекст #алгоритм #запрос #роман #Толстой

Реализация AI агента на базе LLM с нуля – что включает цикл разработки

Разработка AI агента, использующего большие языковые модели (LLM) – это малоизвестный пока еще и потому интересный инженерный процесс, охватывающий весь цикл создания от идеи до финального развертывания. Технические стандарты разработки агентских систем пока еще формируются. В данной статье я поделюсь своим опытом и рассмотрю ключевые этапы, технологии и практические нюансы, которые встречаются при разработке такой системы с нуля. Начнем с подготовительного этапа постановки задач и сбора данных. Первым делом необходимо чётко определить цели и задачи будущего агента. Предположим, что в центре системы обычная LLM - в рамках этой статьи не будем рассматривать мультимодальные агенты или модели рассуждений. Важно понять, каким образом LLM будет интегрирована в общий процесс. В 99% центральным звеном интеграции будет Retrieval-Augmented Generation (RAG) пайплайн. Через него модель будет получать данные, релевантные тем задачам, которые агент должен решать. И на этапе построения пайплайна критически важен сбор и предварительная обработка данных. Собранные данные могут включать текстовые документы, логи общения пользователей, справочные материалы, которые потом помогут модели понимать контекст и давать релевантные ответы. Сложность этого этапа зависит от того, какие у вас источники данных, сколько их, насколько серьезной предварительной (перед загрузкой в индекс) обработки они требуют.

https://habr.com/ru/articles/895018/

#языковые_модели #языковая_модель #llm #llmмодели #ai #ии #иимодель #облачные_сервисы

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

Современные требования к инфраструктуре для агентских AI-систем. Развертывание, поддержка и операционные расходы

Агентские AI-системы, которые могут взаимодействовать с окружением посредством сложных интеграций, принимать автономные решения и адекватно реагировать на обратную связь от пользователя, требуют серьезной инфраструктурной поддержки. В этой статье я собираюсь рассмотреть ключевые аспекты развертывания и поддержки таких систем как в облаке, так и на выделенных кластерах. За основу я возьму свой опыт развертывания агентской системы в кластере Linux-серверов, где все сложности по конфигурации и поддержке инфраструктуры ложатся на разработчика, а также в облаке с более широкими возможностями автоматизации инфраструктурных процессов. Я рассмотрю также операционные расходы и возможные трудности, связанные с разработкой агентских систем под каждую из платформ. Начнем с основных компонентов инфраструктуры агентских AI-систем. Прежде чем рассматривать конкретные сценарии развертывания, стоит выделить следующие ключевые компоненты инфраструктуры агентской AI-системы:

https://habr.com/ru/articles/890836/

#языковые_модели #языковая_модель #llm #llmмодели #файнтюнинг #файнтюнинг

Grok 3 бета — эпоха «думающих» агентов

Grok 3 — это последняя серия моделей компании xAI Илона Маска. Представленная 17 февраля 2025 года, эта модель была обучена с использованием суперкомпьютера Colossus, оснащенного около 200 000 графических процессоров Nvidia H100 , что в десять раз превышает вычислительные мощности, использованные для предыдущей версии Grok 2. Согласно результатам бенчмарков, представленным xAI, Grok 3 превосходит другие передовые модели, такие как GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3 , в областях математики, программирования и научных исследований.

https://habr.com/ru/articles/885254/

#grok #grok3 #grok_ai_free #chatgpt #ai #deepseek #chatbot #ИИ #языковые_модели #языковая_модель

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek , благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

https://habr.com/ru/articles/877192/

#deepseek #llama #openai #chatgpt #языковые_модели #языковая_модель #ии #ai

Четыре Radeon RX 7900, нейросеть и настольная игра

Языковые нейросетевые модели как только не тестировали: от решения олимпиадных задач до создания шедевров мировой литературы. У нас же родилась идея протестировать их на более прикладном уровне. А именно, сможет ли нейросеть играть по правилам в настольную игру, которая сложнее, чем крестики-нолики, и заодно посмотреть, как поведет себя в работе с LLM связка из четырех видеокарт Radeon RX 7900 XTX с 24 гигабайтами видеопамяти.

https://habr.com/ru/companies/hostkey/articles/875710/

#amd #radeon #rocm #настольная_игра #llm #языковая_модель #искусственный_интеллект #эксперимент

Путь кода VS путь языковых моделей

Сейчас разработка многих компонентов в продукте может быть выполнена двумя путями: путем кода или же языковых моделей. Давайте сравним эти подходы на примере простой задачи — автоматизации проверки оформления задачи на канбан-доске. И посмотрим, где какие плюсы и минусы.

https://habr.com/ru/companies/skbkontur/articles/865924/

#языковые_модели #языковая_модель #kanban

Дообучаем языковую модель GPT2 с помощью Torch

Дообучаем языковую модель GPT2 с помощью Torch Доброго времени суток, в этой статье я хочу поговорить о дообучения языковых моделей. В интернете уже много информации на эту тему, но большинство подобных статей затрагивают ее поверхностно. Сегодня я попробую разобраться в этом подробнее.

https://habr.com/ru/articles/859250/

#языковые_модели #python #python3 #pytorch #дообучение #gpt #gpt2 #языковая_модель

Я, Нейросеть: как программисты научили компьютеры говорить

Нейросети сегодня пишут новости, рекламные тексты, стихотворения и даже целые сценарии. Как мы пришли к этому? Рассказываем историю языковых моделей — от симулятора психотерапевта из 1960-х до первых нейросетей в начале 21 века.

https://habr.com/ru/companies/psb/articles/847180/

#языковые_модели #eliza #gpt #нейросеть #трансформер #языковая_модель

Автономный бизнес — Telegram канал + LLM

Всем привет, в этой статье я хотел бы рассказать о создании скрипта для рерайта постов Telegram каналов с помощью LLM модели и их публикации у себя на канале. Первое, что нам потребуется это локально поднятая LLM модель, для обработки постов - их видоизменения. Второе сам скрипт. Импортируем нужные библиотеки:

https://habr.com/ru/articles/839640/

#языковая_модель #искусственный_интеллект #python #telegram #telegram_bot

Гайд по работе языковых моделей для начинающих

Вместе с дата-сайентистом и биоинформатиком Марией Дьяковой подготовили подробный гайд о том, как устроены языковые модели и что нужно знать, чтобы начать с ними работать.

https://habr.com/ru/companies/skillfactory/articles/837366/

#языковые_модели #языковая_модель #llm #nlp #nlp_(natural_language_processing) #gpt #bert #pytorch #tensorflow #обработка_естественного_языка

[Перевод] I в LLM означает Intelligence

Я уже давно ничего не писал об ИИ или том, как мы (не) используем его для разработки в нашем проекте curl. Больше откладывать нельзя. Хочу продемонстрировать вам наиболее значительный эффект, который ИИ может оказать на curl сегодня, подкрепив его примерами.

https://habr.com/ru/companies/ruvds/articles/836186/

#ruvds_перевод #llm #языковая_модель #curl #охота_на_баги #bug_bounty #искусственный_интеллект #машинное_обучение

Llama 3.1 и Mistral Large 2

В прошлом месяце вышли две интересных модели - Llama 3.1 , улучшенная версия Llama 3 , и Mistral Large 2. Самое заметное отличие Llama 3.1 от предыдущих моделей - у нее есть версия 405B- 405 миллиардов обучаемых параметров. Это самая большая открытая языковая модель, и опубликованные метрики показывают ее производительность на уровне GPT-4. Тесты проводились как на общих бенчмарках, например MMLU, так и специализированных - на код и математику. Для меня особенно интересными показались улучшенные мультиязычные возможности этой модели, так как я давно экспериментирую с обучением LLM на мультиязычных данных, моя последняя модель ruslandev/llama-3-8b-gpt-4o-ru1.0 превзошла GPT-3.5 на русскоязычной версии бенчмарка MT-Bench . Llama 3.1 поддерживает семь языков, кроме английского - французский, немецкий, хинди, итальянский, португальский, испанский и тайский . Русского в списке нет, как легко заметить, но это не значит, что в корпусе базовой модели нет примеров на русском. Есть, и предостаточно, это становится очевидно при файнтюнинге. У меня есть мой собственный датасет для файнтюнинга ruslandev/tagengo-rus-gpt-4o , который я сгенерировал из преимущественно русскоязычных промптов датасета Tagengo с помощью GPT-4o. Теперь о минусах модели Llama 3.1 - файнтюнинг 405B версии обойдется дорого, так как даже при сжатии в 4bit необходимо выделить около 200 ГБ VRAM для такой задачи. Поэтому я файнтюнил версию 8b на вышеупомянутом датасете, арендуя две видеокарты A100 на облачном сервисе immers.cloud . Но я не заметил особого превосходства версии 3.1 над третьей версией. Даже наоборот, я столкнулся с несколькими проблемами - например, 3.1 после файнтюнинга на моем датасете показала тенденцию прерывать генерацию, не завершив ответ - до причины я так и не докопался, но у Llama 3 такой проблемы не было.

https://habr.com/ru/articles/835692/

#языковая_модель #llm #ml #машинное+обучение #искусственный_интеллект #llama #llama_3 #mistral #mistral_ai

Бенчмарки больших языковых моделей. Мультиязычный MT-Bench

В последнее время я занимался файнтюнингом Llama 3 на открытых датасетах, а сейчас планирую собрать собственный датасет для новых экспериментов. Встает вопрос, как оценивать эффективность обучения. Для оценки моделей используются специальные наборы текстовых запросов, промптов, которые проверяют, например, насколько хорошо модель следует инструкциям. Для разных типов задач будут разные критерии оценки. Например, есть GLUE (General Language Understanding Evaluation) , оценка общего понимания естественного языка. Оценивает в том числе способность модели отвечать на вопросы, логическую связность и sentiment analysis - умение распознавать эмоциональную окраску. Это обширная область задач, и одного GLUE-бенчмарка явно мало, чтобы как следует оценить общее понимание моделью естественного языка, поэтому существуют другие тестовые наборы, например, SuperGLUE и MMLU (Massive Multitask Language Understanding). Последний бенчмарк оценивает, насколько хорошо в среднем модель понимает сложные вопросы из разных категорий - гуманитарной, социальной, STEM - то есть точные науки и естествознание. Есть HellaSwag - это интересный бенчмарк, составленный из непростых вопросов, которые проверяют модель на здравый смысл, common sense. HellaSwag датасет содержит текстовое описание события, записанного на видео, и несколько вариантов завершения этого события, только один из которых правильный.

https://habr.com/ru/articles/834158/

#искусственный_интеллект #benchmark #benchmarking #llm #языковая_модель #языковые_модели #машинное+обучение #машинное_обучение

[Перевод] Большие языковые модели: от предобучения до обучения на инструкциях

Это перевод моей статьи об обучении языковых моделей на medium.com. Год назад я подготовил краткое исследование на тему языковых моделей , и для закрепления практики начал пробовать дообучение (fine-tuning) больших языковых моделей (LLM) для различных прикладных задач. Первоначально, я получил противоричивые результаты, это подтолкнуло меня к более глубокому изучению теории обучения. В этой статье я решил описать мои теоретические изыскания, и дополнить рядом примеров, полученных на личном опыте. Для обучения opensource модели используются различные дадасеты, так же они публикуются с разлиных стадий обучения, и успех дообучения зависит от выбора правильной базовой модели. На практике, конвейер обучения больших языковых моделей состоит из нескольких фиксированных этапов: Первый этап — предварительное обучение, которое включает обучение на массивном корпусе текста с использованием задачи предсказания следующего токена. На этом этапе модель учит модель языка или языков. Далее следует обучение с учителем (Supervised fine-tuning) на парах "запрос-ответ”, адаптированных к конкретной задаче. Одной из самых распространенных задач на этом этапе является способность модели отвечать на запросы в формате чата. Наконец, подстройка под пользовательские предпочтения, она проводится с использованием техники обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback), так же назваемся instruct fine-tuning. Хорошим описанием этого процесса является технический отчет по языковой модели Qwen [1] . Они описали этапы обучения и опубликовали три модели: предварительно обученную базовую модель, обученную с учителем модель чат-модель и модель, дообученную на пользовательских предпочтениях с использованием RLHF.

https://habr.com/ru/articles/830670/

#lora #обучение_с_учителем #дообучение #языковая_модель #трансформеры

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

В этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench . Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed. Особенный интерес представляет мой датасет для обучения. Он получен из сабсета мультиязычных промтов набора lightblue/tagengo-gpt4 на русском, английском и китайском, всего 10 тысяч примеров, сгенерированных с помощью GPT-4o . Это в 8 раз меньше, чем исходный набор Tagengo , но обученная на последнем Suzume, как показали бенчмарки, лишь очень незначительно превосходит мою модель на ru_mt_bench, а на англоязычном бенче и вовсе уступает ей. Это значит, что я в разы сэкономил на GPU за счет более высокого качества данных, полученных с помощью GPT-4o. Я использовал скрипт для получения ответов по заданным промптам. Для генерации русскоязычной выборки я изменил часть скрипта, чтобы выбрать все промпты на русском из Tagengo (8K примеров), так как основной фокус при обучении модели был на русском языке. В итоге я получил датасет ruslandev/tagengo-rus-gpt-4o и приступил к обучению. Для этого я создал виртуальную машину с NVIDIA H100 , используя сервис immers.cloud . Для достижения наилучших результатов по instruction-following (что проверяется на MT-Bench ) я взял в качестве исходной модели meta-llama/Meta-Llama-3-8B-Instruct . Именно на ней обучена модель Suzume , у которой высокая оценка на MT Bench. Предыдущие эксперименты показали, что базовая Llama-3 8B, а особенно ее четырехбитная версия для QLoRA - unsloth/llama-3-8b-bnb-4bi t - значительно отстает по оценкам бенчмарка.

https://habr.com/ru/articles/830332/

#языковая_модель #llm #ml #машинное+обучение #искусственный_интеллект

Поговорим с языковой моделью

Поговорим с языковой моделью. О разном. Логика, языки, обучение с подкреплением, числа, последовательность.

https://habr.com/ru/articles/828474/

#языковая_модель #число #последовательность

Цикл разработки LLM

В этой статье я использую мой опыт обучения больших языковых моделей (смотрите серию видео на канале Ruslan Dev ), чтобы выявить и описать основные фазы разработки собственной LLM. На сегодняшний день разработчики GenAI моделей, как правило, используют веса базовых (foundational) моделей, а не обучают нейросеть с нуля. В качестве данных для обучения часто используются ответы state-of-the-art LLM, таких как GPT-4 . Этот подход получил распространение с тех пор, как создатели Stanford Alpaca показали, что инференс небольшой модели наподобие Llama 7B можно приблизить по качеству к GPT-3 путем файнтюнинга на ответах последней. С тех пор и коммерческие, и опенсорс-модели шагнули вперед. Я работал с базовой моделью Llama-3 , обученной на беспрецедентно огромном корпусе из 15 триллионов текстовых токенов, что дает широкие возможности для файнтюнинга. А датасет для обучения я собирал с помощью последней модели OpenAI - GPT-4o . Как видите, переменные изменились, но уравнение осталось то же - подход Альпаки работает по-прежнему.

https://habr.com/ru/articles/825180/

#искусственный_интеллект #нейросети #машинное+обучение #llama_3 #языковая_модель

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

https://habr.com/ru/articles/823952/

#finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

#%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C

Client Info