#Reinforcement_learning

2025-10-19

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

habr.com/ru/articles/958062/

#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

2025-10-15

Intro RL

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

habr.com/ru/articles/919556/

#reinforcement_learning #обучение_с_подкреплением

2025-09-25

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

habr.com/ru/companies/k2tech/a

#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

2025-08-11

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Привет, Хабр! Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning .

habr.com/ru/articles/935368/

#llm #rl #nlp #машинное_обучение #ml #reinforcement_learning

2025-08-01

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса. В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.

habr.com/ru/companies/redmadro

#ai #llm #monte_carlo_tree_search #abmcts #inference #reasoning #thompson_sampling #reinforcement_learning

2025-07-24

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

habr.com/ru/companies/redmadro

#ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak

2025-07-23

LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России

Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было. В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0

habr.com/ru/articles/930352/

#ai #ml #llmмодели #llm #машинное_обучение #искусственный_интеллект #loraадаптеры #finetuning #reinforcement_learning #языковые_модели

2025-02-06

ИИ простыми словами, часть 2. Reinforcement Learning (RL)

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов. А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно. Так я начал свой хобби‑проект « AI человеческим языком ». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда. В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты . А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.

habr.com/ru/articles/880180/

#искусственный_интеллект #reinforcement_learning #ии #deepseek

2025-01-23

ИИ на путях: как решить задачу перепланирования расписания движения поездов

Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее. В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи: 1. Перепланирование расписания движения поездов (Train Timetable Rescheduling) 2. Коротко об RL и Q-learning 3. Моделирование железнодорожной среды 4. Заключение

habr.com/ru/companies/pgk/arti

#жд #artificial_intelligence #machine_learning #reinforcement_learning #искусственный_интеллект #машинное_обучение #обучение_с_подкреплением #ии

2025-01-15

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

habr.com/ru/articles/872514/

#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

Robotics papersrobotics_papers
2025-01-08

Diminishing Return of Value Expansion Methods

Authors: Daniel Palenicek, Michael Lutter, João Carvalho, Daniel Dennert, Faran Ahmad, and Jan Peters Fellow

pre-print -> arxiv.org/abs/2412.20537

Robotics papersrobotics_papers
2024-12-03

Robot Learning with Super-Linear Scaling

Authors: Marcel Torne, Arhan Jain, Jiayi Yuan, Vidaaranya Macha, Lars Ankile, Anthony Simeonov, Pulkit Agrawal, Abhishek Gupta

pre-print -> arxiv.org/abs/2412.01770v1
website -> casher-robot-learning.github.i

Overview from Robot Learning with Super-Linear ScalingResults from Robot Learning with Super-Linear Scaling
Robotics papersrobotics_papers
2024-11-25

Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation

Authors: Huy Le, Miroslav Gabriel, Tai Hoang, Gerhard Neumann, Ngo Anh Vien

pre-print -> arxiv.org/abs/2411.14913
website -> leh2rng.github.io/hydo

Learning architecture for Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile ManipulationExperiments from Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation
Robotics papersrobotics_papers
2024-11-15

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning

Authors: Younggyo Seo, Pieter Abbeel

pre-print -> openreview.net/pdf?id=v4hCFVUa

Comparative learning curves from Reinforcement Learning with Action Sequence for Data-Efficient Robot LearningArchitecture from Reinforcement Learning with Action Sequence for Data-Efficient Robot LearningTask examples from Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning
2024-11-14

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность в том, что у нас нет явного запроса пользователя, как в поиске, есть только история его взаимодействий с объектами и наша надежда на то, что мы верно распознали его скрытые желания. Раньше для такой задачи нужно было строить сложные алгоритмы со множеством написанных вручную эвристик. Теперь с этим помогают ML‑технологии. Меня зовут Кирилл Хрыльченко, я руковожу командой R&D рекомендательных технологий в Яндексе. Наша команда исследует и разрабатывает новые технологии, а также активно следит за тем, что появляется нового в индустрии. Сегодня я поделюсь трендами развития рекомендательных систем и расскажу, как нейросети продолжают улучшать качество рекомендаций: какие есть нюансы в работе с LLM, чем полезно обучение с подкреплением, что изменилось в плане анализа истории пользователя, а также на что обратить внимание при масштабировании.

habr.com/ru/companies/yandex/a

#recsys #машинное_обучение #нейросети #рекомендательные_системы #llm #ранжирование #графы #reinforcement_learning

Robotics papersrobotics_papers
2024-11-13

Learning to Accurately Throw Paper Planes

Authors: Marcus Kornmann, Qimeng He, Alap Kshirsagar, Kai Ploeger, Jan Peters

pre-print -> ias.informatik.tu-darmstadt.de

Agent architecture for the paper titled 'Learning to Accurately Throw Paper Planes'Scene from the paper titled 'Learning to Accurately Throw Paper Planes'
Robotics papersrobotics_papers
2024-11-07

Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments

Authors: Simon Sinong Zhan, Qingyuan Wu, Philip Wang, Yixuan Wang, Ruochen Jiao, Chao Huang, Qi Zhu

pre-print -> arxiv.org/abs/2410.03847

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst