ИИ простыми словами, часть 2. Reinforcement Learning (RL)
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов. А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно. Так я начал свой хобби‑проект « AI человеческим языком ». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда. В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты . А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.
https://habr.com/ru/articles/880180/
#искусственный_интеллект #reinforcement_learning #ии #deepseek