RAG: борьба с низким качеством ответов в условия экономии памяти на GPU
Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы начинаем серию статей, в которой я расскажу о том, как мы с командой разрабатывали ИИ-помощника, а также приведу практические кейсы по улучшению точности ответов с минимальными затратами памяти графических процессоров. Как вы уже могли догадаться, наш ИИ-помощник разработан на основе RAG (Retrieval-Augmented Generation) системы. Хотя принцип работы RAG многим уже знаком и не вызывает того самого «вау», я всё же кратко напомню, как эта система работает, почему она так популярна и почему её ответам можно доверять. В этой статье я расскажу, как мы разрабатывали RAG-систему для юридического отдела нашей компании, с какими вызовами столкнулись и как их преодолевали. Вы узнаете, почему стандартные подходы не всегда работают, и как, погрузившись в специфику данных, мы смогли значительно улучшить качество ответов, сохранив при этом экономию ресурсов GPU.
https://habr.com/ru/companies/pgk/articles/897658/
#rag #natural_language_processing #искусственный_интеллект #машинное_обучение #иипомощник #чанки #baseline