#deepeval

2026-02-20

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

2026-01-13

Тестирование LLM-приложений с DeepEval

В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

habr.com/ru/articles/984968/

#llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

Avi Chawla (@_avichawla)

GitHub에 공개된 리포지토리 링크를 공유하며 confident-ai/deepeval 저장소를 소개하고 스타를 눌러 달라고 권장하는 게시물입니다. 오픈소스 평가 도구(DeepEval) 관련 저장소 홍보입니다.

x.com/_avichawla/status/200843

#deepeval #confidentai #github #opensource

2025-08-15

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

habr.com/ru/companies/raft/art

#deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

JAVAPROjavapro
2025-05-17

Chunk size? Retriever settings? Prompt templates? has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

→ Check it out here: javapro.io/2025/05/14/evaluati

2025-05-01

[Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

habr.com/ru/articles/904880/

#ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

2025-04-04

Интеграция DeepEval для тестирования LlamaIndex Workflow

Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

habr.com/ru/articles/897634/

#llamaindex #workflow #deepeval

2025-02-13

[Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

habr.com/ru/articles/880234/

#llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

2025-01-27

[Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

habr.com/ru/articles/876584/

#llm #чатбот_LLM #DeepEval #Confident_AI

2025-01-22

[Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

habr.com/ru/articles/874538/

#LLM #TextSQL #deepeval #бенчмарки #geval

2024-12-12

[Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex. Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

habr.com/ru/articles/865420/

#RAG #LLM #RAGA #deepeval

2024-12-10

[Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

habr.com/ru/articles/865212/

#deepeval #mlflow #rag #ragas #llm #arize_ai

2024-11-26

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей

Как убедиться, что ваша LLM не выдаст полную чепуху в самый неподходящий момент? Как проверить, что она действительно понимает контекст, а не просто генерирует красивые, но бессмысленные фразы? И самое главное — как сделать это эффективно, не тратя недели на ручную проверку тысяч ответов? Давайте разберёмся!

habr.com/ru/articles/853038/

#LLM_тестирование #LangSmith #GEval #DeepEval #AI_метрики #LLM

2024-11-07

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

2024-10-24

[Перевод] Оценка LLM: метрики, фреймворки и лучшие практики

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это». Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям. В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках. Что такое оценка LLM? Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами. Зачем вам нужно оценивать LLM? Все просто: чтобы убедиться, что модель соответствует задаче и ее требованиям. Оценка LLM гарантирует, что она понимает и точно реагирует, правильно обрабатывает различные типы информации и общается безопасным, понятным и эффективным способом. Оценка LLM позволяет нам точно настроить модель на основе реальной обратной связи, улучшая ее производительность и надежность. Проводя тщательные оценки, мы гарантируем, что LLM полностью может удовлетворять потребности своих пользователей, будь то ответы на вопросы, предоставление рекомендаций или создание контента.

habr.com/ru/articles/852046/

#LLM #BLEU_Score #TruthfulQA #meteor #BERTScore #SuperAnnotate #Amazon_Bedrock #Nvidia_Nemo #LangSmith #deepeval

2024-09-30

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

Mateusz Lapsa-Malawskimunhitsu@fosstodon.org
2024-05-23

I'm playing with G-Eval to test the LLM outputs using LLM. Sounds very meta, but there is logic to it. And it roughly works until it doesn't.
How am I supposed to reason with test result explanation:
"the actual output's prompt is in Polish which mismatches the language-prompt specified as Polish, aligning correctly"
???
#llm #gpt #deepeval

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst