#moverscore

2025-01-16

[Перевод] Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM. В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы: Что такое метрики оценки LLM , как их можно использовать для оценки систем LLM , а также распространенные ошибки и что делает метрики отличными. Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным. Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval ( GitHub: DeepEval ).

habr.com/ru/articles/873332/

#llm #rag #BLEU #ROUGE #METEOR #GEval #Prometheus #GPT_OpenAI #bertscore #moverscore

2024-11-07

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst