[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки
В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.
https://habr.com/ru/articles/855644/
#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse