#promptfoo

2024-11-07

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst