Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания