Эксперты критикуют краудсорсинговые бенчмарки в манипуляции по оценке ИИ-моделей
◯ AI-лаборатории, включая OpenAI, Google и Meta, используют краудсорсинг для оценки моделей
◯ Эмили Бендер из Университета Вашингтона указывает на недостатки подхода Chatbot Arena
◯ Асмелаш Тека Хадгу считает, что такие бенчмарки способствуют преувеличенным заявкам лабораторий
◯ В Meta была ситуация с моделью Llama 4 Maverick, которая оценивалась не объективно
◯ Кристин Глория подчеркивает, что оценка моделей должна включать вознаграждение для оценщиков
◯ Генеральный директор Gray Swan AI считает, что открытые бенчмарки не могут заменить частные оценки
◯ Чеховская модель LMArena стремится создать пространство для честной оценки AI
◯ В LMArena ужесточили политику для предотвращения недопонимания и манипуляций
◯ Участники LMArena используют платформу для получения прозрачной обратной связи
*Meta признана экстремистской организацией и запрещена на территории РФ
@EF9MERAИсточник