Исследовательский институт Чжиюань запускает FlagEval Debate, первую в мире крупномасштабную платформу для дебатов по китайской модели

Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) недавно запустил FlagEval Debate, первую в мире китайскую дебатную платформу для крупных моделей. Эта новая платформа призвана предоставить новый метод измерения для оценки способностей больших языковых моделей посредством конкурентного механизма обсуждения моделей. Это расширение службы оценки боевых моделей Intelligent Source FlagEval, целью которой является выявление различий в возможностях между большими языковыми моделями.

В существующих битвах больших моделей есть некоторые проблемы. Например, результаты битв моделей часто являются одинаковыми, и трудно различить различия между моделями; тестовый контент зависит от голосования пользователей и требует участия большого количества существующих пользователей; В методах боя отсутствует взаимодействие между моделями. Чтобы решить эти проблемы, Институт интеллектуальной собственности принял форму больших модельных дебатов для оценки.

Как интеллектуальная деятельность, основанная на языке, дебаты могут отражать логическое мышление участников, языковую организацию, способности к анализу и обработке информации. Дебаты по моделям могут продемонстрировать уровень больших моделей в понимании информации, интеграции знаний, логическом рассуждении, языковой генерации и возможностях диалога, одновременно проверяя глубину обработки информации и адаптивность миграции в сложных контекстах.

Исследовательский институт Чжиюань обнаружил, что интерактивные сражения, такие как дебаты, могут выявить пробелы между моделями и рассчитать эффективный рейтинг моделей на основе небольшого количества выборок данных. Поэтому они запустили FlagEval Debate, китайскую платформу для дебатов с большими моделями, основанную на публичном тестировании.

Платформа поддерживает две модели проведения дебатов по темам дебатов. Темы дебатов выбираются платформой случайным образом. База данных тем дебатов в основном состоит из горячих тем поиска, экспертов по оценке и тем дебатов, заказанных ведущими экспертами по дебатам. Каждую дискуссию на платформе могут оценивать все пользователи, что повышает удобство работы пользователей.

Каждая модель дебатов включает в себя 5 раундов представления мнений, при этом каждая сторона имеет по одной возможности. Чтобы избежать отклонения, вызванного положением положительных и отрицательных квадратов, обе модели будут делать по одному квадрату и одному отрицательному квадрату каждая. Каждая крупная модель участвует в многочисленных дебатах с другими моделями, при этом окончательный рейтинг модели рассчитывается на основе выигранных очков.

В конкурсе модельных дебатов используются два метода: открытое публичное тестирование и экспертная оценка. Экспертное жюри состоит из игроков и судей профессиональных соревнований по дебатам. Аудитория открытого публичного тестирования может свободно оценивать и голосовать.

Научно-исследовательский институт Чжиюань заявил, что он продолжит изучать технический путь и прикладную ценность дебатов о моделях, придерживаться принципов науки, авторитета, справедливости и открытости, постоянно совершенствовать систему оценки больших моделей FlagEval, а также предоставлять новые идеи и идеи для экология оценки большой модели.

Официальный сайт FlagEval Debate:

https://flageval.baai.org/#/debate