Zhiyuan Research Institute lança FlagEval Debate, a primeira plataforma de debate de modelos chineses em grande escala do mundo

O Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou recentemente o FlagEval Debate, a primeira plataforma chinesa de debate de grandes modelos do mundo. Esta nova plataforma visa fornecer um novo método de medição para a avaliação da capacidade de grandes modelos de linguagem através do mecanismo de competição de debate de modelos. É uma extensão do serviço de avaliação de batalha de modelos de fonte inteligente FlagEval arena de modelos grandes, e seu objetivo é identificar as diferenças de capacidade entre grandes modelos de linguagem.

Existem alguns problemas nas grandes batalhas de modelos existentes. Por exemplo, os resultados das batalhas de modelos são frequentemente empatados e é difícil distinguir as diferenças entre os modelos de teste que dependem da votação do usuário e requerem a participação de um grande número de usuários existentes; os métodos de batalha carecem de interação entre os modelos. Para resolver esses problemas, o Instituto de Propriedade Intelectual adotou a forma de grande modelo de debate para avaliação.

Sendo uma actividade intelectual baseada na linguagem, o debate pode reflectir o pensamento lógico, a organização da linguagem, a análise da informação e as capacidades de processamento dos participantes. O debate de modelos pode demonstrar o nível de grandes modelos na compreensão da informação, integração do conhecimento, raciocínio lógico, geração de linguagem e capacidades de diálogo, ao mesmo tempo que testa a sua profundidade de processamento de informação e adaptabilidade à migração em contextos complexos.

O Instituto de Pesquisa Zhiyuan descobriu que batalhas interativas, como debates, podem destacar as lacunas entre os modelos e calcular classificações eficazes de modelos com base em um pequeno número de amostras de dados. Portanto, eles lançaram o FlagEval Debate, uma plataforma chinesa de debate de grande porte baseada em testes públicos.

A plataforma suporta dois modelos para conduzir debates em torno de tópicos de debate. Os tópicos de debate são selecionados aleatoriamente pela plataforma. O banco de dados de tópicos de debate é composto principalmente por tópicos de pesquisa populares, especialistas em avaliação e tópicos de debate ordenados pelos principais especialistas em debate. Cada debate pode ser julgado na plataforma por todos os usuários para melhorar a experiência do usuário.

Cada modelo de debate inclui 5 rodadas de apresentação de opinião, com cada lado tendo uma oportunidade. Para evitar o desvio causado pela posição dos quadrados positivos e negativos, ambos os modelos farão um quadrado e um quadrado negativo cada. Cada grande modelo compete em múltiplos debates contra outros modelos, com a classificação final do modelo calculada com base nos pontos ganhos.

A competição modelo de debate adota dois métodos: prova pública aberta e avaliação de especialistas. O júri especializado é composto por jogadores e juízes de competições de debate profissional. O público de testes públicos abertos pode apreciar e votar livremente.

O Instituto de Pesquisa Zhiyuan declarou que continuará a explorar o caminho técnico e o valor de aplicação do debate de modelos, aderirá aos princípios de ciência, autoridade, justiça e abertura, melhorará continuamente o sistema de avaliação de grandes modelos FlagEval e fornecerá novos insights e pensamentos para a ecologia de avaliação de grande modelo.

Site oficial do debate FlagEval:

https://flageval.baai.org/#/debate