El Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) lanzó recientemente FlagEval Debate, la primera plataforma de debate china de gran modelo del mundo. Esta nueva plataforma tiene como objetivo proporcionar un nuevo método de medición para la evaluación de la capacidad de modelos de lenguaje grandes a través del mecanismo de competencia del debate de modelos. Es una extensión del servicio de evaluación de batalla de modelos de Intelligent Source FlagEval, campo de modelos grandes, y su objetivo es identificar las diferencias de capacidad entre modelos de lenguaje grandes.
Hay algunos problemas en las batallas de modelos grandes existentes, por ejemplo, los resultados de las batallas de modelos a menudo están empatados y es difícil distinguir las diferencias entre los modelos. El contenido de la prueba depende de la votación de los usuarios y requiere la participación de una gran cantidad de usuarios existentes; Los métodos de batalla carecen de interacción entre modelos. Para resolver estos problemas, el Instituto de Propiedad Intelectual adoptó la forma de un gran debate modelo para su evaluación.
Como actividad intelectual basada en el lenguaje, el debate puede reflejar el pensamiento lógico, la organización del lenguaje, el análisis de la información y las habilidades de procesamiento de los participantes. El debate sobre modelos puede demostrar el nivel de los modelos grandes en comprensión de información, integración de conocimientos, razonamiento lógico, generación de lenguaje y capacidades de diálogo, al tiempo que prueba su profundidad de procesamiento de información y adaptabilidad de migración en contextos complejos.
El Instituto de Investigación Zhiyuan descubrió que las batallas interactivas, como los debates, pueden resaltar las brechas entre modelos y calcular clasificaciones efectivas de modelos basadas en una pequeña cantidad de muestras de datos. Por lo tanto, lanzaron FlagEval Debate, una plataforma de debate china de gran modelo basada en pruebas públicas.
La plataforma admite dos modelos para llevar a cabo debates sobre temas de debate. Los temas de debate son seleccionados aleatoriamente por la plataforma. La base de datos de temas de debate se compone principalmente de temas de búsqueda candentes, expertos en evaluación y temas de debate ordenados por los principales expertos en debate. Todos los usuarios pueden juzgar cada debate en la plataforma para mejorar la experiencia del usuario.
Cada modelo de debate incluye 5 rondas de presentación de opiniones, y cada parte tiene una oportunidad. Para evitar la desviación causada por la posición de los cuadrados positivos y negativos, ambos modelos tendrán un cuadrado y un cuadrado negativo cada uno. Cada modelo grande compite en múltiples debates contra otros modelos, y la clasificación final del modelo se calcula en función de los puntos ganadores.
El concurso modelo de debate adopta dos métodos: prueba pública abierta y evaluación de expertos. El jurado de expertos está compuesto por jugadores y jueces de concursos de debate profesionales. Las audiencias de prueba públicas abiertas pueden apreciar y votar libremente.
El Instituto de Investigación Zhiyuan declaró que continuará explorando la ruta técnica y el valor de aplicación del debate sobre modelos, se adherirá a los principios de ciencia, autoridad, equidad y apertura, mejorará continuamente el sistema de evaluación de modelos grandes FlagEval y brindará nuevos conocimientos e ideas para La ecología de evaluación del modelo grande.
Sitio web oficial del Debate FlagEval:
https://flageval.baai.org/#/debate