Zhiyuan Research Institute meluncurkan FlagEval Debate, platform debat model Tiongkok berskala besar pertama di dunia

Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) baru-baru ini meluncurkan FlagEval Debate, platform debat model besar Tiongkok pertama di dunia. Platform baru ini bertujuan untuk menyediakan metode pengukuran baru untuk evaluasi kemampuan model bahasa besar melalui mekanisme kompetisi debat model. Ini merupakan perpanjangan dari layanan evaluasi pertempuran model Sumber Cerdas FlagEval, dan tujuannya adalah untuk mengidentifikasi perbedaan kemampuan antara model bahasa besar.

Ada beberapa masalah dalam pertarungan model besar yang ada. Misalnya, hasil pertarungan model sering kali sama dan sulit untuk membedakan perbedaan antar model; metode pertempuran kurang interaksi antar model. Untuk mengatasi permasalahan tersebut, Intellectual Property Institute mengadopsi bentuk debat model besar untuk evaluasi.

Sebagai aktivitas intelektual berbasis bahasa, debat dapat mencerminkan pemikiran logis peserta, pengorganisasian bahasa, analisis informasi, dan kemampuan pemrosesan. Debat model dapat menunjukkan tingkat model besar dalam pemahaman informasi, integrasi pengetahuan, penalaran logis, kemampuan menghasilkan bahasa dan dialog, sekaligus menguji kedalaman pemrosesan informasi dan kemampuan beradaptasi migrasi dalam konteks yang kompleks.

Zhiyuan Research Institute menemukan bahwa pertarungan interaktif seperti debat dapat menyoroti kesenjangan antar model dan menghitung peringkat model yang efektif berdasarkan sejumlah kecil sampel data. Oleh karena itu, mereka meluncurkan FlagEval Debate, sebuah platform debat model besar Tiongkok berdasarkan pengujian publik.

Platform ini mendukung dua model untuk melakukan debat seputar topik debat. Topik debat dipilih secara acak oleh platform. Basis data topik debat sebagian besar terdiri dari topik pencarian hangat, pakar evaluasi, dan topik debat yang diurutkan oleh pakar debat terkemuka. Setiap debat dapat dinilai di platform oleh semua pengguna untuk meningkatkan pengalaman pengguna.

Setiap model debat mencakup 5 putaran penyampaian pendapat, dengan masing-masing pihak mempunyai satu kesempatan. Untuk menghindari penyimpangan yang disebabkan oleh posisi kotak positif dan negatif, kedua model akan melakukan masing-masing satu kotak dan satu kotak negatif. Setiap model besar berkompetisi dalam berbagai debat melawan model lainnya, dengan peringkat model akhir dihitung berdasarkan poin kemenangan.

Kompetisi debat model mengadopsi dua metode: pengujian publik terbuka dan evaluasi ahli. Juri ahli terdiri dari pemain dan juri dari kompetisi debat profesional. Audiens pengujian publik terbuka dapat dengan bebas mengapresiasi dan memilih.

Zhiyuan Research Institute menyatakan akan terus mengeksplorasi jalur teknis dan nilai penerapan perdebatan model, mematuhi prinsip-prinsip sains, otoritas, keadilan, dan keterbukaan, terus meningkatkan sistem evaluasi model besar FlagEval, dan memberikan wawasan dan pemikiran baru untuk ekologi evaluasi model besar.

Situs web resmi Debat FlagEval:

https://flageval.baai.org/#/debate