Aukštasis moksleivis sukūrė svetainę, leidžiančią iššūkį AI modeliams „Minecraft Build-Off“
Kadangi įprasti AI lyginamosios analizės metodai pasirodo netinkami, AI statytojai kreipiasi į kūrybingesnius būdus, kaip įvertinti generatyvinių AI modelių galimybes. Vienai kūrėjų grupei tai yra „Minecraft“, „Microsoft“ priklausantis „Sandbox“ statybos žaidimas.
Svetainė „Minecraft Benchmark“ (arba MC-Bench) buvo sukurta bendradarbiaujant su PIT AI modeliais vienas prieš kitą, kai iššūkiai prieš galvą reagavo į raginimus su „Minecraft Creations“. Vartotojai gali balsuoti dėl to, kuris modelis atliko geresnį darbą, ir tik po balsavimo jie mato, kurią AI sukūrė kiekvienas „Minecraft“.
Adi Singhui, 12-os klasės klasei, pradėjęs „MC-Bench“, „Minecraft“ vertė nėra tiek pat paties žaidimo, kiek pažinimas, kurį žmonės turi su juo-galų gale tai yra visų laikų geriausiai parduodamas vaizdo žaidimas. Net žmonėms, kurie nežaidė žaidimo, vis tiek įmanoma įvertinti, kuris blokuotas ananasų vaizdas yra geriau įgyvendinamas.
„„ Minecraft “leidžia žmonėms daug lengviau pamatyti pažangą (iš AI plėtros)“, – sakė Singhas „TechCrunch“. „Žmonės yra įpratę minecraft, įpratę prie išvaizdos ir vibe.“
Šiuo metu „MC-Bench“ įvardija aštuonis žmones kaip savanorių bendraautorius. „Anthropic“, „Google“, „Openai“ ir „Alibaba“ subsidijavo projekto naudojimą savo produktų naudojimui etaloniniams raginimams vykdyti, kiekvienoje MC-Bencho svetainėje, tačiau bendrovės nėra kitaip susijusios.
„Šiuo metu mes tik darome paprastus ryšius, kad apmąstytume, kaip toli esame iš GPT-3 ERA, tačiau (mes) galėjome pamatyti save pagal šiuos ilgesnės formos planus ir į tikslą orientuotos užduotys“,-sakė Singhas. „Žaidimai gali būti tiesiog vidutinis agento samprotavimui, kuris yra saugesnis nei realiame gyvenime ir labiau kontroliuojami bandymo tikslams, todėl, mano akimis, tai tapa idealiau“.
Kiti žaidimai, tokie kaip „Pokémon Red“, „Street Fighter“ ir „Grectionary“, buvo naudojami kaip eksperimentiniai AI etalonai, iš dalies todėl, kad lyginamosios analizės AI menas yra nepaprastai sudėtingas.
Tyrėjai dažnai tikrina standartizuotų vertinimų AI modelius, tačiau daugelis šių testų suteikia AI pranašumą namų lauke. Dėl to, kaip jie yra mokomi, modeliai yra natūraliai talentingi tam tikrose, siauruose problemų sprendimo būduose, ypač problemų sprendimą, kuriam reikia įsiminti ar pagrindinį ekstrapoliaciją.
Paprasčiau tariant, sunku išsiaiškinti, ką reiškia, kad „Openai“ GPT-4 gali pelnyti 88-ąjį procentilį LSAT, tačiau negali išsiaiškinti, kiek Rs yra žodyje „Braškės“. „Anthropic“ „Claude 3.7“ sonetas pasiekė 62,3% tikslumą standartizuotame programinės įrangos inžinerijos etalone, tačiau groti „Pokémon“ yra dar blogiau nei dauguma penkerių metų amžiaus.

„MC-Bench“ yra techniškai programavimo etalonas, nes modelių prašoma parašyti kodą, kad būtų sukurtas raginamas pastatymas, pavyzdžiui, „Frosty the Snowman“ ar „žavus atogrąžų paplūdimio namelis ant nesugadinto smėlio kranto“.
Tačiau daugumai „MC-Bench“ vartotojų lengviau įvertinti, ar sniego senis atrodo geriau, nei įsigilinti į kodą, o tai suteikia projektui platesnį patrauklumą-taigi ir galimybė surinkti daugiau duomenų apie tai, kurie modeliai nuosekliai vertina geriau.
Be abejo, tai, ar šie balai yra labai naudingi PG, yra diskutuojama. Vis dėlto Singhas tvirtina, kad jie yra stiprus signalas.
„Dabartinė lyderių lentelė gana glaudžiai atspindi mano paties patirtį, kai naudojate šiuos modelius, kurie nepanašūs į daugybę grynų teksto etalonų“, – teigė Singhas. „Galbūt (MC-Bench) įmonėms gali būti naudinga žinoti, ar jos eina teisinga linkme“.

