Pirmosios ir trečiųjų šalių „Openai“ O3 AI modelio pirmosios ir trečiųjų šalių etaloninių rezultatų neatitikimas kelia klausimus apie bendrovės skaidrumo ir modelio testavimo praktiką.

Kai gruodį „Openai“ atidengė O3, bendrovė teigė, kad modelis gali atsakyti šiek tiek daugiau nei ketvirtadalis klausimų „Frontiermath“ – sudėtingas matematikos problemų rinkinys. Šis rezultatas išplėšė varžybas-kitam geriausiam modeliui pavyko teisingai atsakyti tik apie 2% „Frontiermath“ problemų.

„Šiandien visi pasiūlymai ten turi mažiau nei 2% („ Frontiermath “)“, – „Openai“ vyriausiasis tyrimų pareigūnas Markas Chenas sakė tiesioginį transliaciją. „Mes matome (iš vidaus), kai O3 yra agresyvių bandymo laiko skaičiavimo nustatymuose, mes galime gauti daugiau nei 25 proc.“.

Kaip paaiškėja, šis skaičius greičiausiai buvo viršutinė riba, kurią pasiekė O3 versija, kurios skaičiavimas yra daugiau, nei praėjusią savaitę viešai paleista „Openai“.

„Frontiermath“ tyrimų institutas „Epoch AI“ penktadienį paskelbė savo nepriklausomų O3 etaloninių bandymų rezultatus. Epochas nustatė, kad O3 surinko maždaug 10%, gerokai žemiau „Openai“ aukščiausio lygio.

Tai nereiškia, kad Openai melavo, per se. Rezultatai, kuriuos bendrovė paskelbė gruodžio mėn. „Epoch“ taip pat pažymėjo, kad jos bandymų sąranka greičiausiai skiriasi nuo „Openai“ ir kad jo vertinimams buvo naudojamas atnaujintas „Frontiermath“ išleidimas.

„Skirtumas tarp mūsų rezultatų ir„ Openai “gali būti dėl to, kad„ Openai “vertina galingesniais vidiniais pastoliais, naudojant daugiau bandymo laiko (skaičiavimo) arba dėl to, kad tie rezultatai buvo vykdomi skirtinguose pasienio pogrupiuose (180 problemų„ FrontierMath-2024-11-26 “vs 290 problemų„ FrontierMath-2025-02-28-SPRIEVIV “)“,-rašė epochas.

Remiantis įrašu apie X iš ARC premijos fondo, organizacija, išbandžiusi O3 versiją prieš išleidžiamą versiją, viešasis O3 modelis „yra kitoks modelis (…), suderintas su pokalbių/produktų naudojimu“, patvirtina „Epoch“ ataskaitą.

„Visi išleisti„ O3 Compute “pakopos yra mažesnės už mūsų (etaloninio) versiją“, – rašė ARC premija. Paprastai galima tikėtis, kad didesni skaičiavimo pakopos pasieks geresnius etaloninius balus.

Praėjusią savaitę „Openai“ paties „Opena Zhou“, techninio personalo narė, teigė, kad „Livestream“ metu „O3“ gamyba yra „labiau optimizuotas realaus pasaulio naudojimo atvejams“ ir „Speed“, palyginti su O3 versija, demonstruojama gruodį. Dėl to jis gali parodyti „skirtumus“, – pridūrė jis.

„(W) padaryta (optimizavimas), kad (modelis) būtų ekonomiškesnis (ir) apskritai naudingesnis“, – teigė Zhou. „Mes vis dar tikimės, kad – vis dar galvojame, kad tai yra daug geresnis modelis (…), jums nereikės laukti tol, kol paprašysite atsakymo, kuris yra tikras dalykas su šiais (tipų) modeliais.“

Natūralu, kad tai, kad viešas O3 išleidimas nepatenka į „Openai“ bandymų pažadus, yra šiek tiek nemalonus taškas, nes bendrovės „O3-Mini“ ir „O4-Mini“ modeliai „Frontiermation“ pralenkia O3, o „Openai“ planuoja debiutuoti galingesniu O3 variantu, O3-PRO, per ateinančias savaites.

Tačiau dar vienas priminimas, kad AI etalonai geriausiai nėra vertinami pagal nominalią vertę – ypač kai šaltinis yra įmonė, turinti paslaugas parduoti.

Lyginamosios analizės „prieštaravimai“ tampa įprastu įvykiu AI pramonėje, nes pardavėjai lenktyniauja siekdami užfiksuoti antraštes ir „Mindshare“ su naujais modeliais.

Sausio mėn. Epochas buvo kritikuojamas už tai, kad laukė atskleisti finansavimą iš „Openai“, kol įmonė paskelbė O3. Daugelis akademikų, prisidėjusių prie „Frontiermath“, nebuvo informuoti apie „Openai“ dalyvavimą, kol jis nebuvo paviešintas.

Visai neseniai „Elon Musk“ XAI buvo apkaltintas paskelbdamas klaidinančius etalonų diagramas dėl naujausio AI modelio „Grok 3“. Tik šį mėnesį Meta prisipažino, kad pažymėjo etaloninius balus modelio versijai, kuri skyrėsi nuo tos, kurią įmonė suteikė prieinamą kūrėjams.

Atnaujinta 16:21 Ramiojo vandenyno: Pridėta Wenda Zhou, „Openai“ techninio personalo narės, komentarai iš tiesioginės transliacijos praėjusią savaitę.





Source link