Naujas AI kodavimo iššūkis atskleidė savo pirmąjį nugalėtoją ir nustatė naują juostą AI varomoms programinės įrangos inžinieriams.

Trečiadienį 17 val. PT, ne pelno siekiantis „Laude“ institutas paskelbė pirmąjį „K Prize“ laimėtoją, daugialypį AI kodavimo iššūkį, kurį „Databricks“ paskelbė ir „Perplexity“ įkūrėjas Andy Konwinski. Laimėtojas buvo Brazilijos raginimo inžinierius, vardu Eduardo Rocha de Andrade, kuris už prizą gaus 50 000 USD. Tačiau labiau stebina nei pergalė buvo jo galutinis rezultatas: jis laimėjo teisingais atsakymais tik 7,5% testo klausimų.

„Mes džiaugiamės, kad pastatėme etaloną, kuris iš tikrųjų yra sunkus“, – sakė Konwinski. „Lyginamieji turėtų būti sunkūs, jei jie bus svarbūs“, – tęsė jis ir pridūrė: „Balai būtų kitokie, jei„ Big Labs “būtų įvestos su savo didžiausiais modeliais. Bet tai yra esmė. K premija yra neprisijungus prie riboto skaičiavimo, todėl jis palaiko mažesnius ir atvirus modelius. Man tai patinka. Tai lygiaverčiai žaidimo sąlygos.“.

„Konwinski“ pažadėjo 1 mln. USD pirmajam atvirojo kodo modeliui, kuris bandyme gali surinkti aukštesnį nei 90%.

Panašiai kaip gerai žinoma „SWE-Bench“ sistema, „K Prize Tests“ modeliai prieš „GitHub“ vėliavos problemas yra išbandymas, kaip gerai modeliai gali spręsti realaus pasaulio programavimo problemas. Tačiau nors SWE-Benchas yra pagrįstas fiksuotu problemų rinkiniu, su kuriuo modeliai gali treniruotis, K premija yra sukurta kaip „SWE-Bench“ be užkrėtimo versija, naudojant nustatytą įėjimo sistemą, kad būtų galima saugoti bet kokius etaloninius mokymus. Pirmajame ture modeliai turėjo būti atlikti iki kovo 12 d. „K“ premijos organizatoriai po šios datos pažymėjo tik „K“ premijos organizatorius.

7,5% aukščiausio lygio balas yra ryškus kontrastas su pačiu „SWE-Bench“, o tai šiuo metu rodo 75% aukščiausią rezultatą dėl lengvesnio „patikrinto“ testo ir 34% pagal sunkesnį „pilną“ testą. Konwinski vis dar nėra tikras, ar skirtumai atsiranda dėl užteršimo SWE-Bench, ar tik iššūkis surinkti naujus „GitHub“ klausimus, tačiau jis tikisi, kad K prizo projektas netrukus atsakys į klausimą.

„Kai gausime daugiau šio dalyko, turėsime geresnę prasmę“, – sakė jis „TechCrunch“, „nes mes tikimės, kad žmonės prisitaikys prie konkuruojančių dėl to kas kelis mėnesius“.

„TechCrunch“ renginys

San Franciskas
|
2025 m. Spalio 27–29 d

Tai gali atrodyti keista vieta, kuriai trūksta, atsižvelgiant į platų AI kodavimo priemonių spektrą, jau viešai prieinamą, tačiau, kai etalonai tampa per lengvi, daugelis kritikų mato, kad tokie projektai kaip K premija yra būtinas žingsnis siekiant išspręsti AI augančią vertinimo problemą.

„Aš gana labai stengiuosi kurti naujus esamų etalonų testus“, – sako Princetono tyrėjas Sayashas Kapooras, kuris neseniai pateiktame dokumente pateikė panašią idėją. „Be tokių eksperimentų mes iš tikrųjų negalime pasakyti, ar problema yra užterštumas, ar net tiesiog nukreipti į SWE-bencho lyderių lentelę su žmogumi.“

„Konwinski“ tai yra ne tik geresnis etalonas, bet ir atviras iššūkis likusiai pramonei. „Jei klausote hipo, panašu, kad turėtume pamatyti AI gydytojus ir AI teisininkus bei AI programinės įrangos inžinierius, ir tai tiesiog netiesa“, – sako jis. „Jei mes net negalime gauti daugiau nei 10 proc. SWE-Bench be užteršimo, tai yra man realybės patikrinimas“.

Nuoroda į informacijos šaltinį