„Anthropic“ generalinis direktorius nori atidaryti juodąją AI modelių dėžę iki 2027 m.
„Anthropic“ generalinis direktorius Dario Amodei paskelbė esė ketvirtadienį, kuriame pabrėžiama, kaip mažai tyrėjų supranta apie vidinį pasaulio pirmaujančių AI modelių veikimą. Norėdami tai išspręsti, „Amodei“ nustatė ambicingą „Anthropic“ tikslą, kad iki 2027 m. Patikimai aptiktų daugumą AI modelio problemų.
Amodei pripažįsta būsimą iššūkį. „Aiškumo skubumas“ generalinis direktorius sako, kad „Anthropic“ padarė ankstyvą proveržį sekdamas, kaip modeliai patenka į savo atsakymus, tačiau pabrėžia, kad norint iššifruoti šias sistemas reikia daug daugiau tyrimų, kai jos tampa galingesnės.
„Man labai rūpi diegti tokias sistemas, nesuteikiant geresnio aiškinamumo“, – rašė Amodei rašinyje. „Šios sistemos bus absoliučiai pagrindinės ekonomikos, technologijos ir nacionalinio saugumo pagrindai ir galės turėti tiek daug autonomijos, kad manau, kad žmonijai iš esmės nepriimtina, kad jie visiškai nežino, kaip jie veikia.“
„Anthropic“ yra viena iš novatoriškų kompanijų, turinčių mechanistinį aiškinamumą, lauką, kuria siekiama atidaryti juodą AI modelių dėžę ir suprasti, kodėl jie priima sprendimus, kuriuos jie priims. Nepaisant greito technologijų pramonės AI modelių pagerinimo, mes vis dar turime palyginti mažai supratimo, kaip šios sistemos priima sprendimus.
Pavyzdžiui, „Openai“ neseniai pristatė naujus AI modelius, O3 ir O4-MINI, kurie geriau atlieka kai kurias užduotis, bet taip pat haliucinuoja ne tik daugiau nei kiti jo modeliai. Bendrovė nežino, kodėl tai vyksta.
„Kai generatyvinė AI sistema ką nors daro, pavyzdžiui, apibendrina finansinį dokumentą, mes net neįsivaizduojame konkretaus ar tikslaus lygmens, kodėl ji priima pasirinkimus – kodėl ji pasirenka tam tikrus žodžius prieš kitus arba kodėl retkarčiais daro klaidą, nepaisant to, kad paprastai būna tikslus“, – rašė Amodei rašinyje.
„Anthropic“ įkūrėjas Chrisas Olahas sako, kad AI modeliai yra „auginami daugiau nei jie yra sukurti“,-rašinyje pažymi Amodei. Kitaip tariant, AI tyrėjai rado būdų, kaip pagerinti AI modelio intelektą, tačiau jie nelabai žino, kodėl.
Esė Amodei sako, kad gali būti pavojinga pasiekti AGI arba, kaip jis vadina, „genijaus šalis duomenų centre“, nesuprantant, kaip šie modeliai veikia. Ankstesniame rašinyje „Amodei“ teigė, kad technologijų pramonė gali pasiekti tokį etapą iki 2026 m. Arba 2027 m., Tačiau mano, kad mes daug toliau suprantame šiuos AI modelius.
Ilgainiui Amodei sako, kad „Anthropic“ iš esmės norėtų atlikti moderniausių AI modelių „smegenų nuskaitymus“ arba „MRT“. Jis sako, kad šie patikrinimai padėtų nustatyti įvairius AI modelių klausimus, įskaitant jų tendencijas meluoti, ieškoti galios ar kitokio silpnumo. Jis pridūrė, kad tai gali prireikti nuo penkerių iki dešimties metų, tačiau šios priemonės reikės išbandyti ir diegti „Anthropic“ ateities AI modelius.
„Anthropic“ padarė keletą tyrimų proveržį, kuris leido jam geriau suprasti, kaip veikia jo AI modeliai. Pvz., Bendrovė neseniai rado būdų, kaip atsekti PG modelio mąstymo kelius, ką įmonė vadina, grandinėmis. Antropikas nustatė vieną grandinę, kuri padeda PG modeliams suprasti, kurie JAV miestai yra JAV. Bendrovė rado tik keletą iš šių grandinių, tačiau vertinimu, AI modeliuose yra milijonai.
„Anthropic“ investavo į patį aiškinamumo tyrimus ir neseniai pirmą kartą investavo į startuolį, siekdamas aiškinamumo. Esė Amodei paragino „Openai“ ir „Google Deepmind“ padidinti savo tyrimų pastangas šioje srityje.
„Amodei“ ragina vyriausybes primesti „lengvos lietaus“ taisykles, kad būtų skatinami aiškinamumo tyrimai, pavyzdžiui, reikalavimai įmonėms atskleisti savo saugos ir saugumo praktiką. Esė „Amodei“ taip pat sako, kad JAV turėtų skirti lustų eksporto kontrolę į Kiniją, kad sumažintų nekontroliuojamos pasaulinės AI rasės tikimybę.
„Anthropic“ visada išsiskyrė iš „Openai“ ir „Google“, kad jis sutelktų dėmesį į saugumą. Nors kitos technologijų kompanijos pasitraukė į prieštaringai vertinamą Kalifornijos AI saugos įstatymo projektą „SB 1047“, „Anthropic“ paskelbė kuklią paramą ir rekomendacijas už įstatymo projektą, kuris būtų nustatęs saugos ataskaitų teikimo standartus pasienio AI modelio kūrėjams.
Atrodo, kad šiuo atveju „Anthropic“ reikalauja visoje pramonės pastangose geriau suprasti AI modelius, o ne tik didinti savo galimybes.

