Nereikia jaudintis, kad jūsų slapti ChatGPT pokalbiai buvo gauti dėl neseniai pranešto OpenAI sistemų pažeidimo. Pats įsilaužimas, nors ir kelia nerimą, atrodo paviršutiniškas, tačiau tai primena, kad dirbtinio intelekto įmonės per trumpą laiką tapo vienu sultingiausių įsilaužėlių taikinių.

„New York Times“ apie įsilaužimą pranešė išsamiau, kai buvęs „OpenAI“ darbuotojas Leopoldas Aschenbrenneris neseniai apie tai užsiminė podcast'e. Jis pavadino tai „dideliu saugumo incidentu“, tačiau neįvardinti įmonės šaltiniai „Times“ sakė, kad įsilaužėlis gavo prieigą tik prie darbuotojų diskusijų forumo. (Aš susisiekiau su OpenAI dėl patvirtinimo ir komentaro.)

Joks saugumo pažeidimas tikrai neturėtų būti traktuojamas kaip nereikšmingas, o vidinių OpenAI kūrimo pokalbių pasiklausymas tikrai turi savo vertę. Tačiau tai toli gražu ne įsilaužėlis gali pasiekti vidines sistemas, vykdomus modelius, slaptus planus ir pan.

Bet vis tiek tai turėtų mus išgąsdinti ir nebūtinai dėl Kinijos ar kitų priešų, kurie mus aplenks AI ginklavimosi varžybose, grėsmės. Paprastas faktas yra tas, kad šios dirbtinio intelekto įmonės tapo didžiulio kiekio labai vertingų duomenų saugotojomis.

Pakalbėkime apie trijų rūšių duomenis „OpenAI“ ir, kiek mažesniu mastu, apie kitas AI kompanijas, kurias sukūrė arba turi prieigą prie: aukštos kokybės mokymo duomenis, masines vartotojų sąveikas ir klientų duomenis.

Neaišku, kokius konkrečius mokymo duomenis jie turi, nes įmonės yra neįtikėtinai paslaptingos apie savo atsargas. Tačiau klaidinga manyti, kad tai tik didelės iškrapštytų žiniatinklio duomenų krūvos. Taip, jie naudoja žiniatinklio grandiklius arba duomenų rinkinius, tokius kaip „Pile“, tačiau tai milžiniška užduotis paversti tuos neapdorotus duomenis į kažką, ką būtų galima panaudoti apmokant tokį modelį kaip GPT-4o. Tam reikia daug žmonių darbo valandų – tai gali būti tik iš dalies automatizuota.

Kai kurie mašininio mokymosi inžinieriai spėliojo, kad iš visų faktorių, susijusių su didelio kalbos modelio (arba, galbūt, bet kurios transformatoriumi pagrįstos sistemos) kūrimu, svarbiausias yra duomenų rinkinio kokybė. Štai kodėl modelis, apmokytas „Twitter“ ir „Reddit“, niekada nebus toks iškalbingas, kaip tas, kuris buvo apmokytas apie kiekvieną paskelbtą praėjusio amžiaus darbą. (Ir tikriausiai kodėl OpenAI, kaip pranešama, savo mokymo duomenyse naudojo abejotinus teisėtus šaltinius, pvz., autorių teisių saugomas knygas, o praktikos jie teigia atsisakę.)

Taigi OpenAI sukurti mokymo duomenų rinkiniai yra nepaprastai vertingi konkurentams – nuo ​​kitų įmonių iki priešingų valstybių iki reguliavimo institucijų čia JAV. Ar FTC ar teismai nenorėtų tiksliai žinoti, kokie duomenys buvo naudojami ir ar OpenAI buvo teisingas tai?

Tačiau galbūt dar vertingesnis yra didžiulis OpenAI vartotojų duomenų kiekis – tikriausiai milijardai pokalbių su ChatGPT šimtais tūkstančių temų. Kaip kadaise paieškos duomenys buvo raktas į kolektyvinės žiniatinklio psichikos supratimą, „ChatGPT“ stebi populiacijos pulsą, kuris gali būti ne toks platus kaip „Google“ naudotojų visata, bet suteikia daug daugiau informacijos. (Jei nežinojote, jūsų pokalbiai bus naudojami mokymo duomenims, nebent atsisakėte.)

„Google“ atveju paieškų „oro kondicionieriai“ skaičius rodo, kad rinka šiek tiek įkaista. Tačiau tie vartotojai tada nekalba apie tai, ko jie nori, kiek pinigų yra pasirengę išleisti, kokie yra jų namai, kokių gamintojų jie nori vengti ir pan. Žinote, kad tai vertinga, nes pati „Google“ bando priversti savo vartotojus teikti būtent šią informaciją, paieškas pakeisdama AI sąveika!

Pagalvokite, kiek pokalbių žmonės turėjo su „ChatGPT“ ir kokia ta informacija naudinga ne tik AI kūrėjams, bet ir rinkodaros komandoms, konsultantams, analitikams… tai aukso kasykla.

Paskutinė duomenų kategorija yra bene didžiausios vertės atviroje rinkoje: kaip klientai iš tikrųjų naudoja dirbtinį intelektą, ir duomenis, kuriuos jie patys pateikia modeliams.

Šimtai didelių įmonių ir daugybė mažesnių įmonių naudoja tokius įrankius kaip „OpenAI“ ir „Anthropic“ API, kad galėtų atlikti vienodai įvairias užduotis. Ir tam, kad kalbos modelis būtų jiems naudingas, jis paprastai turi būti tiksliai sureguliuotas arba kitaip suteikti prieigą prie jų pačių vidinių duomenų bazių.

Tai gali būti kažkas tokio proziško, kaip seni biudžeto lapai ar personalo įrašai (pavyzdžiui, kad juos būtų lengviau ieškoti) arba toks pat vertingas kaip neišleistos programinės įrangos kodas. Tai, ką jie daro su AI galimybėmis (ir ar jie iš tikrųjų naudingi), yra jų reikalas, tačiau paprastas faktas yra tas, kad AI teikėjas turi privilegijuotą prieigą, kaip ir bet kuris kitas SaaS produktas.

Tai yra pramoninės paslaptys, ir AI įmonės staiga atsiduria daugelio jų centre. Šios pramonės šakos naujovė kelia ypatingą pavojų, nes AI procesai tiesiog dar nėra standartizuoti arba visiškai nesuprantami.

Kaip ir bet kuris SaaS teikėjas, dirbtinio intelekto įmonės puikiai sugeba užtikrinti standartinius pramonės standartus saugumo, privatumo, vietinių galimybių ir, apskritai, atsakingai teikti savo paslaugas. Neabejoju, kad OpenAI Fortune 500 klientų privačios duomenų bazės ir API skambučiai yra labai griežtai užrakinti! Jie neabejotinai turi žinoti apie riziką, susijusią su konfidencialių duomenų tvarkymu dirbtinio intelekto kontekste. (Tai, kad OpenAI nepranešė apie šią ataką, yra jų pasirinkimas, tačiau tai nekelia pasitikėjimo įmonei, kuriai to labai reikia.)

Tačiau gera saugos praktika nepakeičia vertės to, ką jie turi apsaugoti, ar to, kad piktybiški veikėjai ir įvairūs priešai veržiasi už durų, kad galėtų patekti. Saugumas nėra tik tinkamų nustatymų pasirinkimas ar programinės įrangos atnaujinimas. – nors, žinoma, svarbūs ir pagrindai. Tai nesibaigiantis katės ir pelės žaidimas, kurį, kaip ironiška, dabar įkrauna pats dirbtinis intelektas: agentai ir atakų automatai tiria kiekvieną šių įmonių atakos paviršių kampelį.

Nėra jokios priežasties panikuoti – įmonės, turinčios prieigą prie daug asmeninių ar komerciškai vertingų duomenų, daugelį metų susidūrė su panašia rizika ir ją valdė. Tačiau dirbtinio intelekto įmonės yra naujesnis, jaunesnis ir galbūt sultingesnis tikslas nei jūsų sodo veislės prastai sukonfigūruotas įmonės serveris arba neatsakingas duomenų tarpininkas. Netgi toks įsilaužimas, kaip aprašyta aukščiau, be jokių rimtų eksfiltracijų, apie kuriuos žinome, turėtų nerimauti visiems, kurie dirba su AI įmonėmis. Jie nupiešė taikinius ant nugaros. Nenustebkite, kai kas nors ar visi nušauna.



Source link