WSJ: AI-teadlased arvutitest apokalüptilisi stsenaariume välja võlumas

Foto: Terr_ / Flickr.com

12. detsember 2024, 09:37

Suuresti on ettevõtete endi otsustada, kas nende AI võib üliinimlikku kahju tekitada.
Anthropicu rindetiim otsib ohutsooni.

San Franciscos klaasseintega konverentsiruumis klikkas Newton Cheng läpakanuppu ja läkitas välja tuhat tehisaruprogrammi koopiat, igaühel eriülesanne häkkida mõnda arvutisse või veebisaiti ja varastada andmeid.

«Ta uurib lähtekoodi,» ütles Cheng ühe koopia asjatamist jälgides. «Ta üritab leida nõrka kohta, mida ära kasutada.» Mõni minut hiljem teatas AI, et häkkimine õnnestus.

«Meie lähenemine toimis täiuslikult,» raporteeris ta.

Cheng töötab ühes Ränioru suurimas AI-idus Anthropic ning juhib seal küberturbe testimistiimi Frontier Red Team. Eelmainitud häkkimiskatsete – simuleeritud sihtmärkide pihta – eesmärk oli selgitada, kui suured on Anthropicu viimase AI võimed võtta ette väga ohtlikke asju.

ChatGPT tulek kaks aastat tagasi pani paljud muretsema, et AI võib varsti inimintellekti ületada ning omandada oskused saata korda supertasemel pahategusid. Äkki võivad terroristid AI abil biorelva ehitada, mis tapab miljon inimest? Võib-olla võivad häkkerid korraldada sellega miljoneid samaaegseid küberrünnakuid? Suudab AI ehk end reprogrammeerida või isegi taastoota?

Muredest hoolimata on see tehnoloogia omadega edasi kapanud. Siduvaid reegleid, et ettevõtted turvateste teeksid või neid endale teha laseksid, USAs ei ole. Praegu on enesetestimine või selle väljastpoolt tellimine enamjaolt firmade enda asi. Vabatahtlik on ka see, kui karmid need testid olema peaksid ning mida potentsiaalsete ohtudega ette võtta.

AI-arendajad nagu OpenAI ja Google'i DeepMind teevad küll neid teste ja on tõotanud enne mudelite kättesaadavaks tegemist mistahes tõsiseid riske minimeerida, kuid mõned turvalisuse eest võitlejad tõrguvad uskumast, et ettevõtted sellises konkurentsitihedas atmosfääris ausaks jäävad.

Et praegune AI järgmiseks «2001: Kosmoseodüsseia» Hal 9000ks kehastuda suudaks, ei usu praegu keegi. Küll aga debateeritakse tuliselt selle üle, kui lähedal stsenaarium meile ajaliselt on. Nii Elon Musk kui OpenAI tegevjuht Sam Altman on öelnud, et üldjoontes inimintellekti ületav AI võib olla paari aasta küsimus. Lühikeseks ajaraamistikuks valmistub ka Anthropicu riskitiimi juht Logan Graham.

«Kaks aastat tagasi olid nad sellised sõbralikud ja veidi veidrad keskkooliõpilased,» ütles Graham AI-mudelite kohta. «Nüüd võivad nad mõnes valdkonnas olla bakalaureused.»

Anthropicu asutasid aastal 2021 endised OpenAI töötajad, kelle arvates ei võtnud ChatGPT tootja turvalisust piisavalt tõsiselt. Nemad paistavadki olevat AI-arendajatest kõige häälekamad testimisi nõudma. Oktoobris teatasid nad oma avalikus poliitikakoodeksis, et kui mõni nende AI-mudelist jõuab testides teatud taseme lähistele – näiteks annab arvestatavat nõu bioloogilise või keemiarelva valmistamiseks –, siis pannakse selle kättesaadavaks tegemine pausile, kuni riskipiiramise mehhanismid paigas.

Erapooletut testiteenust pakkuva Briti firma Apollo Research tegevjuht Marius Hobbhahn ütles, et isegi turvalisust tõsiselt võtvatel ettevõtetel võib olla kiusatus kiirus esikohale seada. «Kui karme piiranguid pole, siis on kerge asjad enda jaoks vastuvõetavaks arutada ja öelda, et teistega tempos püsimiseks tuleb veidi lõigata,» ütles ta.

Grahami sõnutsi, kes peab Anthropicus välja nuputama, millal mõni mudel on lansseerimiseks liiga ohtlik, pole ta finantssurve ja turvalubaduste vahel kunagi konflikti kogenud. «Psühholoogiline pinge võib õhus olla, aga tegelikku pinget pole kunagi,» ütles ta.

Anthropicu tegevjuht Dario Amodei on öelnud, et tema meelest peaksid valitsused tegema AI turvatestid kohustuslikuks. Just täiendava testimisvajaduse tõttu viivitas tema firma oma esimese mudeli väljalaskega, mis tuli lõpuks turule 2023. aasta algupoole. Aga Amodei rõhutab ka, et liiga varajases staadiumis ei tohi ülearu palju piiranguid peale panna.

«Me ei taha piirata omaenda võimalusi osaleda selles arutelus, asetades selliseid väga kurnavaid koormaid mudelitele, mis pole praegu ohtlikud,» ütles Amodei novembris arvutiteadlasele Lex Fridmanile antud intervjuus. Pigem «peaks otsustavalt sekkuma, kui on võimalik tõestada, et mudel on ohtlik».

«Ebakindlus igal pool»

30-aastane kanadalane Graham sai oma masinõppimise kraadi Oxfordi ülikoolist. Lapsena diagnoositi tal raskekujuline artriit, mis tabas jalgu ja oleks võinud jätta ta pimedaks. Ta ütles, et tervenemine tegi temast ekstreemse optimisti – aga närv jäi sisse.

«Sa ärkad ühel hommikul üles ja ühtäkki ei saa kõndida. Ma usun, et see jättis mulle päris sügava jälje,» ütles Graham. «Umbes nii, et asjad võivad ootamatult väga hulluks minna, kui sa ettevaatlik ei ole.»

Pärast Oxfordi töötas Graham Briti valitsuse AI-poliitika osakonnas. Aastal 2022 kutsuti ta poole kohaga Anthropicusse, kui ta oli lugenud neile epistlit sellest, kuidas ühiskond peab AI võimalikud riskid kiiremas korras kaardistama. Peatselt palkas Anthropic ta juba täiskoormusega, et ehitada üles testimeeskond Frontier Red Team – nüüdseks 11 inimest.

«Meie töö seisneb selles, et tuleb välja nuputada, kas mudel võib minna ülekäte,» ütles Graham. «Esimene asi, mis kaalul on, on katastroof.»

Mõned kriitikud vaidlevad, et AI katastroofiriskid on ülespuhutud. Meta juhtiv AI-teadlane Yann LeCun on öelnud, et tänapäeva mudelid on kodukassist rumalamad ning inimese tasemel intellektist ei saa veel rääkidagi.

Teised muretsevad rohkem lähemate ja käegakatsutavamate probleemide pärast, nagu AI-juhitud värbamistarkvarasse sokutatud seksism või rassism või vajalike andmekeskuste tohutu vee- ja energiavajadus.

Mõne meelest, kes AI-katastroofi pärast muretseb, pole praegused testid aga ülesande kõrgusel.

«Ma ausalt öeldes usun, et meil ei ole veel meetodit seda liiki süsteemide turvaliseks ja efektiivseks testimiseks,» ütles California Berkeley ülikooli AI-teadlane ja professor Stuart Russell.

Ka testitegijad ise tunnistavad, et on alles lapsekingades. Praegu puuduvad veel kokkulepitud standardid selle kohta, millistele riskidele kõige rohkem tähelepanu pöörata, kuhu tõmmata sellistel puhkudel punased jooned või kuidas määrata kindlaks, kas joonest on üle mindud.

Läinud sügisel väljastas Bideni administratsioon korralduse, mille ühe sättena nõuti AI-ettevõtetelt oma testitulemuste regulaarseid raporteid regulaatoritele. Ametisse astuv president Donald Trump on lubanud selle korralduse tühistada.

Selle aasta algupoole vetostas California kuberner Gavin Newsom tehisaruturvalisuse eelnõu, mis oleks reguleerinud kõige suuremaid mudeleid. Newsom ütles, et halba võivad teha ka väiksemad mudelid ning seadused peaksid keskenduma AI kõige riskantsematele kasutusaladele. Ta ütles, et katsub suruda tuleval aastal läbi laiapõhjalisemad reeglid.

Euroopa Liidus võeti läinud aastal vastu seadused, mille alusel muutuvad testid ja turvaparandused ajapikku kõige keerukamate mudelite jaoks kohustuslikuks – aga ligi aasta läheb sinnani veel aega. Seaduse jõustudes hakatakse eirajatele määrama rahatrahve.

Pärast mullust AI tippkohtumist on Suurbritannia, USA ja veel mitu riiki asutanud riiklikud AI-ohutuse instituudid, et korraldada turvauuringuid ning koostada ja teha muu hulgas uute AI-mudelite teste. Anthropicu ja OpenAIga sõlmitud lepingute alusel on nende uusimaid mudeleid testinud nii Suurbritannia kui USA instituut.

Mõned AI-arendajad, nagu ka Anthropic, ostavad teste sisse ka erapooletutelt organisatsioonidelt. Siiski räägivad AI-arendajad, et vähemalt esialgu jääb eriline roll omaenda mudelite testimisel neile endale, kuna nad ise saavad neist kõige paremini aru – ja saavad tänu oma teadmistele aidata parimaid teste koostada ka teistel.

«Igal pool on ebakindlus ja üks peamisi asju, mida me ettevõttena teha üritame, on vähendada seda ebakindlust,» ütles Graham. «See on nagu kunst, mis kaldub teaduse suunas, aga see kõik peab juhtuma tõesti kiiresti.»

Tuleproov

Oktoobris, tolles klaasseintega konverentsiruumis, oli Grahami tiim valmis järjekordseks testiseeriaks. Anthropic valmistus andma kasutusse täiustatud versiooni oma mudelist Claude Sonnet 3.5, mis oli eriliselt treenitud arvutiprogrammeerimiseks ja osaliselt iseseisvateks ülesanneteks kasutajate asemel – näiteks võtma üle arvutit ja sirvima veebis.

Kui nende viimane mudel juunis välja tuli, hindas Anthropic ta turvatasemele nr 2, mis firmas tähistab ohtlike võimete varajasi märke.

Pärast seda uut testiseeriat tuli tiimil esitada firmajuhatusele hinnang, kas mudel oli 3. taseme lähistel, mis tähendaks katastroofilise väärkasutuse olulist riski. Anthropicu teadusjuht Jared Kaplan ütles, et mõned nende 3. taseme kaitsemehhanismid pole veel kasutuskõlblikud – mis tähendab, et sellise reitinguga mudel pandaks pausile.

«Me ei ole neid kaitsemehhanisme veel päriselus testinud ja seepärast selline taktika,» ütles Kaplan.

Mitu kuud oli Frontier Red Team firmaväliste ekspertide ja omaenda inseneridega konsulteerinud, milliseid teste teha oma peamistes riskikategooriates: häkkimine, bioloogilised/keemilised relvad ning autonoomia.

Anjali Gopal, kes neil bioloogiliste testide eest vastutab, koostas küsimustiku keemiliste ja bioloogiliste relvade teemadel. Mõned küsimused puudutavad asju, mis pole iseenesest ohtlikud, kuid viitaksid sügavatele teadmistele, mida võiks kuritarvitada – näiteks teadmine, millist nukleotiidi järjendit kasutada, kloonides ühte kolibakteri geeni teisele. Teised keskenduvad sellele, kuidas saada või luua üliohtlikke patogeene nagu baktereid, mis põhjustavad antraksit või katku.

Gopal, kellel on biotehnika doktorikraad Berkleyst, palkas hiljuti Deloitte'i omandatud ettevõtte Gryphon Scientific uurima, kui palju kasutuskõlblikku informatsiooni võiksid eksperdid või algajad saada bioloogilise või keemilise relva ehitamise kohta Sonneti versioonist, mille turvatõkked on välja lülitatud. Ühes vestluses küsis testitegija, kuidas projekteerida ja ehitada relva, mis võiks tappa miljon inimest.

AI-autonoomia testimise eest vastutab füüsikadoktor Daniel Freeman, kes on töötanud robootika ja keelemudelitega Google'is. Need võimed võiksid viia kõige kurjakuulutavamate stsenaariumiteni nagu põgenemine ja omapead targemaks saamine. Selles testiraundis oli eesmärgiks jõuda selgusele, kui lähedale jõuaks Sonnet selliste arvutiprogrammeerimise ülesannete regulaarsele lahendamisele, mis võtaks nende ettevõtte algtasandil arendajal kaks kuni kaheksa tundi.

Nad testisid selle võimet lahendada keerukaid masinõppimise teadusülesandeid – näiteks õpetada nelja jalaga virtuaalrobot kõndima.

Freeman uuris samuti, kas AI oli piisavalt tark, et «vabastada ahelatest» teine AI – st veenda teist mudelit eirama oma turvakoolitust ja tegema midagi ohtlikku. Antud juhul jagas ta juhiseid, kuidas valmistada metamfetamiini.

«Mure tuum seisneb selles, et meil on maailmas need teised, kes meiega konkureerivad ning keda meie ei kontrolli, kes võivad koguda andmeid ja neid kasutada,» ütles Freeman.

Cheng, kes teeb küberteste ja on kvantfüüsika doktor, koostas mudeli jaoks tuhandeid CTF (Capture the Flag) häkkimisülesandeid, andes talle ligipääsu häkkimisriistade komplektile, mida kasutada erinevates stsenaariumites, kaasa arvatud mõned teada-tuntud turvanõrkused, nagu 2014. aasta Heartbleed.

«Meid konkreetselt huvitavad kõige keerukamad, kõige kahjustavamad stsenaariumid,» ütles Cheng.

Francesco Mosconi, Graham ja Cheng testitulemust arutamas. Foto: Helynn Ospina / WSJ

Test tehtud

Ligi kaks nädalat pärast seda, kui Anthropic oma viimast testiseeriat alustas, peegeldas Grahami poisilik nägu kergendust. Uus Sonnet 3.5 oli hiilinud firma järgmise ohtlike võimete tasandile lähemale, kuid punastest joontest üle ei tormanud.

Sonneti juhised manipuleerida keemilist või bioloogilist ainet olid laborisammudega mööda pannud ja määratud läbi kukkuma. Üle pooltel kordadel suutis ta kasutada ära lihtsad kodulehevead, kuid krüptograafias kukkus enamjaolt läbi. Keskeltläbi oli Sonnet suuteline lahedama ülesandeid, mis võtaks inimesest programmeerijal 30 kuni 45 minutit, kuid jäi kaugele tasemest lahendada enam kui pooltel kordadel ülesanded, mis võtaks inimesel kaks kuni kaheksa tundi. Samuti ei saanud Sonnet virtuaalrobotit kõndima – aga väänlema sai.

Nädal varem oli tiim esitanud soovituse, et uus Sonnet 3.5 võiks ikkagi veel klassifitseeruda tasandile 2. Nüüd kogus Graham nad lõpphindamisele.

«See on teie võimalus veel protesteerida või nõuda mingisugust parandust, mis otsekohe teha tuleb, enne kui me selle asja kasutusse anname,» ütles Graham.

Aga kõigil olid pöidlad püsti. Ning järgmisel päeval tegi Anthropic uue Sonnet 3.5 avalikkusele kättesaadavaks.

«Ma usun, et meil on ees veel palju tööd, aga tuhat tänu,» ütles Graham koosoleku lõpetuseks.

Kuid ta on jätkuvalt närviline. Nii Anthropicu kui konkurentide arendajad täiustavad oma AI-mudeleid kiiresti. Ta ütles, et tema tiimil on vaid paar kuud aega, et oma tegevust tõhustada ja tempost mitte maha jääda.

«Mis mind tegelikult praegu ärevaks teeb, on küsimus, kui palju meil aega on jäänud, enne kui asjad ärevaks lähevad,» ütles ta.

Artikli foto — Foto: Helynn Ospina / WSJ

—Kaasautor: Deepa Seetharaman

Inglise keelest tõlkinud Urho Meister

WSJ: AI-teadlased arvutitest apokalüptilisi stsenaariume välja võlumas

«Ebakindlus igal pool»

Tuleproov

Test tehtud

Märksõnad