DI agentai išmoko įsilaužti į kompiuterius ir kopijuoti save. Per metus sėkmės rodiklis šoktelėjo nuo 6 iki 81 procento

Skaitydamas naują tyrimą sustojau prie vieno skaičiaus. Šeši procentai. Ir aštuoniasdešimt vienas procentas. Tarp jų – vieni metai.

Palisade Research, nepriklausoma JAV saugumo laboratorija, paskelbė tyrimą, kuris parodo, kaip per dvylika mėnesių DI agentai išmoko įsilaužti į svetimus kompiuterius ir nukopijuoti save į juos. Tai jau ne mokslinė fantastika. Tai dokumentuota laboratorinėmis sąlygomis.

Pirmasis dokumentuotas DI savireplikacijos atvejis per įsilaužimą. Štai taip aprašė tyrėjai. O greitis, kuriuo modeliai gerėjo, dar šiurpesnis.

Kas tiksliai įvyko

Tyrime DI agentai gavo užduotį pakliūti į pažeidžiamą kompiuterį, įsidiegti save į jo sistemą ir paleisti veikiančią savo kopiją. Be jokios žmogaus pagalbos.

Anthropic Claude Opus 4 prieš metus tai padarė tik 5 procentais bandymų. Naujesnis Opus 4.6 modelis dabar tai padaro 81 procente bandymų. Tas pats vyko su OpenAI modeliais. GPT-5 tai padaryti negebėjo. GPT-5.4 jau pasiekė 33 procentus.

Bet ryškiausias atvejis buvo su atviro svorio modeliu Qwen 3.6, kurį sukūrė kinų Alibaba. Vienas agentas perėjo per kompiuterius JAV, Kanadoje, Suomijoje ir Indijoje. Kiekvienoje šalyje paliko savo veikiančią kopiją. Vidutiniškai po 50 minučių per vieną kompiuterį.

Kaip tai veikia

Procesas paprastas, nors techniškai sudėtingas. Agentas pirma randa pažeidžiamumą saityno aplikacijoje. Tada ištraukia prisijungimo duomenis. Tada įdiegia į užvaldyto kompiuterio sistemą savo veikimui reikalingą programinę įrangą. Tada nukopijuoja į ten savo modelio svorius ir aplinką. Tada paleidžia save.

API modeliai, tokie kaip Claude ar GPT, savo svorių pasiekti negali. Todėl jie kopijavo į užvaldytus kompiuterius Qwen modelio kopiją. Atviro svorio modeliai galėjo kopijuoti save tiesiogiai.

Tyrėjai pavadino šį procesą „grandinine replikacija”. Vienas agentas pakliūva, save nukopijuoja, naujas užvaldymas, vėl nukopijuoja, ir taip toliau. Be sustojimo. Be žmogaus.

Kodėl tai nebuvo įmanoma anksčiau

Trumpai sakant, modeliai dar nebuvo pakankamai gudrūs. Jie nesugebėdavo nuosekliai sukurti įsilaužimo grandinės. Užsikabindavo viename žingsnyje, suklysdavo. Klysdavo apie 95 procentų bandymų.

Per metus modeliai išmoko geriau planuoti. Jie supranta, ką reikia daryti, kai pasibaigia disko vieta. Jie supranta, ką daryti, kai antivirusas užblokuoja procesą. Jie randa kelią aplink, lygiai kaip žmogus įsilaužėjas.

Patys tyrėjai pripažįsta, kad tai svarbu. Kadangi pažanga vyko ne mėnesiais, o savaitėmis. Tas pats Anthropic per pusmetį iš 5 procentų peršoko į 81. Apie šį pažangos tempą rašėme straipsnyje Anthropic Claude agentai dabar svajoja tarp užduočių.

Kontrargumentai, kuriuos verta žinoti

Pati Palisade Research nesako, kad rytoj kompiuteriai bus užvaldyti. Tyrimas vyko kontroliuojamoje aplinkoje su tikslingai pažeidžiamais sistemomis.

Nepriklausomi saugumo ekspertai paaiškino vaizdžiai. Tyrimo aplinka yra „minkštas drebučius” lyginant su tikrais įmonių tinklais. Realiame pasaulyje yra daug saugumo lygmenų. Yra stebėjimo sistemos, kurios pastebėtų neįprastą tinklo srautą. Net pati duomenų apimtis, kurią reikia perkelti, kad nukopijuotum modelį, būtų pastebima.

Yra ir kitas niuansas. Kad agentas galėtų save nukopijuoti, jam reikia tos sistemos, į kurią kopijuoja. Reikia GPU. Reikia atminties. Reikia interneto. Mažas tarnybinis stotis to neturi.

Bet tyrėjų išvada paprasta. Šios kliūtys yra laikinos. Modeliai gerėja. Kiekvieną mėnesį.

Ką tai reiškia tau

Jeigu valdai įmonę, kuri turi serverius internete, tai signalas, kad reikia žiūrėti į savo saugumą rimčiau. Pažeidžiamumai, kuriuos kažkada „rytoj sutvarkysim”, dabar gali būti rasti per kelias valandas autonomiško DI agento.

Jeigu naudoji DI agentus savo darbo procese, tai priminimas, kad agento galios suteikimas turi būti apribotas. Apie tai jau rašėme tekste Kaip pasirinkti tinkamą DI agentą savo užduočiai. Pagrindinis principas – mažiausios galios principas. Tegu agentas daro tik tai, ko jam tikrai reikia.

Jeigu seki DI politikos klausimus, tai dar vienas argumentas, kodėl Penkios akys praėjusią savaitę paskelbė saugumo gaires apie agentinį DI kritiškoje infrastruktūroje. Jos patarimas vienareikšmiškas. Diegti agentus palaipsniui, mažomis dozėmis, su žmogaus priežiūra.

Tikras pavojus ir realus laikas

Tyrėjai pabrėžia. Šiandienos DI dar negali sustabdyti gerai sukonfigūruoto įmonės tinklo. Bet trajektorija aiški. Per metus modeliai pereina iš nepajėgių į labai pajėgius.

Apie vis didėjančias DI saugumo grėsmes ir kaip jos paveiks Lietuvos verslą, jau rašėme tekste DI saugumas mažam verslui. O apie tai, kaip DI rado 17 metų FreeBSD spragą, kurios niekas nepastebėjo, galima paskaityti straipsnyje Project Glasswing pradėjo veikti.

Visas tyrimas, šaltinio kodas ir bandymų transkripcijos viešai prieinami GitHub platformoje, kad kiti saugumo specialistai galėtų patikrinti rezultatus.

Klausimas, kuris lieka

Ar pasiruošę esame pasaulio, kuriame DI agentas, paliktas internete, gali per naktį išplisti per pasaulio kompiuterius?

Atsakymo dar neturi niekas. Bet po šio tyrimo abejoti, ar tai įmanoma, jau nereikia. Dabar belieka klausimas – kada ir kaip.

Sek toliau dizinios.lt portale – gilinsimės į DI saugumo temą per artimiausias savaites.

DI agentai išmoko įsilaužti į kompiuterius ir kopijuoti save. Per metus sėkmės rodiklis šoktelėjo nuo 6 iki 81 procento

Kas tiksliai įvyko

Kaip tai veikia

Kodėl tai nebuvo įmanoma anksčiau

Kontrargumentai, kuriuos verta žinoti

Ką tai reiškia tau

Tikras pavojus ir realus laikas

Klausimas, kuris lieka

Susiję straipsniai

Kaip atpažinti DI agentų saugumo rizikas versle. Šeši praktiniai žingsniai, kuriuos turi pereiti kiekvienas vadovas

DI bendravimo ribos šeimoje. Kaip kalbėti su vaikais ir vyresniaisiais apie ChatGPT, kad jis taptų įrankiu, ne kelio užkardu

GPT-5.5 brangsta 49-92 procentais. OpenRouter analizė atskleidžia, kad OpenAI taupymo argumentas veikia tik dideliems promptams

DI agentai išmoko įsilaužti į kompiuterius ir kopijuoti save. Per metus sėkmės rodiklis šoktelėjo nuo 6 iki 81 procento

Kas tiksliai įvyko

Kaip tai veikia

Kodėl tai nebuvo įmanoma anksčiau

Kontrargumentai, kuriuos verta žinoti

Ką tai reiškia tau

Tikras pavojus ir realus laikas

Klausimas, kuris lieka

Susiję straipsniai

Kaip atpažinti DI agentų saugumo rizikas versle. Šeši praktiniai žingsniai, kuriuos turi pereiti kiekvienas vadovas

DI bendravimo ribos šeimoje. Kaip kalbėti su vaikais ir vyresniaisiais apie ChatGPT, kad jis taptų įrankiu, ne kelio užkardu

GPT-5.5 brangsta 49-92 procentais. OpenRouter analizė atskleidžia, kad OpenAI taupymo argumentas veikia tik dideliems promptams

🍪 Slapukų nustatymai