Kas yra reinforcement learning: kaip DI mokosi iš savo klaidų
·

Vaikas liečia karštą puodą. Skaudą. Daugiau neliečia. Tai reinforcement learning paprasčiausia forma. DI mokosi lygiai taip pat – tik greičiau ir be nudegimų.
Reinforcement learning (RL) – pastiprinamasis mokymasis – yra vienas trijų pagrindinių mašininio mokymosi tipų. Ir būtent jis stovi už daugeliu įspūdingiausių DI pasiekimų.
Kaip tai veikia
Yra agentas (DI). Yra aplinka (žaidimas, simuliacija, realus pasaulis). Agentas atlieka veiksmą. Gauna atlygį arba baudą. Mokosi daryti tai, kas duoda atlygį.
Paprastas pavyzdys: DI mokosi žaisti šachmatais. Padaro ėjimą – jei laimėjo, gauna teigiamą signalą. Jei pralaimėjo – neigiamą. Po milijonų partijų tampa geresnis nei bet kuris žmogus.
Būtent taip AlphaGo nugalėjo pasaulio Go čempioną 2016 metais. Ne todėl, kad kažkas jį išmokė žaisti – jis pats išmoko.
Kur tai naudojama
Robotikoje – NVIDIA Newton fizikos variklis leidžia robotams mokytis virtualioje aplinkoje per RL. Robotas bando paimti objektą tūkstančius kartų, kol išmoksta.
Autonominiuose automobiliuose – Pony AI robotaxi naudoja RL sprendimams kelyje. DI modeliai, kuriais kalbamės, irgi naudoja RL variantą – RLHF (Reinforcement Learning from Human Feedback). Tai procesas, kuriame žmonės vertina DI atsakymus, ir modelis mokosi atsakinėti geriau.
DI alignment – visa sritis, kuri remiasi RL principais, kad DI veiktų pagal žmonių vertybes.
RL privalumai ir trūkumai
Privalumai: DI gali išmokti dalykų, kurių žmonės nemoka paaiškinti. Šachmatų ėjimai, kurių nė vienas žmogus niekada nebūtų sugalvojęs. Strategijos, kurios prieštarauja intuicijai, bet veikia.
Trūkumai: reikia labai daug bandymų. Labai daug. Kartais milijardų. Ir ne visada aišku, kodėl DI priėmė būtent tokį sprendimą.
Kodėl tau tai svarbu
Kai naudoji ChatGPT, Claude ar Gemini – jie visi buvo tobulinti naudojant RL. Kiekvienas „patinka” ir „nepatinka” mygtukas, kurį spaudai – tai reinforcement signalas, kuris padeda modeliui tobulėti.
DI terminų žodyne rasite daugiau panašių sąvokų. RL – viena svarbiausių.
DI mokosi iš klaidų. O ar tu?


