,

Kas yra natūralaus kalbos apdorojimas (NLP) ir kodėl jis keičia viską

·


Kiekvieną kartą, kai klausi ChatGPT, rašai el. laišką su Gmail pagalba ar kalbini Siri, naudoji NLP. Net jei to nežinai.

NLP arba natūralaus kalbos apdorojimas (angliškai Natural Language Processing) yra dirbtinio intelekto sritis, kuri moko kompiuterius suprasti, interpretuoti ir generuoti žmogaus kalbą. Paprastai tariant, tai tiltas tarp žmogaus ir mašinos.

Kaip tai veikia paprastais žodžiais

Kompiuteris nemąsto kaip žmogus. Jis nemato žodžio „šuo” ir neįsivaizduoja keturkojo. Jis mato skaičius. Daug skaičių.

NLP sistema paverčia tekstą matematiniais vektoriais. Kiekvienas žodis gauna savo „koordinatę” daugiadimensinėje erdvėje. Panašūs žodžiai atsiduria arti vienas kito. „Šuo” yra arti „katė”, bet toli nuo „automobilis”.

Kai parašai „Koks oras šiandien Vilniuje?”, NLP sistema:

  • Atpažįsta, kad tai klausimas
  • Išskiria pagrindinius elementus: oras, šiandien, Vilnius
  • Supranta, kad nori sužinoti orų prognozę konkrečioje vietoje
  • Sugeneruoja atsakymą natūralia kalba

Visa tai įvyksta per milisekundes.

NLP istorija trumpai

Pirmi bandymai prasidėjo 1950-aisiais. Alan Turing uždavė klausimą „Ar mašina gali mąstyti?” ir sukūrė testą, kuris iki šiol naudojamas. 1966 metais atsirado ELIZA, pirmas chatbotas, kuris imitavo psichoterapeuto pokalbį. Primityviai, bet žmonės tikrai galvojo, kad kalba su tikru žmogumi.

Dešimtmečius NLP buvo lėtas ir netikslus. Taisyklėmis paremtos sistemos nuolat klysdavo, nes kalba per daug sudėtinga, kad ją aprašytum taisyklėmis.

Viskas pasikeitė su giluminiu mokymusi. 2017 metais Google tyrėjai publikavo straipsnį „Attention Is All You Need” ir pristatė Transformer architektūrą. Nuo to momento NLP šovė į kosmosą. ChatGPT, Claude, Gemini, visi šie modeliai stovi ant Transformer pamatų.

Kur NLP naudojamas kasdien

Turbūt naudoji NLP dešimtis kartų per dieną net nesusimąstydamas:

Paieška. Kai googlini, NLP supranta ką ieškai, net jei paklausiai neaiškiai. „Ta daina kur dainuoja apie lietų” ir Google randa.

Vertimas. Google Translate, DeepL ir kiti vertimo įrankiai yra grynos NLP sistemos. Dar prieš 5 metus vertimai buvo juokingi. Dabar jie stebėtinai geri.

DI asistentai. ChatGPT, Claude, Gemini. Visų jų pagrindas yra NLP. Jie supranta tavo klausimą ir generuoja atsakymą natūralia kalba.

El. paštas. Gmail siūlo atsakymų variantus. Outlook tikrina gramatiką. Spam filtrai atskiria svarbius laiškus nuo šlamšto. Viskas NLP.

Socialiniai tinklai. Kai Facebook ar Instagram tau rodo turinį, NLP analizuoja postų tekstą ir nustato, kas tau galėtų patikti.

NLP ir lietuvių kalba

Lietuvių kalba yra viena sudėtingiausių kalbų NLP sistemoms. Linksniuotės, galūnės, žodžių tvarkos laisvė. Anglų kalboje „the dog bites the man” turi vieną reikšmę. Lietuvių kalboje galima sakyti „šuo kanda žmogų”, „žmogų kanda šuo”, „kanda šuo žmogų” ir visos formos teisingos.

Todėl DI įrankiai lietuviškai vis dar veikia prasčiau nei angliškai. Bet spraga sparčiai mažėja. Ypač su didžiaisiais kalbos modeliais (LLM), kurie mokosi iš daugiakalbių duomenų rinkinių.

NLP ateitis

Dabartiniai NLP modeliai jau rašo tekstus, verčia kalbas, analizuoja sentimentą, atsakinėja į klausimus ir net programuoja. Bet tai tik pradžia.

Artimiausioje ateityje NLP taps dar geresnis suprasti kontekstą, sarkazmą, kultūrinius niuansus. Multimodalūs modeliai jau dabar jungia tekstą su vaizdu ir garsu. Tai reiškia, kad DI galės ne tik skaityti, bet ir „matyti” bei „girdėti” vienu metu.

Jei nori pradėti naudoti NLP praktiškai, DI promptų vadovas yra gera vieta startuoti. Kuo geriau moki formuluoti klausimus, tuo geresnį rezultatą gauni iš bet kurio NLP modelio.

O tu? Kada paskutinį kartą nustebino tai, kaip gerai kompiuteris suprato, ką norėjai pasakyti?