,

Kas yra tokenai ir kodėl jie lemia kiek mokėsi už DI

·


Kai rašai žinutę ChatGPT ar Claude, tu nematai, kaip ji keliauja. Tavo sakinys suskaidomas į mažus gabalėlius. Tuos gabalėlius DI vadina tokenais. Ir kiekvienas tokenas turi kainą.

Žodis „katė” yra vienas tokenas. Žodis „neįsivaizduojamas” gali būti trys ar keturi tokenai. Lietuviškas žodis „nebeprisikiškiakopūsteliaudavome”? Gal visas dešimt.

Kodėl tai svarbu? Nes DI paslaugos kainuoja pagal tokenus. Ne pagal žodžius. Ne pagal sakinius. Pagal tokenus.

Kaip veikia tokenizacija

DI modelis nemoka skaityti raidžių kaip tu. Jis „mato” teksto gabalus, kurie buvo dažni jo treniravimo duomenyse. Anglų kalboje dažni žodžiai dažnai yra vienas tokenas. Reti žodžiai skaidomi į dalis.

Lietuvių kalba čia pralaiminti pozicijoje. Mūsų žodžiai ilgesni, galūnės keičiasi, ir tokenizatoriai treniruoti daugiausia ant anglų kalbos. Rezultatas: tas pats sakinys lietuviškai „suvartoja” 30-50% daugiau tokenų nei angliškai.

Tai reiškia, kad lietuviams DI kainuoja brangiau. Ne dėl diskriminacijos. Dėl lingvistikos.

Kiek kainuoja tokenas

GPT-4o kainuoja apie 2,50 dolerio už milijoną įvesties tokenų ir 10 dolerių už milijoną išvesties. Claude Opus kainuoja 15/75 dolerių. ChatGPT vs Claude vs Gemini palyginimas rodo, kad kainų skirtumai dideli.

Vienas paprastas pokalbis su ChatGPT sunaudoja apie 500-2000 tokenų. Sudėtingas programavimo užduočių sprendimas gali pareikalauti 50 000-100 000 tokenų. Ir kiekvienas tokenas kainuoja.

Konteksto langas

Kai matai, kad modelis turi „1 mln. tokenų konteksto langą”, tai reiškia, kad jis gali „prisiminti” tiek informacijos vieno pokalbio metu. Didieji kalbos modeliai skiriasi ne tik kokybe, bet ir tuo, kiek tokenų jie gali apdoroti vienu metu.

Daugiau tokenų = daugiau konteksto = geresni atsakymai. Bet ir didesnė sąskaita.

Geras promptas ne tik gerina atsakymų kokybę. Jis taupo tokenus. Ir pinigus. Tai praktinis įgūdis, kurio vertė auga kiekvieną mėnesį.