,

DI proveržis sumažina energijos suvartojimą 100 kartų: Tufts universiteto mokslininkai rado sprendimą

·


Vakar rašėme, kad DI duomenų centrai sunaudoja daugiau elektros nei 30 šalių. Šiandien turime naujieną, kuri gali pradėti keisti šią situaciją.

Tufts universiteto mokslininkai sukūrė sistemą, kuri sumažina DI energijos suvartojimą 100 kartų. Ne 10%. Ne 50%. Šimtą kartų.

Kaip tai veikia

Dabartiniai DI modeliai veikia per brutalią jėgą. Jie bando visus įmanomus variantus, kol randa atsakymą. Tai efektyvu, bet energetiškai siaubinga.

Tufts komanda, vadovaujama Matthias Scheutz, sukūrė neuro-simbolinį DI, kuris sujungia neuroninius tinklus su simboliniu samprotavimu. Paprastai tariant: vietoj to, kad bandytų viską, sistema pirma logiškai galvoja, kokie variantai prasmingiausi, ir tik tada juos testuoja.

Tai panašu į tai, kaip galvoja žmogus. Tu neperrenki visų įmanomų ėjimų šachmatuose. Tu pirma supranti poziciją, tada svarstai kelis geriausius variantus.

Rezultatai

Tyrėjai testavo sistemą su Hanojaus bokštų užduotimi (klasikinis kompiuterių mokslo testas):

Energijos suvartojimas treniravimo metu sumažėjo iki 1% lyginant su tradiciniais metodais. Veikimo metu iki 5%. Treniravimo laikas nukrito nuo 36 valandų iki 34 minučių.

Ir svarbiausia: sėkmės rodiklis pakilo nuo 34% (standartinis metodas) iki 95%. Sistema ne tik efektyvesnė, bet ir tikslesnė.

Sudėtingesnėse, nematytose užduotyse sistema pasiekė 78%, kur tradiciniai modeliai žlugo visiškai.

Kodėl tai svarbu praktiškai

Jei ši technologija bus pritaikyta dideliems DI modeliams, pasekmės bus milžiniškos. Duomenų centrų energijos krizė galėtų būti sušvelninta. DI galėtų veikti mažesniuose įrenginiuose, gal net telefone, be debesies.

Tai atitiktų Google TurboQuant algoritmą, kuris jau sumažino atminties poreikį šešis kartus. Kartu šie proveržiai rodo, kad DI industrija pradeda rimtai galvoti apie efektyvumą, ne tik galią.

Bet yra „bet”

Tyrimas atliktas su specifine užduotimi (Hanojaus bokštai), ne su kalbos modeliais kaip ChatGPT ar Claude. Pereiti nuo akademinio tyrimo iki komercinės implementacijos gali užtrukti metus.

Deep learning paradigma dominuoja jau dešimtmetį. Pakeisti ją neuro-simboliniu požiūriu reikštų fundamentaliai pakeisti tai, kaip kuriami DI modeliai. Tai ne šiaip atnaujinimas, tai architektūros revoliucija.

Bet 100 kartų efektyvumo skirtumas yra argumentas, kurio sunku nepaisyti. Ypač kai serverių gamyba auga 30% per ketvirtį ir pasaulis negali pastatyti elektrinių taip greitai, kaip stato duomenų centrus.

Gal ateitis ne galingesniuose modeliuose, o protingesniuose.