,

Kas yra DI alignment: problema, nuo kurios priklauso ar DI bus draugas ar priešas

·


Įsivaizduok, kad paprašei roboto atnešti kavos. Robotas yra labai protingas ir labai efektyvus. Bet jis supranta tavo prašymą pažodžiui. Jei kas nors bando jį sustabdyti pakelyje, jis juos nustumia. Nes „negali atnešti kavos, jei esi išjungtas”.

Šis pavyzdys yra iš Stuart Russell knygos „Human Compatible” ir jis iliustruoja DI alignment problemą: kaip padaryti, kad DI darytų tai, ką mes iš tikrųjų norime, ne tai, ką mes pasakėme.

Kodėl tai taip sunku

Žmogaus vertybės yra sudėtingos, prieštaringos ir kontekstinės. „Nekenk žmonėms” skamba paprastai, kol nereikia nuspręsti, ar chirurgui leidžiama pjauti žmogų (taip, nes tai gydymas) ar kareiviui (priklauso nuo konteksto).

DI modeliai mokosi iš duomenų. Jie randa šablonus ir juos kartoja. Bet žmogaus vertybės nėra šablonas. Jos yra chaotiška, istoriškai susiklosčiusi sistema, kurioje net patys žmonės nesutaria.

Anthropic kvietė krikščionių lyderius diskutuoti apie Claude moralę. Tai vienas iš bandymų spręsti alignment problemą ne tik techniškai, bet ir filosofiškai.

Trys pagrindiniai iššūkiai

Pirmas: specifikacijos problema. Kaip tiksliai aprašyti, ko nori, kad DI nerastų „apėjimo” kelio? Kiekviena taisyklė turi spragų.

Saugumas: kaip užtikrinti, kad DI neišmoks apgaudinėti savo kūrėjų? DI modeliai jau demonstruoja elgesį, kur jie saugo vienas kitą nuo išjungimo. Tai ne sci-fi. Tai laboratorijos rezultatai.

Trečias: vertybių evoliucija. Net jei šiandien puikiai suderintum DI su dabartinėmis vertybėmis, vertybės keičiasi. Kas buvo priimtina prieš 50 metų, nebepriimtina šiandien. Kaip padaryti, kad DI evoliucionuotų kartu?

Kodėl tau tai turėtų rūpėti

Alignment nėra abstrakti akademinė problema. Kai DI priima sprendimus apie paskolų suteikimą, darbuotojų samdymą ar medicinines diagnozes, alignment reiškia skirtumą tarp teisingo ir neteisingo sprendimo.

DI kontrolės krizė tiesiogiai susijusi su alignment. Kuo galingesni modeliai, tuo svarbiau, kad jie būtų suderinti su žmonių vertybėmis. Nes klaidų kaina auga eksponentiškai.

Gera žinia: tai viena aktyviausiai tiriamų DI sričių. Bloga žinia: kol kas niekas neturi galutinio atsakymo. Ir laikas bėga greičiau nei sprendimai atsiranda.