Kaip gi leidžiasi DI?  

Dirbtinis intelektas (DI) remiasi labai paprastomis ir tuo pačiu pajėgiomis idėjomis. Tuo tarpu dabartinis požiūris į DI labiau panašus į fokusininko triuką nei į mokslą ar inžineriją: paimate dėžę, pilną dirbtinių neuronų su daugybe ryšių, pritaikote paprastą mokymosi algoritmą, pagrįstą kito žodžio numatymu, ir, jei jį pakankamai ilgai treniruojate, ji gali su jumis kalbėtis. Galite tuo stebėtis ar ginčytis, ar tai tikrai intelektas, tačiau negalite nesižavėti jo gebėjimais. O juk tai, ką darėte, taip paprasta (ir dėl to rezultatas atrodo neįtikėtinu). Štai tuo ir pasižymi mokymosi su atgaliniu klaidų skleidimu1) nepaprastas efektyvumas.

Tačiau idėja yra bendresnė ir susiveda į kažką, vadinamą „gradientiniu nusileidimu“ (gradient descent). Leidimasis nuo kalvos

Procedūra, kai žingsniai atliekami atsitiktine kryptimi ir priimami tik tie, kurie veda į viršų, paprastai vadinama kopimu į kalną. Taip garantuojamas „tam tikro“ maksimalaus rezultato (nebūtinai absoliutaus, bet tikrai kurio nors lokalaus) pasiekimas, nors tai gali ir užtrukti (tad nėra efektyvu). Įprastas būdas bandyti rasti globalų maksimumą yra tiesiog pradėti kopimą į kalną nuo daugybės atsitiktinių pradinių vietų. Vėlgi, tai nėra efektyvu ir tik labai tikėtina, kad bus gautas teisingas atsakymas, nors tikrasis globalus maksimumas gali būti ir praleistas (beje, taip veikia ir evoliucija, kai išlieka geriausieji!). Tai nėra tikslinga gerinimo programa, o aklas bet kokio atsitiktinio žingsnio, kuris jus nukelia į žemesnį išlikimo tikimybės tašką, atmetimas.

Neuroniniams tinklams galėtume panaudoti ir „kilimo į kalną“ variantą, tačiau tai užtruktų nepaprastai ilgai (kaip ir evoliucijos atveju). Tad naudojamas paprastas jo patobulinimas. Jei galima apskaičiuoti paviršiaus, ant kurio esate, nuolydį, galima rasti gerą judėjimo kryptį, pasirenkant kryptį, kuria aukštėjama sparčiausiai. Kitaip tariant, galite greičiau pasiekti kalvos viršūnę visada einant stačiausiu šlaitu iš esamos vietos. Tai yra gradientinis kilimas, tačiau kažkodėl jis vadinamas gradientiniu nusileidimu ieškant žemiausio taško.

Tai lėmė pirmąją „DI žiemą“, kai visi buvo priversti atsisakyti neuroninių tinklų, nes niekas nebuvo pasirengęs finansuoti tokių kvailų tyrimų ir mažai tyrėjų buvo pasirengę rizikuoti savo karjera siekdami nemadingų tikslų. Tačiau, ir tai yra labai didelis „tačiau“, niekas neįrodė, kad tinklai su keliais sluoksniais kenčia nuo dalykų, kurių jie negali išmokti. Iš principo visi manė, kad jie bus pajėgūs išmokti bet ką, kas jiems bus pateikta. Kolmogorovo atvaizdavimo teorema2), įrodo ne tik tai, kad daugiasluoksnis tinklas gali išmokti bet ką, bet ir tai, kad nebūtina turėti daugiau nei du sluoksnius. Tai nuostabu, tačiau niekas neturėjo supratimo, kaip apmokyti daugiasluoksnį tinklą.

Didysis proveržis įvyko, kai kažkas apskaičiavo daugiasluoksnio tinklo gradientą ir leido naudoti gradiento nusileidimo metodą jam apmokyti. Tai mokymosi algoritmas, paprastai vadinamas grįžtamuoju klaidos skleidimu arba atgaliniu palaikymu. Nors Paul Werbos’as3) savo 1974 m. daktaro disertacijoje pirmasis aiškiai pritaikė šį algoritmą daugiasluoksnių neuroninių tinklų mokymui, efektyvaus gradientų skaičiavimo atgal koncepcija jau anksčiau egzistavo valdymo teorijoje. Vėliau algoritmas įgijo didžiulį populiarumą ir tapo pagrindiniu neuroninių tinklų mokymosi metodu dėl David E. Rumelhart’o4), Geoffrey Hinton’o5) ir Ronald J. Williams’o6) darbų 9-ojo dešimtm. viduryje. Taigi neuroniniai tinklai apmokomi atgaliniu skleidimu, kuris yra tiesiog gradientinis nusileidimas. Iš tiesų didelė DI sėkmės dalis slypi gradientinio nusileidimo metodo taikyme mokant giliuosius, t.y. daugiasluoksnius neuroninius tinklus: tai „gilusis mokymasis“.Mat gilusis tinklas (daugiau nei dviejų sluoksnių), kai kurių dalykų gali išmokti daug daug greičiau ir gali juos apibendrinti, t.y. peržengti tas ribas, kuriose jis buvo mokytas.

Atgalinis skleidimas buvo atrastas vos tik suprasta, kad įmanoma apskaičiuoti gradientą. Bet kuri sistema, kuriai galime apskaičiuoti gradientą, vadinama „diferenciuojama“, nes gradientų apskaičiavimas ir yra diferencialinio skaičiavimo esmė. Taigi buvo atrasta, kad jei turime bet kokią diferencijuojamą sistemą, galime panaudoti gradiento nusileidimo metodą jos apmokymui.

Buvo sukurta įvairiausių neįtikėtinų diferencijuojamų sistemų versijų, kurios iš pirmo žvilgsnio atrodo visai nediferencijuojamos. Pvz., diferencijuojama programavimo kalba leidžia programas kurti arba taisyti naudojant gradiento nusileidimo metodą. Jei rastume būdą, kaip apskaičiuoti evoliucijos gradientą, galėtume priversti ją suveikti per kelias dienas, o ne metus. Ir iš tiesų, daugelis atkreipė dėmesį, kad mūsų gebėjimas manipuliuoti genais būtent taip ir padarė: gradientai pridedami prie stipriausiųjų išlikimo principo ir greičiau vysto organizmus link gerokai geresnių rezultatų.

Tik negalima paimti bet kokios diferencijuojamos juodosios dėžės ir pritaikyti gradientinio nusileidimo metodą, kad ji veiktų taip, kaip norite. Jei tai būtų tiesa, vietoj šiandien naudojamų brangių ir labai gilių tinklų būtume galėję naudoti vieno sluoksnio tinklus arba ką nors dar paprastesnio. Taigi, ko reikia, kad kažkas būtų apmokoma gradientinio nusileidimo metodu?

Iš tikro, idėja susijusi su dar senesniu ir bendresniu principu. Tai būtinosios įvairovės principas, dar vadinamas Ašbio dėsniu arba Pirmuoju kibernetikos dėsniu, kuis teigia, kad jei bandote valdyti sistemą, valdymo mechanizmas turi turėti tiek pat įvairovės, kiek ir pati sistema.

Šiuolaikiškiau jį galima suformuluoti laisvės laipsnių arba variacijos dimensijų terminais. Tai apytiksliai atitinka idėją, kiek būdų kažkas gali kisti. Tai gana subtili idėja. Pvz., jei aptariate spalvą, - kiek laisvės laipsnių, dimensijų ar įvairovės turi šis reiškinys? Atrodo, kad yra beveik begalinis spalvų skaičius, bet iš tikrųjų bet kokią spalvą galima gauti vos iš trijų pagrindinių spalvų. Taigi laisvės laipsniai, dimensija arba įvairovė yra lygiai trys, o ne begalybė. Ir nors 4-ių ir daugiau spalvų nebūtina turėti, gali būti svarių priežasčių jų turėti daugiau.

Tiedu du principai yra dirbtinio intelekto, o ir didele dalimi ir pasaulio, pagrindas.

Kai nurodome neuroniniui tinklui mokytis kalbos, remiamės tuo, kad jis turi pakankamai įvairovės, dimensijų ar laisvės laipsnių, kad galėtų modeliuoti kalbą, ir apsimoko naudodamas gradientinį nusileidimą. Ir tai veikia!

Tačiau kai kurie dalykai šiek tiek subtilesni, nei nurodo Ašbio dėsnis. Tarkime, kad turime neuroninį tinklą arba bet kokią diferencijuojamą juodąją dėžę ir norime ją apmokyti generuoti bet kokią spalvą, rodydami jai skirtingas spalvas. Jei sistema turi gerokai daugiau nei tris laisvės laipsnius, ji išmoks generuoti spalvas, bet gali nepastebėti, kad pakanka vos trijų. Ji gali atlikti darbą, bet gali nerasti natūralaus sprendimo. Tačiau jei sistema yra apribota tik trimis laisvės laipsniais, sprendimas privalo būti teisingas – tas, kuris atitinka vidinę duomenų, kuriuos bandome valdyti, struktūrą.
Taigi, jei turite diferencijuojamą juodąją dėžę su trimis laisvės laipsniais, gradientinis mažėjimas greičiausiai suteiks jums modelį, kuris atitiks trijų pagrindinių spalvų fizinę realybę. Teisingai nustatyti laisvės laipsniai reiškia, kad juodoji dėžė ne tik išmoksta valdyti spalvas, bet ir išmoksta modelį, kuris atitinka problemos struktūrą.

Tai ir apibendrinimo esmė. Tarkime, kad apmokome dėžę tik su nedidele spalvų spektro dalimi. Jei jai pavyksta išmokti, kad bet kuri spalva, kuriai ji buvo parodyta, gali būti sukurta iš trijų pagrindinių spalvų, ji teisingai susidoros su spalvomis, kurios niekada nebuvo parodytos mokymo rinkinyje. Kitaip tariant, tai, ko ji išmoksta, yra apibendrinama, nes ji ne tik įsiminė, kaip sukurti spalvas, kurios jai buvo parodytos, bet ir įsisavino gilesnį spalvų generavimo modelį.

Bet akivaizdu, kad realūs duomenys nuslepia savo laisvės laipsnių kiekį. Tikrasis duomenų rinkinio matmuo paprastai vadinamas jo „latentine dimensija“ arba „latentine struktūra“ ir tai yra labai svarbi sąvoka.

Praktiškai nebūtina tiksliai nustatyti laisvės laipsnių skaičiaus. Vien bandymas sutalpinti atvaizdavimą į mažesnį dimensijų skaičių, nei atrodo, verčia jį būti artimesniu pagrindinei duomenų struktūrai. Neuroniniams tinklams tai reiškia, kad neturėtume į problemą dėti per daug neuronų, nes kitaip tiesiog mokomės mechaniškai, o ne giliai. Žinoma, laisvės laipsnių skaičius, tarkime, kalbos modelyje, gerokai viršija neuronų skaičių, kurį praktiškai galime į ją dėti.

Būtent ribotų laisvės laipsnių atvaizdavime kliūtis verčia mus rasti geras elgesio teorijas. Ir tai praktinė Okamo skustuvo forma.

Taigi, kalbant apie dirbtinį intelektą ir daugelį kitų fizikinių reiškinių, viskas tik leidžiasi nuo kalno su nedideliais papildymais dėl būtinos įvairovės.


1) Grįžtamasis klaidos skleidimas - gradiento paskaičiavimo metodas, naudojamas atnaujinant daugiasluoksnio perceptrono svorius. Pagrindinė jo idėja klaidos sklidime nuo tinklo išėjimų į jo įvedimus, t.y. atvirkščia kryptimi nei sklinda signalai. Jo taikymui būtina, kad neuronų perduodančioji funkcija būtų diferencijuojama.

2) Kolmogorovo-Arnoldo atvaizdavimo (superpozicijos) teorema - teiginys matematinėje realiųjų skaičių analizėje, kad kiekviena daugelio kintamųjų tolydi funkcija gali būti atvaizduota kaip vieno kintamojo tolydžių funkcijų tiesinė kombinacija. Jis išsprendžia bendresnę 13-ąją Hilberto problemą. Ją pateikė V. Arnoldas remdamasis Kolmogorovo rezultatais apie daugiamatės funkcijos pavaizdavimą. Apibrėžiant griežtai:
Lygtis
Mašininio apsimokymo srityje buvo įvairių bandymų panaudoti neuroninius tinklus, sukonstruotus ant šios teoremos, kur jos vaidmuo buvo analogiškas universaliai aproksimacijos teoremai daugiasluoksnių perceptronų analizėje.

3) Polis Verbosas (Paul John Werbos, g. 1947 m.) - amerikiečių sociologas ir mašininio apsimokymo pionierius, geriausiai žinomas savo 1974 m. disertacija, kurioje pirmąkart aprašytas dirbtinių neuroninių tinklų apsimokymo procesas per grįžtamąjį klaidos skleidimą. Taip pat buvo rekurentinių neuroninių tinklų pradininku. Be to rašė apie kvantinę mechaniką ir kitas fizikos sritis, o taip pat domėjosi su sąmone ir žmogaus potencial susijusiais klausimais. Kelis metus buvo NSF programos direktoriumi (iki 2015 m.).

4) Deividas Rumelhartas (David Everett Rumelhart, 1942-2011) – amerikiečių psichologas, pasižymėjęs indėliu į sąmonės tyrimus ir nemažai nulėmęs kai kurių kognityvinių mokslų kryptis. Profesoriavo Stanfordo un-te (1987-98). Jo darbai susiję su dirbtinio intelekto, matematinės psichologijos, išlygiagretintų skaičiavimų sritimis. Didžiausią atgarsį sulaukė darbai, susiję su mokymusi ir atmintimi semantiniuose neuroniniuose tinkluose. 1982 m. nepriklausomai nuo kitų išvystė grįžtamąjį klaidos skleidimą. Išryškėjus Piko ligos simptomams, 1998 m. nutraukė mokslinę veiklą.

5) Džefris Hintonas (Geoffrey Everest Hinton, g. 1947 m.) - anglų kilmės kanadiečių kompiuterininkas, psichologas, dirbantis pažinimo teorijos srityje, pasižymėjęs indėlių į mašininio gilaus apsimokymo procesą. Nobelio premijos fizikos srityje laureatas (2024). Garsiausias jo straipsnis paskelbtas 1986 m. (kartu su D. Rumelhartu ir R. Viljamsu). Kartu su T. Seinovskiu sukūrė Bolcmano mašiną. Dirbo „Google“ „Brain“ padalinyje (2013-23), iš kurio pasitraukė, kad „galėtų laisvai kalbėti apie DI keliamus pavojus“.

6) Ronaldas Viljamsas (Ronald James Williams, 1945-2024) – amerikiečių matematikas ir kompiuterininkas, laikomas vienu ir neuroninių tinklų pradininkų; Šiaurės rytų un-tp Bostone profesorius (nuo 1986 m.). 1986 m. kartu su D. Rumelhartu ir Dž. Hintonu „Nature“ žurnale paskelbė straipsnį apie grįžtamąjį klaidos skleidimą. Taip pat prisidėjo vystant rekurentinius neuroninius tinkus, kur, kartu su D. Zipseriu, sukūrė mokytojo primetimo algoritmą. 1992 m. pateikė REINFORCE algoritmą, tapusį pirmuoju gradientiniu metodu su politikomis. Be darbo su neuroniniais tinklais, kartu su kitais sukūrė POOL, mašininio apsimokymo metodą nuspėjant aktyvias aminorūgštis proteino struktūroje.

Toji erdvė...
Kieta ar minkšta kalba?
Dirbtinis protas ir sąmonė
Pavelas Amnuelis. Ekspertas
Ar Internetas turi savimonę?
Ar androidas gali tapti žydu?
S. Lemas. Televizija be korseto
Dirbtinis protas ir Duglas Lenatas
Paradoksai sulig dirbtiniu intelektu
B. Lemoine. Aš dirbau su Google DI
Dirbtinis intelektas: Metodinė banalybė
A. Cvetkovas. Blogio atskleidėjai
Kolmogorovo DI alfa ir omega
Į ką iškeisčiau muilo operas?
Robotai - dirbtiniai žmonės
Internetas: Filtrų burbulas
Kam Elizai Internetas?
Informacijos ekologija
Kibersekso pamokos
Mano sielos grobikai
Kiber-mūšiai
Vartiklis