Nov doktor znanosti
- 20 maja, 2026
- Bojana Rauker
- 0
Danes, 20. maja 2026, je doktorand Antonio Tolić uspešno zagovarjal doktorsko disertacijo z naslovom »Gradient calibration in LSTM networks for enhanced learning efficiency / Kalibracija gradienta v LSTM omrežjih za izboljšano učinkovitost učenja«.
Komisijo za zagovor sta sestavljala prof. dr. Biljana Mileva Boshkoska indoc. dr. Panče Panov.
Doktorsko disertacijo je izdelal pod mentorstvom izr. prof. dr. Sandro Skansija.
Povzetek doktorske dizertacije:
Ponavljajoče se nevronske mreže (RNN), predvsem mreže z dolgoročnim kratkoročnim spominom (LSTM), so dokazale svojo učinkovitost pri širokem spektru zaporednih podatkovnih nalog, zlasti v aplikacijah, ki zahtevajo natančno modeliranje odvisnosti, ki izhajajo iz notranjega reda podatkov in zapletenih vzorcev vedenja. Kljub znatnemu napredku v razvoju arhitektur LSTM ostaja obdelava zaporedij z dolgoročnimi odvisnostmi še vedno zahtevna, saj se lahko gradienti še vedno izgubijo ali zrastejo do numerično nestabilnih vrednosti, ko se širijo prek več časovnih korakov. V tem kontekstu je predstavljen nov pristop za lajšanje teh težav, v katerem arhitektura LSTM integrira krono inicializacijo (CI) s plastno normalizacijo (LN), da kalibrira širjenje gradientov in učinkoviteje podpira učenje dolgoročnih odvisnosti. CI zagotavlja, da gradienti niso niti premajhni niti preveliki, kar zmanjšuje verjetnost izginotja in eksplozije gradientov ter tako omogoča stabilno učenje v dolgih zaporedjih. LN dodatno prispeva k robustnosti, kar vodi do bolj dosledne dinamike usposabljanja in izboljšane zmogljivosti modela v različnih dolžinah zaporedij in pod različnimi vhodnimi pogoji, vključno s premiki v porazdelitvi in obsegu podatkov. Predlagani pristop je bil ovrednoten na podlagi arhitekture LSTM z in brez uporabe CI na pristranskosti pozabnih in vhodnih vrat. Poleg tega je bilo izdelanih več ablacijskih variant, da bi izolirali prispevek posameznih komponent predlaganega modela. Vse variante modela so bile ocenjene na raznoliki niz sekvenčnih učnih nalog, ki so zajemale več oblik nalog in različne nastavitve hiperparametrov. V tej oceni je predlagani pristop dosledno pokazal izboljšanje zmogljivosti v primerjavi z vsemi osnovnimi modeli, kar je prineslo večjo sposobnost napovedovanja in manjšo izgubo validacije. Poleg tega je pristop prispeval k učinkovitejšemu usposabljanju, dosegel hitrejšo konvergenco in hkrati ohranil močno splošno zmogljivost pri različnih nalogah in podatkovnih nizih. Njegova vsestranskost je bila dokazana pri nalogah klasifikacije, regresije in generiranja zaporedij. Na splošno predlagane izboljšave izboljšujejo modeliranje dolgoročne odvisnosti in zagotavljajo stabilnejšo dinamiko usposabljanja v LSTM, s čimer odpravljajo zgoraj navedene težave, povezane z gradientom. Formalna analiza ponuja globlji vpogled v osnovne procese, s čimer ustvarja trdno podlago za nadaljnje izboljšave v modeliranju zaporednih podatkov.
Iskrene čestitke!

