#day24. First convolutional networks #100daychallenge

Ivana Medojevic
3 min readApr 28, 2020

--

Big Bang Deep learning-a se desio 2012.godine nakon rada Krizevsky i saradnika ‘ImageNet classification with deep convolutional neural networks’.

Tačnije kada je na internacionalnom takmičenju ILSVRC (ImageNet Large-Scale Visual Recognition Challenge) koje se održavao od 2010–2017. godine, predstavljen konvolucijski model mreže za klasifikaciju slika. U pitanju je najpoznatija AlexNet neuronska mreža, koja je pobedila sve dotadašnje algoritme sa “test error rate’’ od 15,4%, dok je dve godine pre toga rekord držao algoritam čija je greška iznosila preko 25%. Na takmičenju 2016. godine greška klasifikacije iznosila je svega 2,99% upotrebom nekoliko ansambala. Sama oblast je ubrzo nakon toga dobila naziv Deep Learning. Ansambl se naziva skup više različitih algoritama primenjen na jedan problem.

Photo by Matt Lee on Unsplash

Iako je prva konvoluciona mreža napravljena deceniju ranije, LeCun 1990 za prepoznavanje ručno pisanih cifara, nije dobila na popularnosti jer računari nisu imali veliku hardversku moć za izračunavanjem velikog broja parametara za slike u boji i za veliki broj klasa.

Ovako je izgledala prva konvolucijska mreža iz LeCun-vog rada i popularno se naziva LeNet mreža i ima ‘‘samo’’ ~ 60 hiljada parametara.:

Primer arhitekture mreže LeNet (LeCun i dr. 1990)

AlexNet

Za razliku od LeNet mreže, AlexNet je daleko dublja mreža (~60 miliona parametara) sa više slojeva, gde se koristi sloj maksimalnog sažimanja kao i ReLu aktivaciona funkcija i kao izlazna funkcija Softmax. Mreža je trebala da klasifikuje 1,2 miliona slika u 1000 različitih klasa. Na takmičenju ILSVRC koristi se deo seta ImageNet sa otprilike 1000 slika svake od 1000 kategorija. Grubo predstavljena cifra je 1.2 miliona trening slika, 50,000 slika za validacioni test, i 150,000 test slika. Ne sećam se tačno gde sam pročitala da je mreža trnirana oko 6 dana na dve grafičke kartice GTX 580 3GB GPUs. Danas su grafičke još jače i brže i postoji mogućnost zakupljivanja virtuelne mašine za treninranje dubokih mreža, o tome ću pisati još.

Primer arhitekture mreže Alex Net (Krizhevsky i dr. 2012)

Često se spominje greška da ulazni sloj u radu nije 224x224 nego da jedino ima smisla 227x227 kako bi se naredni slojevi dobili kako su napisani.

Neophodno je da znate da ulazne slike ne moraju da budu ovog formata. Mogu da budu bilo kog pa će algoritam da ih svede na sliku te dimenzije na način koji je objašnjen u radu.

ImageNet

ImageNet predstavlja istreniranu biblioteku sa preko 15 miliona obeleženih slika i 22 hiljade mogućih izlaza. I dan danas se koristi kao test model (pošto je open source) za vežbanje i dalja istraživanja u ovoj oblasti. Napravili su je profesori sa Prinstona i Stanforda i glavna ideja je bila da sakupe apsolutno sve slike koje mogu da se nađu na internetu i da mreža bude u stanju da ih prepozna. U pitanju su klase objekata npr: pas, mačka, biciklo, pomorandža…možete pogledati ovde.

Danas je postalo vrlo jednostavno klasifikovati slike, sledeći korak je bio razumeti slike, odnosno opisati šta se dešava na toj slici. Više nije dovoljno obeležiti na slici mačku, psa, osobu….nego opisati šta taj objekat radi, u kom okruženju se nalazi, kakvog je raspoloženja i slično. Identičan sled kao sa prevođenjem jezika, sada se traži kontekst odnosno razumevanje ne direktno prevođenje reči kao iz rečnika za šta se koristi NLP (Natural Language Processing) koji sam pomenula u jednoj priči.

Do sutra…

‘The major obstacle in learning anything is not intellectual — it is emotional. The fear of sounding stupid stops us. In reality, you can learn anything if you wish to with a little daily practice over a repeated period of time.’

--

--

Ivana Medojevic
Ivana Medojevic

Written by Ivana Medojevic

Ph.D. student, interesting in machine learning, deep learning. Multitasking mom. Future data analyst/DL engineer.

No responses yet