#day10. — Machine vision — introduction #100daychallenge
Juče sam na neki način započela priču o mašinskom vidu. I da, ja ću nastaviti da koristim ovaj termin.
Kakve veze mašinski vid ima sa mašinskim učenjem? Kao što sam u prethodnoj priči #dan9 napomeula, mašinski vid simulira ljudski vid i samim tim mašina može da poseduje sposobnost da vidi, odnosno mi možemo da je naučimo šta je to što ona to vidi. Potrebni su nam prvenstveno uređaji koji vrše snimanje i prenose signal do mašine a to su kamere.
Da bismo bolje razumeli današnju tehnologiju i značaj mašinskog vida, potrebno je vratiti se na same početke postojanja vida i pomenuti događaje kojima je napravljen značajan iskorak u razvoju sistema mašinskog vida. Sjajno predavanje o istoriji mašinskog vida možete pogledati od strane dr Fei-Fei Li, žene koja ima najveći impakt u oblasti mašinskog vida, link do videa je ovde. Samim tim, ovaj video je i uvod u konvolucijske neurosnke mreže. Ja u daljem tekstu pišem delimično prerađenu verziju ovog videa sa još nekim dodatnim informacijama i svim pomenutim referencama. Video je deo kursa sa Stanford Univerziteta i visoko preporučujem da pogledate, bacite pogled na ceo kanal. O ovome sam već pisala u priči o online edukaciji deo 4.
Pre otprilike pre 543 miliona godina dešava se tzv. Kambrijska eksplozija (Cambrian Explosion), koja se naziva i biološki Veliki prasak, i tokom koje se razvila gotovo sva današnja flora i fauna u tom periodu. Postoji mnogo teorija kako je došlo do toga, ali od njih se posebno izdvaja teorija koju je izneo Parker (Parker 2003) tokom svoje bliže analize fosila iz tog perioda u kojoj je identifikovao razvoj sistema za vid kao razlog za neverovatno ubrzanje evolucije organizama i biosfere kakve vidimo i poznajemo danas. Kao prva optička sprava/izum koji je vodio otkriću fotografije izdvaja se kamera opskura (lat. camera obscura, mračna komora, tamna soba) iz 16. veka. Hubel i Visel (Hubel i Wiesel 1959) pružili su važan korak u razumevanju vizuelnog sistema koristeći tada novu elektrofiziološku tehniku snimanja aktivnosti pojedinačnih moždanih ćelija kod mačaka. U okviru ove i kasnijih studija, utvrdili su da neke kortikalne ćelije reaguju na konture specifične orijentacije. Verovatno prva doktorska disertacija vezana za mašinski vid, napisana je od strane Larry Roberts-a 1963. god. pod nazivom “Block World”, gde je vizuelni svet pojednostavljen u proste geometrijske oblike i gde je cilj bio prepoznati ih i kasnije rekonstruisati u prvobitni oblik.
I dalje se posle skoro 60 godina proučavaju neki od fundamentalnih problema mašinskog vida. Mašinski vid predstavlja jednu od najvažnijih i najbrže rastućih oblasti veštačke inteligencije.
Prvi algoritam za prepoznavanje obrazaca (Pattern recognition) je predstavljen davne 1936. god od strane Fišera (Fisher 1936), a prva primena veštačke inteligencije za prepoznavanje obrazaca je počela nakon tzv. projekta “The summer vision project” 1966. god.
Sedamdesetih godina, grupa naučnika postavlja pitanje kako od jednostavnih virtuelih objekata započeti prepoznavanje realnih objekata? Ovim pitanjem su se bavili i osamdesetih godina, tokom kojih je predstavljen znatan broj ideja (Fischler i Elschlager 1973, Lowe 1987, Brooks 1981), ali progres je bio jako spor i nisu uspevali napraviti nešto što bi bilo funkcionalno u stvarnom svetu. Algoritmi koji su i danas u širokoj upotrebi počeli su da se razvijaju uglavnom devedesetih godina ili nešto malo ranije. Sonka (Sonka i dr. 1999) je u svom radu izjavio da više od 1000 radova biva objavljeno svake godine u domenu kompjuterskog vida i obrade slike. Trend napretka u obradi slike se nastavlja i dalje. Metoda potpornih vektora (Support Vector Machine — SVM) (Cortes i Vapnik 1995) je jedna od najčešće primenjivanih u mnogim oblastima, kao i Backpropagation algoritam (LeCun i dr. 1990) koji omogućava da se težinski koeficijenti neuronske mreže prilagode kako bi se minimizirala greška na skupu vektora koji pripadaju problemu prepoznavanja obrazaca.
Veliki progres koji je započet 2000-te može se pripisati boljem kvalitetu slike koji se rapidno poboljšavao. Samim tim poseduje se bolji kvalitet podataka za obradu, pored svih poznatih mogućnosti interneta i veće procesorske moći računara. Prvi algoritam za prepoznavanje lica je napravljen 2001. godine (Viola i Jones 2001) i mogao je da radi u realnom vremenu. Sakupljaju se prvi setovi podataka za uporednu procenu i praćenje progresa algoritama za prepoznavanje objekata. Neki od najistaknutijih su PASCAL Visual Object Challenge (2005–2012. god.; 20 klasa) i COCO data set (330 hiljada slika, 80 klasa )(Lin i dr. 2014). Najveći set je ImageNet koji trenutno sadrži preko 14 miliona slika i 21 hiljadu klasa, (Dong i dr. 2009, ImageNet 2016).
Generalni cilj kreatora ovog seta je napraviti najveću bazu sa svim mogućim slikama koje mogu da se nađu na internetu i objektima za prepoznavanje. Ovaj set je pokrenuo dalji razvitak veštačke inteligencije (Artificial Intelligence) u oblasti mašinskog vida. Poslednja prekretnica dogodila se 2012. godine kada je na internacionalnom takmičenju ILSVRC (ImageNet Large-Scale Visual Recognition Challenge), kao rešenje predstavljen konvolucijski model mreže za klasifikaciju objekata (prva konvolucijska mreža predstavljena davne 1990 godine, Le Cun 1990). U pitanju je najpoznatija AlexNet neuronska mreža (Krizhevsky i dr. 2012), koja je pobedila sve dotadašnje predstavljene algoritme sa greškom na testu od 15,4%, dok je dve godine pre toga rekord držao algoritam čija je greška iznosila preko 25%. Na takmičenju 2016. godine greška klasifikacije je iznosila svega 2,99% upotrebom nekoliko ansambala. Sama oblast je ubrzo nakon toga dobila naziv Deep Learning — gde je trenutno opšteprihvaćen izraz na srpskom jeziku Duboko učenje.
Ovo je neka moja tabela razvijanja tehnika i metoda za prepoznavanje sveta oko nas:
Mnogo toga novog je pomenuto u ovom tekstu. U narednim pričama ću obrađivati svaki termin ili deo naveden u tekstu.
Do sutra… pogledajte sjajan TedTalk sa dr Fei-Fei Li klikom ovde.
I napišite mi da li ste nekad razmišljali kako mašine vide i da li je moguće sve ovo naučiti mašinu?
Reference:
Parker Andrew. 2003. In the blink of an eye: how vision sparked the big bang of evolution. ISBN-10: 0465054382
Hubel, D.H., Wiesel, T.N. 1959. Receptive fields of single neurons in the cat’s striate cortex. J. Physiol, Vol.148, pp.574–591. http://jp.physoc.org/content/148/3/574.full.pdf+html
Fisher, R. 1936. The use of multiple measurements in taxonomic problems. Annals of Eugenics. Vol.7, pp.111–132. doi.org/10.1111/j.1469–1809.1936.tb02137.x
Тhe Summer vision project. 1966. https://dspace.mit.edu/handle/1721.1/6125
Fischler, M. Elschlager, R. 1973. The Representation and Matching of Pictorial Structures. IEEE transactions on computers, Vol. c-22(1).
Lowe, D. 1987. Three-Dimensional Object Recognition from Single Two-Dimensional Images. Artificial Intelligence. Vol. 31(3), pp.355–395.
Brooks, R. 1981. Model-based three dimensional interpretations of two dimensional interpretations images. International Joint Conferences on Artificial Intelligence Organization. Vol. 81(2), pp. 619–624.
Sonka, M., Hlavac, V., Boyle, R. 1999. Image Processing, Analysis and Machine Vision. London, UK: Chapman and Hall Computing.
Cortes, C., Vapnik, V. 1995. Support-Vector Networks. Machine Learning. Vol. 20(3), pp.273–297. doi.org/10.1023/A:1022627411411
LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D. 1990. Handwritten digit recognition with a back-propagation network. Advances in Neural Information Processing Systems. Vol. 2, pp.396- 404.
Viola, P., Jones, M. 2001. Rapid Object Detection using a Boosted Cascade of Simple Features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 8–14 Dec. doi:10.1109/CVPR.2001.990517
Lin, TY., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, L., Dollar, P. 2014. Microsoft COCO: Common Objects in Context. Computer Vision — ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8693. Springer, Cham. doi.org/10.1007/978–3–319–10602–1_48
Dong, J.J., Li, Q.L., Yin, H., Zhong, C., Hao, J.G., Yang, P.F., Tan, Y.H., Jia, S.R. 2014. Predictive analysis of beer quality by correlating sensory evaluation with higher alcohol and ester production using multivariate statistics methods. Food Chemistry. Vol. 161, pp.376–382. doi.org/10.1016/j.foodchem.2014.04.006
Krizhevsky, A., Sutskever, I., Hinton, G. 2012. ImageNet classification with deep convolutional neural networks. Advances in neural information processing systems. pp:1097–1105. doi:10.1145/3065386