#day19. CNN-activation function#100daychallenge
Nakon konvolucijskih filtera obično dolazi nelinearni sloj koji je aktivaciona funkcija (eng. Activation function), najčešće je: Sigmoid, Tanh, ReLu, Leacky, SoftMax (Krizhevsky i dr. 2012, Dahl i dr. 2013, Maas i dr. 2013, Agarap 2018).
Funkcija x modeluje prenosnu karakteristiku neurona. U literaturi se mogu sresti različite funkcije za aproksimaciju ove karakteristike. Najprostija aproksimacija je linearna. S obzirom da je ova aproksimacija loša, neuroni sa linearnom prenosnom funkcijom koriste se uglavnom u neuronskim mrežama u kojima osim ovakvih neurona ima i neurona sa nelinearnim prenosnim funkcijama. Najčešće se, međutim, za aproksimaciju karakteristika koristi klasa sigmoidalnih funkcija, od kojih je najvažnija logistička. Efikasnoj hardverskoj realizaciji ove funkcije već godinama se u naučnoj javnosti posvećuje velika pažnja.
Kod sigmoidne funkcije vrednosti se nalaze između minimalne 0.0 i maksimalne 1.0. Ona se često sreće u mnogim oblastima tehnike, naročito u veštačkim neuronskim mrežama kao transfer funkcija gde se koristi i pod nazivom logistička funkcija koja se koristi u logističkoj regresiji objašnjenoj u uvodu o mašinskom učenju.
Za razliku od sigmoidne, funkcija tangens hiberbolični ima veći opseg vrednosti od -1 do 1 i stabilnija je.
U poslednjim popularnim modelima mreža najzastupljenija je ReLu, max(0, x) koja sve negativne vrednosti pretvara u 0, i mreža se daleko brže trenira za razliku kada se primenjuje sigmoidna ili tangens hiperbolična funkcija.
Leaky ReLu se upotrebljava za treniranje sa negativnim vrednostima gde se negativna vrednost množi sa izabranim koeficijentom, obično 0.1. Na taj način se čuvaju moguće dobre karakteristike za naredni sloj.
Nakon ovog sloja može da dođe sledeći konvolucijski sloj ili npr. sloj sažimanja.
Ovu priču ću ažurirati dalje. Toliko uopšteno za danas.
Do sutra… Poslednji put ažurirano:23.04.2020.
Reference:
Krizhevsky, A., Sutskever, I., Hinton, G. 2012. ImageNet classification with deep convolutional neural networks. Advances in neural information processing systems. pp:1097–1105. doi:10.1145/3065386
Dahl, E.G., Sainath, N.T., Hinton, E.G. 2013. Improving deep neural networks for LVCSR using rectified linear units and dropout. IEEE International Conference on Acoustics, Speech and Signal Processing. doi:10.1109/ICASSP.2013.6639346
Maas, A., Hannun, A., Ng, A. 2013. Rectifier nonlinearities improve neural network acoustic models. Proceedings of the 30 th International Conference on Machine Learning, Atlanta, Georgia, USA.
Agarap, A. 2018. Deep Learning using Rectified Linear Units (ReLU). Neural and Evolutionary Computing. arXiv:1803.08375