ReLU aktivasyon fonksiyonu nedir?
Rectified Linear Unit ifadesinin kısaltması olan ReLU, modern derin öğrenme ve sinir ağlarında en sık kullanılan aktivasyon fonksiyonlarından biridir. Fonksiyon \(f(x) = \max(0,\ x)\) şeklinde tanımlanır; yani pozitif girdileri olduğu gibi geçirir, negatif girdileri (ve sıfırı) ise 0'a sabitler. Bu basit kural, ağa doğrusal olmayan bir davranış kazandırırken hesaplama açısından son derece hafiftir. İşte bu yüzden günümüzde evrişimli (convolutional) ve tam bağlı (fully connected) katmanların büyük çoğunluğu ReLU ile çalışır.
Bu hesaplama aracı nasıl kullanılır?
x alanına herhangi bir reel sayı girin; araç size \(f(x) = \text{ReLU}(x)\) değerini döndürsün. Negatif, sıfır ve pozitif değerlerin tamamı geçerlidir. Sonuç, x sıfırdan büyükse x'e eşittir; x sıfır veya negatifse 0 olur. Araç ayrıca alışılagelmiş türevi de gösterir: pozitif girdiler için 1, diğer durumlarda 0.
Formülün açıklaması
ReLU fonksiyonu parçalı olarak tanımlanır: x > 0 ise f(x) = x, x ≤ 0 ise f(x) = 0. Tanım kümesi tüm reel sayılardır (-∞, +∞) ve değer kümesi [0, +∞) aralığıdır. ReLU her noktada süreklidir; ancak türevi tam olarak x = 0 noktasında teknik olarak tanımsızdır. Geleneksel olarak bu noktada türev 0 kabul edilir; böylece x ≤ 0 için f'(x) = 0 ve x > 0 için f'(x) = 1 olur. İşlemde bölme bulunmadığı için dikkat edilmesi gereken hiçbir uç durum yoktur.
Örnek hesaplama
Diyelim ki x = -3,2. Bu durumda -3,2 negatif olduğundan $$f(x) = \max(0,\ -3{,}2) = 0$$ olur. Bunun yerine x = 7 olsaydı, $$f(x) = \max(0,\ 7) = 7$$ olurdu. Varsayılan girdi x = 0,5 için ise $$f(x) = \max(0,\ 0{,}5) = 0{,}5$$ olur.
Sıkça Sorulan Sorular
ReLU neden bu kadar popüler? Büyük girdilerde sigmoid ve tanh fonksiyonlarının başını ağrıtan kaybolan gradyan (vanishing gradient) sorununu ortadan kaldırır ve hesaplama açısından son derece basittir — yalnızca sıfırla bir karşılaştırma yapar.
x = 0 noktasında ne olur? Fonksiyonun değeri 0'dır ve türev geleneksel olarak 0 alınır.
ReLU, Sigmoid ve Softmax arasındaki fark nedir? Sigmoid değerleri (0, 1) aralığına sıkıştırır, Softmax ise bir vektör üzerinde olasılık dağılımı üretir; ReLU ise yalnızca tek bir değeri negatif olmayacak şekilde düzeltir.