Hàm kích hoạt Leaky ReLU là gì?
Leaky ReLU (Leaky Rectified Linear Unit) là một hàm kích hoạt phổ biến trong các mạng nơ-ron sâu. Giống như ReLU tiêu chuẩn, nó cho các giá trị đầu vào dương đi thẳng qua, nhưng thay vì ép các giá trị âm về 0, nó gán cho chúng một độ dốc nhỏ khác 0 là alpha. Nhờ đó, một phần gradient vẫn được duy trì cho các giá trị tiền kích hoạt âm, giúp tránh hiện tượng "ReLU chết" (dying ReLU) — khi nơ-ron bị kẹt ở đầu ra bằng 0 và ngừng học.
Công thức
Với đầu vào x và độ dốc rò rỉ alpha, đầu ra là
$$f(\text{x}) = \begin{cases} \text{x} & \text{if } \text{x} > 0 \\[0.5em] \alpha \cdot \text{x} & \text{if } \text{x} \le 0 \end{cases}$$Giá trị rò rỉ mặc định là \(\alpha = 0{,}01\). Có hai trường hợp đặc biệt đáng lưu ý: \(\alpha = 0\) sẽ trở thành ReLU tiêu chuẩn (\(\max(0, \text{x})\)), còn \(\alpha = 1\) khiến hàm thu về đúng đường thẳng đồng nhất \(f(\text{x}) = \text{x}\).
Cách dùng máy tính này
Nhập giá trị x ban đầu, bước nhảy giữa các điểm, số lượng điểm cần tạo và độ dốc rò rỉ alpha. Công cụ sẽ tạo dãy
$$x_i = \text{startX} + i \cdot \text{stepX}, \quad i = 0, 1, \dots, \text{count} - 1$$tính f tại từng điểm, rồi liệt kê các cặp \((\text{x}, f(\text{x}))\) kèm đồ thị đường cong. Bạn cũng có thể nhập một giá trị x đơn lẻ để tính trực tiếp \(f(\text{x})\).
Ví dụ minh họa
Với \(\alpha = 0{,}01\): tại \(\text{x} = -4\), đầu vào không dương nên \(f = 0{,}01 \times (-4) = -0{,}04\). Tại \(\text{x} = 0\), \(f = 0\). Tại \(\text{x} = 3\), đầu vào dương nên \(f = 3\). Dùng các giá trị mặc định (\(\text{startX} = -4\), \(\text{stepX} = 0{,}05\), \(\text{count} = 101\)), dải quét chạy từ \(\text{x} = -4\) (\(f = -0{,}04\)) đến \(\text{x} = +1{,}0\) (\(f = 1{,}0\)), đi qua điểm 0 tại điểm thứ 81 (\(i = 80\)).
Câu hỏi thường gặp
Leaky ReLU khác ReLU như thế nào? ReLU cho đầu ra đúng bằng 0 với mọi giá trị âm; còn Leaky ReLU cho đầu ra \(\alpha \cdot \text{x}\), một giá trị âm nhỏ, nhờ đó vẫn giữ được gradient.
Nên chọn giá trị alpha bằng bao nhiêu? 0,01 là giá trị mặc định thông dụng. Các biến thể như Parametric ReLU sẽ học giá trị alpha ngay trong quá trình huấn luyện.
Alpha có thể âm không? Về mặt toán học là có, nhưng điều này hiếm gặp và không được khuyến nghị cho các mạng thông thường.