ReLU рдПрдХреНрдЯрд┐рд╡реЗрд╢рди рдлрд╝рдВрдХреНрд╢рди рдХреНрдпрд╛ рд╣реИ?
ReLU, рдпрд╛рдиреА Rectified Linear Unit (рд░реЗрдХреНрдЯрд┐рдлрд╛рдЗрдб рд▓реАрдирд┐рдпрд░ рдпреВрдирд┐рдЯ), рдЖрдЬ рдХреЗ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ рд╕рдмрд╕реЗ рдЬрд╝реНрдпрд╛рджрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ рдПрдХреНрдЯрд┐рд╡реЗрд╢рди рдлрд╝рдВрдХреНрд╢рди рдореЗрдВ рд╕реЗ рдПрдХ рд╣реИред рдЗрд╕рдХрд╛ рд╕реВрддреНрд░ рд╣реИ \(f(x) = \max(0,\ x)\) тАФ рдпрд╛рдиреА рдЬреЛ рдЗрдирдкреБрдЯ рдзрдирд╛рддреНрдордХ (positive) рд╣реЛрддреЗ рд╣реИрдВ, рд╡реЗ рдЬреНрдпреЛрдВ-рдХреЗ-рддреНрдпреЛрдВ рдЖрдЧреЗ рдирд┐рдХрд▓ рдЬрд╛рддреЗ рд╣реИрдВ, рдЬрдмрдХрд┐ рдЛрдгрд╛рддреНрдордХ (negative) рдЗрдирдкреБрдЯ рдФрд░ рд╢реВрдиреНрдп рдХреЛ 0 рдмрдирд╛ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рд╕реАрдзрд╛-рд╕рд╛рджрд╛ рдирд┐рдпрдо рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ non-linearity (рдЕрд░реЗрдЦреАрдпрддрд╛) рд▓реЗ рдЖрддрд╛ рд╣реИ, рдФрд░ рд╕рд╛рде рд╣реА рдЗрд╕рдХреА рдЧрдгрдирд╛ рдмреЗрд╣рдж рдЖрд╕рд╛рди рдФрд░ рддреЗрдЬрд╝ рд░рд╣рддреА рд╣реИред рдпрд╣реА рд╡рдЬрд╣ рд╣реИ рдХрд┐ рдЖрдЬ рдЬрд╝реНрдпрд╛рджрд╛рддрд░ рдХрдиреНрд╡реЛрд▓реНрдпреВрд╢рдирд▓ рдФрд░ рдлреБрд▓реА рдХрдиреЗрдХреНрдЯреЗрдб рд▓реЗрдпрд░ рдореЗрдВ ReLU рдХрд╛ рд╣реА рдмреЛрд▓рдмрд╛рд▓рд╛ рд╣реИред
рдЗрд╕ рдХреИрд▓рдХреБрд▓реЗрдЯрд░ рдХрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХреИрд╕реЗ рдХрд░реЗрдВ
x рд╡рд╛рд▓реЗ рдлрд╝реАрд▓реНрдб рдореЗрдВ рдХреЛрдИ рднреА рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдВрдЦреНрдпрд╛ рдбрд╛рд▓рд┐рдП рдФрд░ рдХреИрд▓рдХреБрд▓реЗрдЯрд░ рдЖрдкрдХреЛ \(f(x) = \text{ReLU}(x)\) рдХрд╛ рдирддреАрдЬрд╛ рджреЗ рджреЗрдЧрд╛ред рдЛрдгрд╛рддреНрдордХ, рд╢реВрдиреНрдп рдпрд╛ рдзрдирд╛рддреНрдордХ тАФ рддреАрдиреЛрдВ рддрд░рд╣ рдХреЗ рдорд╛рди рдорд╛рдиреНрдп рд╣реИрдВред рдЬрдм x, 0 рд╕реЗ рдмрдбрд╝рд╛ рд╣реЛрддрд╛ рд╣реИ рддреЛ рдирддреАрдЬрд╛ x рдХреЗ рдмрд░рд╛рдмрд░ рд╣реЛрддрд╛ рд╣реИ, рдФрд░ рдЬрдм x рд╢реВрдиреНрдп рдпрд╛ рдЛрдгрд╛рддреНрдордХ рд╣реЛрддрд╛ рд╣реИ рддреЛ рдирддреАрдЬрд╛ 0 рдЖрддрд╛ рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдХреИрд▓рдХреБрд▓реЗрдЯрд░ рдкреНрд░рдЪрд▓рд┐рдд рдЕрд╡рдХрд▓рдЬ (derivative) рднреА рдмрддрд╛рддрд╛ рд╣реИ: рдзрдирд╛рддреНрдордХ рдЗрдирдкреБрдЯ рдХреЗ рд▓рд┐рдП 1 рдФрд░ рдмрд╛рдХреА рд╕рднреА рдорд╛рдорд▓реЛрдВ рдореЗрдВ 0ред
рд╕реВрддреНрд░ рдХреЛ рд╕рдордЭреЗрдВ
ReLU рдлрд╝рдВрдХреНрд╢рди рдХреЛ рдЦрдВрдбрд╢рдГ (piecewise) рдЗрд╕ рддрд░рд╣ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ: рдпрджрд┐ \(x > 0\) рддреЛ \(f(x) = x\), рдФрд░ рдпрджрд┐ \(x \le 0\) рддреЛ \(f(x) = 0\)ред $$\text{ReLU}(x) = \max\left(0,\ x\right)$$ рдЗрд╕рдХрд╛ рдбреЛрдореЗрди рд╕рднреА рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдВрдЦреНрдпрд╛рдПрдБ \((-\infty,\ +\infty)\) рд╣реИрдВ рдФрд░ рдЗрд╕рдХреА рд░реЗрдВрдЬ \([0,\ +\infty)\) рд╣реИред ReLU рд╣рд░ рдЬрдЧрд╣ рд╕рддрдд (continuous) рд╣реИ, рдордЧрд░ рддрдХрдиреАрдХреА рд░реВрдк рд╕реЗ рдареАрдХ \(x = 0\) рдкрд░ рдЗрд╕рдХрд╛ рдЕрд╡рдХрд▓рдЬ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдирд╣реАрдВ рд╣реЛрддрд╛; рдкрд░рдВрдкрд░рд╛ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рд╡рд╣рд╛рдБ рдЗрд╕реЗ 0 рдорд╛рди рд▓рд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЗрд╕ рддрд░рд╣ \(x \le 0\) рдХреЗ рд▓рд┐рдП \(f'(x) = 0\) рдФрд░ \(x > 0\) рдХреЗ рд▓рд┐рдП \(f'(x) = 1\) рд╣реЛрддрд╛ рд╣реИред рдЪреВрдБрдХрд┐ рдЗрд╕рдореЗрдВ рдХрд╣реАрдВ рднрд╛рдЧ (division) рдирд╣реАрдВ рд╣реЛрддрд╛, рдЗрд╕рд▓рд┐рдП рдХрд┐рд╕реА рднреА рд╡рд┐рд╢реЗрд╖ рдХрд┐рдирд╛рд░реЗ рдХреА рд╕реНрдерд┐рддрд┐ (edge case) рд╕реЗ рдмрдЪрдиреЗ рдХреА рдЬрд╝рд░реВрд░рдд рдирд╣реАрдВ рдкрдбрд╝рддреАред
рд╣рд▓ рдХрд┐рдпрд╛ рд╣реБрдЖ рдЙрджрд╛рд╣рд░рдг
рдорд╛рди рд▓реАрдЬрд┐рдП \(x = -3.2\) рд╣реИред рддрдм $$f(x) = \max(0,\ -3.2) = 0,$$ рдХреНрдпреЛрдВрдХрд┐ -3.2 рдЛрдгрд╛рддреНрдордХ рд╣реИред рд╡рд╣реАрдВ рдЕрдЧрд░ \(x = 7\) рд╣реЛ, рддреЛ $$f(x) = \max(0,\ 7) = 7.$$ рдФрд░ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдЗрдирдкреБрдЯ \(x = 0.5\) рдХреЗ рд▓рд┐рдП $$f(x) = \max(0,\ 0.5) = 0.5$$ рд╣реЛрдЧрд╛ред
рдЕрдХреНрд╕рд░ рдкреВрдЫреЗ рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рд╕рд╡рд╛рд▓ (FAQ)
ReLU рдЗрддрдирд╛ рд▓реЛрдХрдкреНрд░рд┐рдп рдХреНрдпреЛрдВ рд╣реИ? рдпрд╣ рдЙрд╕ vanishing-gradient (рд╡рд┐рд▓реБрдкреНрдд рд╣реЛрддреЗ рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ) рдХреА рд╕рдорд╕реНрдпрд╛ рд╕реЗ рдмрдЪ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ рдмрдбрд╝реЗ рдЗрдирдкреБрдЯ рдХреЗ рд▓рд┐рдП sigmoid рдФрд░ tanh рдХреЛ рдкрд░реЗрд╢рд╛рди рдХрд░рддреА рд╣реИред рд╕рд╛рде рд╣реА рдЗрд╕рдХреА рдЧрдгрдирд╛ рдмреЗрд╣рдж рдЖрд╕рд╛рди рд╣реИ тАФ рдмрд╕ рд╢реВрдиреНрдп рд╕реЗ рдПрдХ рддреБрд▓рдирд╛ рднрд░ рдХрд░рдиреА рд╣реЛрддреА рд╣реИред
\(x = 0\) рдкрд░ рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ? рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдорд╛рди 0 рд╣реЛрддрд╛ рд╣реИ, рдФрд░ рдЕрд╡рдХрд▓рдЬ рдХреЛ рдкрд░рдВрдкрд░рд╛ рдХреЗ рдЕрдиреБрд╕рд╛рд░ 0 рд╣реА рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИред
ReLU, Sigmoid рдФрд░ Softmax рдореЗрдВ рдХреНрдпрд╛ рдлрд╝рд░реНрдХ рд╣реИ? Sigmoid рдорд╛рдиреЛрдВ рдХреЛ \((0,\ 1)\) рдХреЗ рдмреАрдЪ рджрдмрд╛ рджреЗрддрд╛ рд╣реИ рдФрд░ Softmax рдХрд┐рд╕реА рд╡реЗрдХреНрдЯрд░ рдкрд░ рдПрдХ рдкреНрд░рд╛рдпрд┐рдХрддрд╛ рд╡рд┐рддрд░рдг (probability distribution) рдмрдирд╛рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ ReLU рдмрд╕ рдПрдХ рдЕрдХреЗрд▓реЗ рдорд╛рди рдХреЛ рдЛрдгрд╛рддреНрдордХ рди рд░рд╣рдиреЗ рджреЗрдХрд░ рд╕реАрдзрд╛ рдХрд░ рджреЗрддрд╛ рд╣реИред