ReLU ํ์ฑํ ํจ์๋?
ReLU๋ 'Rectified Linear Unit(์ ๋ฅ ์ ํ ์ ๋)'์ ์ฝ์๋ก, ์ค๋๋ ๋ฅ๋ฌ๋๊ณผ ์ ๊ฒฝ๋ง์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ํ์ฑํ ํจ์ ์ค ํ๋์ ๋๋ค. ์์์ผ๋ก๋ \(f(x) = \max(0,\ x)\)๋ก ์ ์๋๋ฉฐ, ์์ ์ ๋ ฅ์ ๊ทธ๋๋ก ํต๊ณผ์ํค๊ณ ์์(๊ทธ๋ฆฌ๊ณ 0)๋ 0์ผ๋ก ์๋ผ๋ ๋๋ค. ์ด๋ ๊ฒ ๋จ์ํ ๊ท์น๋ง์ผ๋ก ๋คํธ์ํฌ์ ๋น์ ํ์ฑ์ ๋ํ๋ฉด์๋ ๊ณ์ฐ ๋น์ฉ์ด ๊ฑฐ์ ๋ค์ง ์๊ธฐ ๋๋ฌธ์, ํฉ์ฑ๊ณฑ ๊ณ์ธต๊ณผ ์์ ์ฐ๊ฒฐ ๊ณ์ธต ๋๋ถ๋ถ์ด ReLU๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๊ณ์ฐ๊ธฐ ์ฌ์ฉ ๋ฐฉ๋ฒ
x ์นธ์ ์ํ๋ ์ค์๋ฅผ ์ ๋ ฅํ๋ฉด ๊ณ์ฐ๊ธฐ๊ฐ \(f(x) = \text{ReLU}(x)\) ๊ฐ์ ๋๋ ค์ค๋๋ค. ์์, 0, ์์ ๋ชจ๋ ์ ๋ ฅํ ์ ์์ต๋๋ค. x๊ฐ 0๋ณด๋ค ํฌ๋ฉด ๊ฒฐ๊ณผ๋ x์ ๊ฐ๊ณ , x๊ฐ 0 ์ดํ์ด๋ฉด ๊ฒฐ๊ณผ๋ 0์ด ๋ฉ๋๋ค. ๋ํ ๊ด๋ก์ ์ธ ๋ํจ์ ๊ฐ๋ ํจ๊ป ํ์ํฉ๋๋ค. ์์ ์ ๋ ฅ์ด๋ฉด 1, ๊ทธ ์ธ์๋ 0์ ๋๋ค.
๊ณต์ ์์ธํ ๋ณด๊ธฐ
ReLU ํจ์๋ ๊ตฌ๊ฐ๋ณ๋ก ์ ์๋ฉ๋๋ค. \(x > 0\)์ผ ๋ \(f(x) = x\)์ด๊ณ , \(x \le 0\)์ผ ๋ \(f(x) = 0\)์ ๋๋ค. ์ ์์ญ์ ๋ชจ๋ ์ค์ \((-\infty,\ +\infty)\)์ด๋ฉฐ, ์น์ญ์ \([0,\ +\infty)\)์ ๋๋ค. ReLU๋ ์ด๋์์๋ ์ฐ์์ด์ง๋ง, ๋ํจ์๋ ์๋ฐํ ๋งํ๋ฉด \(x = 0\)์ธ ์ง์ ์์ ์ ์๋์ง ์์ต๋๋ค. ๊ด๋ก์ ์ด ์ง์ ์ ๊ฐ์ 0์ผ๋ก ๋์ด \(x \le 0\)์ด๋ฉด \(f'(x) = 0\), \(x > 0\)์ด๋ฉด \(f'(x) = 1\)๋ก ์ ํฉ๋๋ค. ๋๋์ ์ด ํฌํจ๋์ง ์์ผ๋ฏ๋ก ๋ฐ๋ก ์ฃผ์ํด์ผ ํ ์์ธ ์ํฉ์ ์์ต๋๋ค.
์์ ๋ก ํ์ด๋ณด๊ธฐ
\(x = -3.2\)๋ผ๊ณ ํฉ์๋ค. \(-3.2\)๋ ์์์ด๋ฏ๋ก $$f(x) = \max(0,\ -3.2) = 0$$์ด ๋ฉ๋๋ค. ๋ฐ๋๋ก \(x = 7\)์ด๋ผ๋ฉด $$f(x) = \max(0,\ 7) = 7$$์ ๋๋ค. ๊ธฐ๋ณธ ์ ๋ ฅ๊ฐ์ธ \(x = 0.5\)์ ๊ฒฝ์ฐ์๋ $$f(x) = \max(0,\ 0.5) = 0.5$$๊ฐ ๋ฉ๋๋ค.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
ReLU๊ฐ ์ ์ด๋ ๊ฒ ์ธ๊ธฐ๊ฐ ๋ง๋์? ์๊ทธ๋ชจ์ด๋(sigmoid)๋ tanh๊ฐ ํฐ ์ ๋ ฅ์์ ๊ฒช๋ ๊ธฐ์ธ๊ธฐ ์์ค(vanishing gradient) ๋ฌธ์ ๋ฅผ ํผํ ์ ์๊ณ , 0๊ณผ ๋น๊ตํ๊ธฐ๋ง ํ๋ฉด ๋๋ ๊ณ์ฐ์ด ๋งค์ฐ ๊ฐ๋จํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
x = 0์ผ ๋๋ ์ด๋ป๊ฒ ๋๋์? ํจ์๊ฐ์ 0์ด๊ณ , ๋ํจ์๋ ๊ด๋ก์ 0์ผ๋ก ๋ด ๋๋ค.
ReLU, ์๊ทธ๋ชจ์ด๋, ์ํํธ๋งฅ์ค์ ์ฐจ์ด๋ ๋ฌด์์ธ๊ฐ์? ์๊ทธ๋ชจ์ด๋๋ ๊ฐ์ \((0,\ 1)\) ๋ฒ์๋ก ์์ถํ๊ณ , ์ํํธ๋งฅ์ค๋ ๋ฒกํฐ ์ ์ฒด์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ง๋ค์ด ๋ ๋๋ค. ๋ฐ๋ฉด ReLU๋ ๋จ์ผ ๊ฐ์ 0 ์ด์์ด ๋๋๋ก ์ ๋ฅํ ๋ฟ์ ๋๋ค.