MCP๋กœ ์—ฐ๊ฒฐ โ†’

๊ณ„์‚ฐ ์ž…๋ ฅ

์ž„์˜์˜ ์‹ค์ˆ˜(์Œ์ˆ˜, 0, ์–‘์ˆ˜ ๋ชจ๋‘ ๊ฐ€๋Šฅ).

๊ณต์‹

๊ด‘๊ณ 

๊ฒฐ๊ณผ

f(x) = ReLU(x)
0.5
๋ฌด์ฐจ์›
์ž…๋ ฅ x 0.5
f(x) = max(0, x) 0.5
๋„ํ•จ์ˆ˜ f'(x) 1

ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ž€?

ReLU๋Š” 'Rectified Linear Unit(์ •๋ฅ˜ ์„ ํ˜• ์œ ๋‹›)'์˜ ์•ฝ์ž๋กœ, ์˜ค๋Š˜๋‚  ๋”ฅ๋Ÿฌ๋‹๊ณผ ์‹ ๊ฒฝ๋ง์—์„œ ๊ฐ€์žฅ ๋„๋ฆฌ ์“ฐ์ด๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ๋Š” \(f(x) = \max(0,\ x)\)๋กœ ์ •์˜๋˜๋ฉฐ, ์–‘์ˆ˜ ์ž…๋ ฅ์€ ๊ทธ๋Œ€๋กœ ํ†ต๊ณผ์‹œํ‚ค๊ณ  ์Œ์ˆ˜(๊ทธ๋ฆฌ๊ณ  0)๋Š” 0์œผ๋กœ ์ž˜๋ผ๋ƒ…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‹จ์ˆœํ•œ ๊ทœ์น™๋งŒ์œผ๋กœ ๋„คํŠธ์›Œํฌ์— ๋น„์„ ํ˜•์„ฑ์„ ๋”ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ฑฐ์˜ ๋“ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต๊ณผ ์™„์ „ ์—ฐ๊ฒฐ ๊ณ„์ธต ๋Œ€๋ถ€๋ถ„์ด ReLU๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ReLU ํ•จ์ˆ˜ ๊ทธ๋ž˜ํ”„. x๊ฐ€ ์Œ์ˆ˜์ผ ๋•Œ๋Š” 0์œผ๋กœ ํ‰ํ‰ํ•˜๊ณ  x๊ฐ€ ์–‘์ˆ˜์ผ ๋•Œ๋Š” ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€
ReLU ํ•จ์ˆ˜๋Š” ์Œ์ˆ˜ ์ž…๋ ฅ์— ๋Œ€ํ•ด 0์„, ์–‘์ˆ˜ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์ž…๋ ฅ๊ฐ’ ๊ทธ๋Œ€๋กœ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

๊ณ„์‚ฐ๊ธฐ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•

x ์นธ์— ์›ํ•˜๋Š” ์‹ค์ˆ˜๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๊ณ„์‚ฐ๊ธฐ๊ฐ€ \(f(x) = \text{ReLU}(x)\) ๊ฐ’์„ ๋Œ๋ ค์ค๋‹ˆ๋‹ค. ์Œ์ˆ˜, 0, ์–‘์ˆ˜ ๋ชจ๋‘ ์ž…๋ ฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. x๊ฐ€ 0๋ณด๋‹ค ํฌ๋ฉด ๊ฒฐ๊ณผ๋Š” x์™€ ๊ฐ™๊ณ , x๊ฐ€ 0 ์ดํ•˜์ด๋ฉด ๊ฒฐ๊ณผ๋Š” 0์ด ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ด€๋ก€์ ์ธ ๋„ํ•จ์ˆ˜ ๊ฐ’๋„ ํ•จ๊ป˜ ํ‘œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์–‘์ˆ˜ ์ž…๋ ฅ์ด๋ฉด 1, ๊ทธ ์™ธ์—๋Š” 0์ž…๋‹ˆ๋‹ค.

๊ณต์‹ ์ž์„ธํžˆ ๋ณด๊ธฐ

ReLU ํ•จ์ˆ˜๋Š” ๊ตฌ๊ฐ„๋ณ„๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. \(x > 0\)์ผ ๋•Œ \(f(x) = x\)์ด๊ณ , \(x \le 0\)์ผ ๋•Œ \(f(x) = 0\)์ž…๋‹ˆ๋‹ค. ์ •์˜์—ญ์€ ๋ชจ๋“  ์‹ค์ˆ˜ \((-\infty,\ +\infty)\)์ด๋ฉฐ, ์น˜์—ญ์€ \([0,\ +\infty)\)์ž…๋‹ˆ๋‹ค. ReLU๋Š” ์–ด๋””์—์„œ๋‚˜ ์—ฐ์†์ด์ง€๋งŒ, ๋„ํ•จ์ˆ˜๋Š” ์—„๋ฐ€ํžˆ ๋งํ•˜๋ฉด \(x = 0\)์ธ ์ง€์ ์—์„œ ์ •์˜๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ด€๋ก€์ƒ ์ด ์ง€์ ์˜ ๊ฐ’์„ 0์œผ๋กœ ๋‘์–ด \(x \le 0\)์ด๋ฉด \(f'(x) = 0\), \(x > 0\)์ด๋ฉด \(f'(x) = 1\)๋กœ ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋ˆ—์…ˆ์ด ํฌํ•จ๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๋”ฐ๋กœ ์ฃผ์˜ํ•ด์•ผ ํ•  ์˜ˆ์™ธ ์ƒํ™ฉ์€ ์—†์Šต๋‹ˆ๋‹ค.

์˜ˆ์ œ๋กœ ํ’€์–ด๋ณด๊ธฐ

\(x = -3.2\)๋ผ๊ณ  ํ•ฉ์‹œ๋‹ค. \(-3.2\)๋Š” ์Œ์ˆ˜์ด๋ฏ€๋กœ $$f(x) = \max(0,\ -3.2) = 0$$์ด ๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ \(x = 7\)์ด๋ผ๋ฉด $$f(x) = \max(0,\ 7) = 7$$์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์ž…๋ ฅ๊ฐ’์ธ \(x = 0.5\)์˜ ๊ฒฝ์šฐ์—๋Š” $$f(x) = \max(0,\ 0.5) = 0.5$$๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

ReLU๊ฐ€ ์™œ ์ด๋ ‡๊ฒŒ ์ธ๊ธฐ๊ฐ€ ๋งŽ๋‚˜์š”? ์‹œ๊ทธ๋ชจ์ด๋“œ(sigmoid)๋‚˜ tanh๊ฐ€ ํฐ ์ž…๋ ฅ์—์„œ ๊ฒช๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient) ๋ฌธ์ œ๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ๊ณ , 0๊ณผ ๋น„๊ตํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด ๋˜๋‹ˆ ๊ณ„์‚ฐ์ด ๋งค์šฐ ๊ฐ„๋‹จํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

x = 0์ผ ๋•Œ๋Š” ์–ด๋–ป๊ฒŒ ๋˜๋‚˜์š”? ํ•จ์ˆ˜๊ฐ’์€ 0์ด๊ณ , ๋„ํ•จ์ˆ˜๋„ ๊ด€๋ก€์ƒ 0์œผ๋กœ ๋ด…๋‹ˆ๋‹ค.

ReLU, ์‹œ๊ทธ๋ชจ์ด๋“œ, ์†Œํ”„ํŠธ๋งฅ์Šค์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”? ์‹œ๊ทธ๋ชจ์ด๋“œ๋Š” ๊ฐ’์„ \((0,\ 1)\) ๋ฒ”์œ„๋กœ ์••์ถ•ํ•˜๊ณ , ์†Œํ”„ํŠธ๋งฅ์Šค๋Š” ๋ฒกํ„ฐ ์ „์ฒด์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋งŒ๋“ค์–ด ๋ƒ…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ReLU๋Š” ๋‹จ์ผ ๊ฐ’์„ 0 ์ด์ƒ์ด ๋˜๋„๋ก ์ •๋ฅ˜ํ•  ๋ฟ์ž…๋‹ˆ๋‹ค.

์ตœ์ข… ์—…๋ฐ์ดํŠธ: