Post

Deep Dive into Transformers by Hand

Original Article : ๐Ÿ‘‰ https://towardsdatascience.com/deep-dive-into-transformers-by-hand-%EF%B8%8E-68b8be4bd813

ChatGPT4o

ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์š”์•ฝํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ฃผ์š” ๊ฐœ๋… ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ฐœ๋…์ธ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜(Attention Weighting)์™€ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ(FFN, Feed-Forward Network)๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

1. ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜ (Attention Weighting)

์–ดํ…์…˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ(A)์€ ์ž…๋ ฅ ํŠน์ง•์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ์ด ๋†’์€ ๋ถ€๋ถ„์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ž…๋ ฅ ํŠน์ง•์„ ์ฟผ๋ฆฌ-ํ‚ค (QK) ๋ชจ๋“ˆ์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ ์ž…๋ ฅ ํ–‰๋ ฌ(์˜ˆ: 3ร—5 ๋งคํŠธ๋ฆญ์Šค)์˜ ๊ฐ ํŠน์ง•๋“ค์ด ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ๊ณผ ๊ณฑํ•ด์ ธ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋ฐ˜์˜ํ•œ ์ƒˆ๋กœ์šด ํŠน์ง•(Z)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ํŠน์ง•์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • Z1 = X1 + X2
  • Z2 = X2 + X3
  • Z3 = X3 + X4
  • Z4 = X4 + X5
  • Z5 = X5 + X1

2. ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ (FFN)

์–ดํ…์…˜ ๊ฐ€์ค‘์น˜๊ฐ€ ์ ์šฉ๋œ ํŠน์ง•(Z)์„ ํ”ผ๋“œํฌ์›Œ๋“œ ์‹ ๊ฒฝ๋ง์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฐ ํŠน์ง•์˜ ์ฐจ์›์„ ๋”ฐ๋ผ ๊ฐ’์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ–‰๋ ฌ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๊ธฐ์กด์˜ ์ฐจ์›์—์„œ ์ƒˆ๋กœ์šด ์ฐจ์›์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ์ฃผ๋กœ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜(ReLU)๋ฅผ ํ†ตํ•ด ์Œ์ˆ˜ ๊ฐ’์„ 0์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋™์ž‘ ๋ฐฉ์‹

  • ์–ดํ…์…˜ ๋‹จ๊ณ„: ์ž…๋ ฅ ํŠน์ง•์„ ์œ„์น˜(์ˆ˜ํ‰์ ์œผ๋กœ)๋ฅผ ๋”ฐ๋ผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํŠน์ง•์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • FFN ๋‹จ๊ณ„: ์ฐจ์›(์ˆ˜์ง์ ์œผ๋กœ)์„ ๋”ฐ๋ผ ๊ฐ’์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ–‰๋ ฌ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ๋‘ ๋‹จ๊ณ„์˜ ์กฐํ•ฉ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์—์„œ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์˜ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์˜ ๋น„๊ฒฐ์ž…๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์˜ํ–ฅ

  • ํŠธ๋žœ์Šคํฌ๋จธ๋Š” 2017๋…„ ๋„์ž… ์ดํ›„ AI ๋ถ„์•ผ์—์„œ ํฐ ๋ณ€ํ™”๋ฅผ ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ CNN ๋ฐ RNN ๋ชจ๋ธ์„ ๋„˜์–ด์„œ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์ดํ›„ ์ƒˆ๋กœ์šด ๋ชจ๋ธ๊ณผ ๊ธฐ์ค€์ด ์ง€์†์ ์œผ๋กœ ๋“ฑ์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์˜ ์•„์ด๋””์–ด๋Š” AI ๋ฐœ์ „์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Lilys AI : ๐Ÿ‘‰ https://lilys.ai/digest/660043

Below Summary Note

Deep Dive into Transformers by Hand โœ๏ธŽby Srijanie Dey, PhDApr, 2024Towards Data Science

1.๏ธโ€๏ธํŠธ๋žœ์Šคํฌ๋จธ์˜ ์„ธ๋ถ€์‚ฌํ•ญ ํƒ๊ตฌ

  • ๋กœ๋ณดํŠธ๋Ÿญ๊ณผ ํŠธ๋žœ์Šคํฌ๋จธ ์˜ํ™”๋ฅผ ์—ฐ์ƒ์ผ€ ํ•˜๋Š” ํ…Œ์Šฌ๋ผ ์‚ฌ์ด๋ฒ„ ํŠธ๋Ÿญ์ด ์ฃผ๊ฑฐ์ง€์— ๋“ฑ์žฅํ•˜๋ฉด์„œ ์ธ๊ณต์‹ ๊ฒฝ๋ง ํŠธ๋žœ์Šคํฌ๋จธ์— ๋Œ€ํ•œ ํƒ๊ตฌ๋ฅผ ์ดˆ๋Œ€ํ•˜๊ณ  ์žˆ๋‹ค.
  • ์•„๋“ค์ด ์„ ํ˜ธํ•˜๋Š” ์ด๋ฆ„ โ€˜๋กœ๋ณดํŠธ๋Ÿญโ€™๊ณผ ํ•จ๊ป˜ ๋Š๊ปด์ง€๋Š” ํ’€ ์„œํด ๊ฐ์„ฑ ์†, ๋กœ๋ด‡๋“ค์ด ์ฐจ๋กœ ๋ณ€์‹ ํ•˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์ด ๋กœ๋ณดํŠธ๋Ÿญ๋“ค์„ ์›€์ง์ด๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ ๋‹ค.
  • ์ €์ž๊ฐ€ ์‚ฝํ™”๋กœ ๊ทธ๋ฆฐ โ€˜๋กœ๋ธŒํ‹ฐ๋จธ์Šค ํ”„๋ผ์ž„โ€™์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ๊ณผ ์˜๊ฐ์— ๋Œ€ํ•œ ๊ณต๊ฐ๋Œ€๋ฅผ ํ˜•์„ฑํ•˜๊ณ ์ž ํ•œ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๊ฐ™์€ ์ธ๊ณต์‹ ๊ฒฝ๋ง ๊ธฐ์ˆ ์€ ๋ฏธ๋ž˜ ์ž๋™์ฐจ์‚ฐ์—…์„ ๊ฒฌ์ธํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•œ๋‹ค.
  • ์ด์™€ ๊ด€๋ จํ•œ ๊นŠ์€ ์ดํ•ด๋ฅผ ์œ„ํ•ด ํฅ๋ฏธ๋กœ์šด ์—ฌ์ •์„ ์ดˆ๋Œ€ํ•œ๋‹ค.

2.Transformers์˜ ํŠน์ง•๊ณผ ํŠน๋ณ„ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜

  • Transformers๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ์‹ ๊ฒฝ๋ง์ด๋‹ค.
  • ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ฌธ๋งฅ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ํŠนํ™”๋œ ์‹ ๊ฒฝ๋ง์ด๋‹ค.
  • ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๋“ค์„ ํŠน๋ณ„ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ๋ผ๋ฒจ์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ•ฉ์„ฑ๊ณฑ ๋˜๋Š” ์ˆœํ™˜์ด ํ•„์š” ์—†๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค.
  • ์ด๋Ÿฌํ•œ ํŠน๋ณ„ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์—๋Š” ๋ฌด์—‡์ด ์žˆ์„๊นŒ?

3.ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์›๋™๋ ฅ: ์ฃผ์˜ ์ง‘์ค‘๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ

  • ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์›๋™๋ ฅ์€ ์ฃผ์˜ ์ง‘์ค‘๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ ๋‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์žˆ๋‹ค.
  • ์ฃผ์˜ ์ง‘์ค‘์€ ๋ชจ๋ธ์ด ๋“ค์–ด์˜ค๋Š” ์‹œํ€€์Šค์˜ ์–ด๋–ค ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•ด์•ผ ํ•˜๋Š”์ง€ ํ•™์Šตํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค.
  • ์ด๋Š” ๋งˆ์น˜ โ€˜์‚ฌ์šฐ๋ก ์˜ ๋ˆˆโ€™์ด ํ•ญ์ƒ ๋ชจ๋“  ๊ฒƒ์„ ์Šค์บ”ํ•˜๊ณ  ๊ด€๋ จ๋œ ๋ถ€๋ถ„์— ๋น›์„ ๋น„์ถ”๋Š” ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์žฌ๋ฏธ์žˆ๋Š” ์‚ฌ์‹ค: ์—ฐ๊ตฌ์ž๋“ค์€ Transformer ๋ชจ๋ธ์„ โ€˜์ฃผ์˜ ๋„ท(Attention-Net)โ€™์œผ๋กœ ๋ช…๋ช…ํ•  ๋ป”ํ–ˆ๋‹ค. ์ฃผ์˜๊ฐ€ ์ด ๋ชจ๋ธ์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

4.๋จธ์‹ ๋Ÿฌ๋‹์—์„œ์˜ FFN์ด๋ž€?

  • ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ FFN์€ ๊ฒฐ๊ตญ ๋…๋ฆฝ๋œ ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ์˜ ๋ฐฐ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก ์ด๋‹ค.
  • ์–ดํ…์…˜๊ณผ ๊ฒฐํ•ฉ๋˜์–ด ์˜ฌ๋ฐ”๋ฅธ โ€˜์œ„์น˜-์ฐจ์›โ€™ ์กฐํ•ฉ์„ ์ƒ์„ฑํ•œ๋‹ค.

5.ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ๊ธฐ์ˆ : Attention๊ณผ FFN

  • Attention ๊ฐ€์ค‘์น˜์™€ FFN์ด ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฐ•๋ ฅํ•จ์„ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
  • Attention ๊ฐ€์ค‘์น˜ ํš๋“๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ(FFN)๋ฅผ ์„ค๋ช…ํ•˜๊ณ , ์ˆœ์ฐจ์  ๊ณ„์‚ฐ๊ณผ ์ƒˆ๋กœ์šด ํŠน์ง• ์กฐํ•ฉ์— ๋Œ€ํ•ด ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  • Attention ๋‹จ๊ณ„๋Š” ์œ„์น˜์— ๋”ฐ๋ผ ๊ธฐ์กด ํŠน์ง•์„ ๊ฒฐํ•ฉํ•˜๊ณ , FFN ๋‹จ๊ณ„๋Š” ํŠน์„ฑ์— ๋”ฐ๋ผ ์ฐจ์›์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ReLU๋ฅผ ํ†ตํ•ด ์Œ์ˆ˜ ๊ฐ’์€ ์ œ๊ฑฐ๋˜๋ฉฐ, ์ตœ์ข… ์ถœ๋ ฅ์€ ๋‹ค์Œ ๋ธ”๋ก์œผ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฐ•๋ ฅํ•จ์„ ์ด๋ฃจ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ํฌ์ธํŠธ๋Š”: 1. Attention์€ ์œ„์น˜์— ๋”ฐ๋ผ ๊ฒฐํ•ฉ, 2. FFN์€ ์ฐจ์›์— ๋”ฐ๋ผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์—์„œ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
This post is licensed under CC BY 4.0 by the author.