Post

Deep Dive into LlaMA 3 by Hand

Original Article : πŸ‘‰ https://towardsdatascience.com/deep-dive-into-llama-3-by-hand-%EF%B8%8F-6c6b23dc92b2


Lilys AI : πŸ‘‰ https://lilys.ai/digest/659993

Below Summary Note

Deep Dive into LlaMA 3 by Hand ✍️by Srijanie Dey, PhDMay, 2024Towards Data Science

1. 2024λ…„ 5μ›”, ν• λ¦¬μš°λ“œ λŒ€ν•™μ˜ LlaMA 3에 λŒ€ν•œ 심측 탐ꡬ

  • 2024λ…„ 5μ›”, ν• λ¦¬μš°λ“œ λŒ€ν•™ LlaMA 3λ₯Ό 닀룬 Srijanie Dey, PhD의 겉보기와 더 내뢀ꡬ쑰에 λŒ€ν•œ κΈ€.
  • Towards Data Science μ›Ήμ‚¬μ΄νŠΈμ˜ [μ•±μ—μ„œ μ—΄κΈ°] 및 [κ°€μž…ν•˜κΈ°], [둜그인] 링크 제곡.
  • [Medium λ―Έλ””μ—„]은 νšŒμ›κ°€μž…, 둜그인, ν¬μŠ€νŒ…μ„ μœ„ν•œ 링크도 μ œκ³΅ν•˜λ©°, κΈ€μ˜ 상단에 [Top highlight] 이미지 첨뢀.

2. LlaMA 3의 트랜슀포머 μ•„ν‚€ν…μ²˜ 탐ꡬ

  • 릴마 3 λ’€μ˜ 트랜슀포머 μ•„ν‚€ν…μ²˜μ˜ μ„Έμ„Έν•œ λΆ€λΆ„ 및 GenAI μƒνƒœκ³„μ— λŒ€ν•œ 전망 탐색
  • μ•ˆλ°μŠ€ μ‚°λ§₯의 거친 μ‚°μ†μ—μ„œ μ‚¬λŠ” Rio, Rocky, Sierra 3마리의 μ•„λ¦„λ‹€μš΄ 쑴재 이야기
  • μ§€ν˜œλ‘œμš΄ μ–΄λ₯Έμ„ μ°Ύμ•„κ°€ 지식을 μŠ€ν°μ§€μ²˜λŸΌ ν‘μˆ˜ν•˜λ©° ν•¨κ»˜ μΌν•˜κ³  νŒ€μ›Œν¬κ°€ λ„μž„μ˜ μ—΄μ‡ μž„μ„ λ°°μ›Œκ°€λ©° μ„±μž₯
  • RioλŠ” μ—¬ν–‰μžλ“€μ˜ 관점을 μˆ˜μš©ν•˜κ³  μ΄λ„λŠ” μ—­ν• , RockyλŠ” μ‹ μ†ν•œ 해결책을 제곡, SierraλŠ” νž˜μ„ λ‚΄μ–΄μ£Όλ©° ν•¨κ»˜ μ„±κ³΅ν•˜κ³  λ‹€λ₯Έ μ΄λ“€μ—κ²Œ μ˜κ°μ„ μ£ΌλŠ” LlaMA3 슈퍼 라마 삼총사 이야기
  • 지식, μ§€ν˜œ, ν˜‘μ—…μ˜ νž˜μ„ μ „ν•˜λŠ” μ΄μ•ΌκΈ°λ‘œ LlaMA3 κ·Έλ“€μ˜ μ΄μ•ΌκΈ°λŠ” μžˆλŠ” 것을 증λͺ…함

3.Meta의 LlaMA 3 μΆœμ‹œ 및 νŠΉμ§•

  • 2024λ…„ 4μ›” 18일, MetaλŠ” LlaMa 3을 8B와 70B νŒŒλΌλ―Έν„° μ‚¬μ΄μ¦ˆλ‘œ μΆœμ‹œν–ˆλ‹€.
  • 이 λͺ¨λΈμ€ LlaMA 2λ₯Ό λ›°μ–΄λ„˜λŠ” 큰 도약을 μ΄λ£¨μ—ˆμœΌλ©° κ°€μž₯ μš°μˆ˜ν•œ LLM λͺ¨λΈμ„ 지ν–₯ν•œλ‹€.
  • LlaMA 3을 κ°œλ°œν•˜λŠ” 데 쀑점을 λ‘μ—ˆλ˜ 사항은 λͺ¨λΈ μ•„ν‚€ν…μ²˜, 사전 ν›ˆλ ¨ 데이터, 사전 ν›ˆλ ¨ ν™•μž₯, 그리고 μ„€λͺ… fine-tuningμ΄μ—ˆλ‹€.
  • 이에 λŒ€ν•œ 탐ꡬλ₯Ό 돕기 μœ„ν•΄ AWS의 Generative AI Lead인 Edurado Ordax와 μ½œλ‘œλΌλ„ λŒ€ν•™κ΅ λ³΄μšΈλ” 캠퍼슀의 CS ꡐ수인 Tom Yeh와 ν˜‘μ—…ν•˜μ—¬, κΈ°μ—… 및 μ΄ˆκΈ‰ λ‹¨κ³„μ—μ„œ 이 λͺ¨λΈμ„ μ΅œλŒ€ν•œ ν™œμš©ν•  수 μžˆλŠ” 방법을 λͺ¨μƒ‰ν•œλ‹€.

4.LlaMA 3의 νŒŒμ›Œ ν™œμš© λ…Έν•˜μš°

  • 졜근의 관행에 λ”°λ₯΄λ©΄, LLMsλ₯Ό μ‚¬μš©ν•˜κ³  μž‘μ—…ν•˜λŠ” 두 가지 μ£Όμš” 방법은 API 및 μ„Έμ„Έν•œ 쑰정이 μžˆμŠ΅λ‹ˆλ‹€.
  • μ‚¬μš©μžκ°€ LlaMA 3와 μƒν˜Έ μž‘μš©ν•˜λŠ” μ£Όμš” 6λ‹¨κ³„λ‘œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€: 넓은 μΌ€μ΄μŠ€μ˜ μ‚¬μš©μ„ μœ„ν•΄ λͺ¨λΈμ„ κ·ΈλŒ€λ‘œ μ‚¬μš©ν•˜κ±°λ‚˜ μ‚¬μš©μž μ •μ˜ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ— 따라 λͺ¨λΈμ„ μ‚¬μš©ν•˜κ±°λ‚˜ μ›ν•˜λŠ” κ²°κ³Όλ₯Ό μƒμ„±ν•˜λ„λ‘ λͺ¨λΈμ„ κ΅μœ‘ν•˜λŠ” ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ μ‚¬μš© λ“±.
  • 이 λͺ¨λΈμ—μ„œ μ΅œλŒ€ 이득을 μ–»κΈ° μœ„ν•΄ ꢌμž₯λ˜λŠ” 방법은 μ‚¬μš©μžμ—κ²Œ λ§Žμ€ μœ μ—°μ„±μ„ μ œκ³΅ν•˜λŠ” 단계 5둜 μ§„μž…ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.
  • 이 λͺ¨λΈμ„ μ΅œλŒ€ν•œ ν™œμš©ν•˜κΈ° μœ„ν•΄ 도메인 μš”κ΅¬μ‚¬ν•­μ— 맞게 λͺ¨λΈμ„ μ‚¬μš©μžν™”ν•˜λŠ” 것이 μ€‘μš”ν•˜λ©°, μ‹œμŠ€ν…œμ— κ΄€μ—¬ν•˜μ§€ μ•ŠμœΌλ©΄ 졜적의 μ„±κ³Όλ₯Ό μ–»κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€.
  • μ‚¬μš©μžμ™€ ν•¨κ»˜ μž₯μΉ˜μ— λŒ€ν•œ 높은 μˆ˜μ€€μ˜ 그림을 μ œκ³΅ν•˜μ—¬ λͺ¨λΈμ˜ μ‹€μ œ 이점을 얻을 수 μžˆλ„λ‘ μ—”ν„°ν”„λΌμ΄μ¦ˆ μˆ˜μ€€μ˜ 배포λ₯Ό μ‹€ν˜„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

5. LlaMa 3 μ„±κ³΅μ˜ λΉ„κ²° : 트랜슀포머 μ•„ν‚€ν…μ²˜μ™€ μžκ°€ 주의의 κ²°ν•©

  • LlaMa 3이 유λͺ…해진 비결은 트랜슀포머 μ•„ν‚€ν…μ²˜μ— μžˆλ‹€. μ΄λŠ” μ‚°μ—… λ²€μΉ˜λ§ˆν¬μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜κΈ° μœ„ν•΄ κ³ λ„λ‘œ μ΅œμ ν™”λ˜μ–΄ 있음.
  • λ˜ν•œ, LlaMa 3이 Meta의 μž¬λŸ‰μ— μ˜ν•΄ μ˜€ν”ˆ μ†ŒμŠ€λ‘œ 제곡되기 λ•Œλ¬Έμ—, κ°•λ ₯ν•œ μ•„ν‚€ν…μ²˜κ°€ μ–΄λ–»κ²Œ κ΅¬μ„±λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό μƒμ„Ένžˆ μ•Œ 수 μžˆλŠ” Model Card에 μ ‘κ·Όν•  수 μžˆλ‹€.
  • 트랜슀포머 μ•„ν‚€ν…μ²˜μ™€ μžκ°€ μ£Όμ˜κ°€ LlaMa 3μ—μ„œ μ–΄λ–»κ²Œ 역할을 ν•˜λŠ”μ§€μ— λŒ€ν•œ κ°€μž₯ μ€‘μš”ν•œ μ§ˆλ¬Έμ— λŒ€ν•΄ λ…Όμ˜ν•¨.
  • 트랜슀포머 μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ μžμ„Έν•œ λ‚΄μš©μ€ μ—¬κΈ°, μžκ°€ μ£Όμ˜μ— λŒ€ν•œ λ‚΄μš©μ€ μ—¬κΈ°μ—μ„œ 확인 κ°€λŠ₯함.

6.LlaMA 3 λͺ¨λΈμ˜ κΈ°λ³Έ ꡬ성

  • LlaMa 3 λͺ¨λΈμ˜ 8B λ³€ν˜• μ€‘μ—μ„œ μ£Όμš” λ§€κ°œλ³€μˆ˜λŠ” λ‹€μŒκ³Ό κ°™λ‹€.
  • μ£Όμš” λ§€κ°œλ³€μˆ˜λ‘œλŠ” β€˜Layers’, β€˜Attention heads’, β€˜Vocabulary words’, β€˜Feature dimensions’, β€˜Hidden dimensions’, β€˜Context-window size’가 μžˆλ‹€.
  • μ΄λŸ¬ν•œ 값듀이 λͺ¨λΈμ—μ„œ μ–΄λ–»κ²Œ μž‘μš©ν•˜λŠ”μ§€ μ‹€μ œ 숫자λ₯Ό ν™•μΈν•˜λ©° 각각의 μ€‘μš”μ„±μ„ μ•Œμ•„λ³΄μž.
  • λ§₯락-μœˆλ„μš°, μ–΄νœ˜ 크기, 주의-λ ˆμ΄μ–΄, νŠΉμ„± 차원, μˆ¨κ²¨μ§„ 차원, 트랜슀포머 λ‚΄ν•© 등이 λͺ¨λΈμ˜ 핡심적인 뢀뢄을 이룬닀.

7.μ–΄ν…μ…˜ λ ˆμ΄μ–΄μ™€ μ–΄ν…μ…˜ λ ˆμ΄μ–΄ μˆ˜μ™€ μ–΄ν…μ…˜ λ ˆμ΄μ–΄ 수

  • Transformer ν΄λž˜μŠ€λŠ” μ–΄νœ˜ 크기와 λ ˆμ΄μ–΄ 수λ₯Ό μ •μ˜ν•œλ‹€.
  • μ—¬κΈ°μ„œ μ–΄νœ˜ ν¬κΈ°λž€ λͺ¨λΈμ΄ μΈμ‹ν•˜κ³  μ²˜λ¦¬ν•  수 μžˆλŠ” 단어(및 토큰)의 집합을 λ§ν•œλ‹€.
  • μ–΄ν…μ…˜ λ ˆμ΄μ–΄λŠ” λͺ¨λΈμ—μ„œ μ‚¬μš©λ˜λŠ” 트랜슀포머 블둝(μ–΄ν…μ…˜ 및 ν”Όλ“œ-ν¬μ›Œλ“œ λ ˆμ΄μ–΄μ˜ μ‘°ν•©)을 가리킨닀.
  • LlaMA 3의 μ–΄νœ˜ ν¬κΈ°λŠ” 128K둜 맀우 크며, ν•΄λ‹Ή λͺ¨λΈμ—λŠ” 트랜슀포머 λΈ”λ‘μ˜ 32개 볡사본이 μžˆλ‹€.

8.οΈνŠΉμ§• 차원과 μ–΄ν…μ…˜ ν—€λ“œ

  • νŠΉμ§• 차원과 μ–΄ν…μ…˜ ν—€λ“œλŠ” μ…€ν”„ μ–΄ν…μ…˜ λͺ¨λ“ˆλ‘œ μ§„μž…ν•©λ‹ˆλ‹€.
  • νŠΉμ§• 차원은 μž„λ² λ”© κ³΅κ°„μ˜ 토큰 벑터 크기λ₯Ό 가리킀며, μ–΄ν…μ…˜ ν—€λ“œλŠ” 트랜슀포머의 μ…€ν”„ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ–΄ν•˜λŠ” QK λͺ¨λ“ˆλ‘œ 이루어져 μžˆμŠ΅λ‹ˆλ‹€.

9.νžˆλ“  λ””λ©˜μ…˜ 및 ν”Όλ“œν¬μ›Œλ“œ 클래슀

  • νžˆλ“  λ””λ©˜μ…˜μ€ ν”Όλ“œν¬μ›Œλ“œ ν΄λž˜μŠ€μ— μ†ν•˜λ©°, λͺ¨λΈμ˜ μˆ¨κ²¨μ§„ λ ˆμ΄μ–΄ 수λ₯Ό μ§€μ •ν•œλ‹€.
  • LlaMa 3μ—μ„œ νžˆλ“  λ ˆμ΄μ–΄λŠ” νŠΉμ§• λ””λ©˜μ…˜μ˜ 1.3λ°° 크기이닀.
  • λ§Žμ€ 수의 νžˆλ“  λ ˆμ΄μ–΄λŠ” λ„€νŠΈμ›Œν¬κ°€ λ‚΄λΆ€μ μœΌλ‘œ 더 ν’λΆ€ν•œ ν‘œν˜„μ„ μƒμ„±ν•˜κ³  λ‹€λ£° 수 μžˆλ„λ‘ ν•œλ‹€.

10.트랜슀포머 생성 κ³Όμ •κ³Ό νŒŒλΌλ―Έν„° ν•©μΉ˜κΈ°

  • 첫 번째 행렬은 μ–΄ν…μ…˜ λ ˆμ΄μ–΄λ₯Ό 거쳐 μ–΄ν…μ…˜ κ°€μ€‘μΉ˜ νŠΉμ„±μ„ λ§Œλ“ λ‹€.
  • μ‹€μ œ Llama 3 λͺ¨λΈμ—μ„œλŠ” 5x3 ν–‰λ ¬ ν¬κΈ°μ—μ„œ 8K x 4096으둜 μ»€μ§€λŠ”λ°, μ΄λŠ” ꡉμž₯히 κ±°λŒ€ν•˜λ‹€.
  • λ‹€μŒμ€ νžˆλ“  λ ˆμ΄μ–΄κ°€ 5325둜 μ»€μ§€λ©΄μ„œ ν”Όλ“œ ν¬μ›Œλ“œ λ„€νŠΈμ›Œν¬λ‘œ 이뀄지며, λ§ˆμ§€λ§‰ λ ˆμ΄μ–΄μ—μ„œ 4096으둜 λ‹€μ‹œ μΆ•μ†Œλœλ‹€.

11.트랜슀포머 λΈ”λ‘μ˜ λ‹€μΈ΅ ꡬ쑰

  • 32개의 트랜슀포머 블둝이 κ²°ν•©λœ LlaMA 3은 각 λΈ”λ‘μ˜ 좜λ ₯이 λ‹€μŒ λΈ”λ‘μœΌλ‘œ μ „λ‹¬λ˜λ©°, λ§ˆμ§€λ§‰ 블둝에 도달할 λ•ŒκΉŒμ§€ μ§„ν–‰λœλ‹€.
  • 각 트랜슀포머 블둝은 μ—¬λŸ¬ 개의 측으둜 이루어져 있으며, 좜λ ₯은 μ°¨λ‘€λŒ€λ‘œ λ‹€μŒ λΈ”λ‘μœΌλ‘œ μ „λ‹¬λ˜λŠ” ꡬ쑰이닀.

12.λ†€λΌμš΄ LlaMA 3 λͺ¨λΈκ³Ό κ·Έ 효과

  • μž…λ ₯ 맀트릭슀 8K x 128K의 μž„λ² λ”© 처리된 ν›„ 4096 차원 μ΄ν•˜λ‘œ μΆ•μ†Œλ¨.
  • 트랜슀포머 λΈ”λ‘μ—μ„œ νŠΉμ§•μ΄ 32μΈ΅μ—μ„œ 처리되며, μ΅œμ’… 맀트릭슀 ν¬κΈ°λŠ” νŠΉμ§• 차원과 동일.
  • LlaMA 3은 8B 및 70B λͺ¨λΈλ‘œ μΆœμ‹œλ˜μ–΄ μ—¬λŸ¬ μš©λ„μ— 적합함.
  • LlaMA 3이 κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬μ—μ„œ 압도적 μ„±κ³Όλ₯Ό 보이며 λ©”νƒ€μ‚¬λŠ” 더 κ°•λ ₯ν•œ λͺ¨λΈ λ°œν‘œ μ˜ˆμ •.
  • LlaMA λͺ¨λΈμ€ μ•ˆλ°μŠ€ μ‚°λ§₯ μ „μ„€μ²΄κ³„μ˜ 힘과 μ§€ν˜œμ—μ„œ μ˜κ°μ„ λ°›μŒ.
This post is licensed under CC BY 4.0 by the author.