[๋ ผ๋ฌธ AI ๋ฆฌ๋ทฐ] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
MoE ๊ธฐ๋ฐ ํ์ด๋ธ๋ฆฌ๋ Mamba-Transformer ์ํคํ ์ฒ๋ฅผ ํตํด 3.2B ํ์ฑ ํ๋ผ๋ฏธํฐ๋ก 31.6B ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ , ๋คํ๊ฒฝ RLVR ํ์ต์ ๊ฒฐํฉํ์ฌ ์ถ๋ก ์ฒ๋ฆฌ๋์ 3.3๋ฐฐ ๊ฐ์ ํ ํจ์จ์ ์ธ ์์ด์ ํธ ์ถ๋ก ๋ชจ๋ธ์ ์ ์ํ๋ค. ์ฃผ์ ๊ธฐ์ฌ๋ก๋ MoE ๊ตฌ์กฐ ํ์ , ๋๊ท๋ชจ ์ฌ์ ํ์ต ํจ์จ์ฑ, ์์ฑํ ๋ณด์ ๋ชจ๋ธ ๊ธฐ๋ฐ RLHF, ์ ํ์ FP8 ์์ํ, ์์ ํ ์คํ์์ค ๊ณต๊ฐ๊ฐ ์๋ค. ์ฑ๋ฅ ์งํ์์๋ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, ํฅํ ์ฐ๊ตฌ๋ก๋ MoE ๋ผ์ฐํ ์ต์ ํ์ ๊ธด ์ปจํ ์คํธ ์ฑ๋ฅ ํ๋ณต์ด ํ์ํ๋ค.