pieroot log

[논문 AI 리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

2025년 12월 17일

MoE 기반 하이브리드 Mamba-Transformer 아키텍처를 통해 3.2B 활성 파라미터로 31.6B 모델 성능을 달성하고, 다환경 RLVR 학습을 결합하여 추론 처리량을 3.3배 개선한 효율적인 에이전트 추론 모델을 제시한다. 주요 기여로는 MoE 구조 혁신, 대규모 사전학습 효율성, 생성형 보상 모델 기반 RLHF, 선택적 FP8 양자화, 완전한 오픈소스 공개가 있다. 성능 지표에서는 다양한 벤치마크에서 우수한 결과를 보이며, 향후 연구로는 MoE 라우팅 최적화와 긴 컨텍스트 성능 회복이 필요하다.

[논문 AI 리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

2025년 12월 17일

NVIDIA Nemotron 3는 LatentMoE 아키텍처, NVFP4 훈련, 다환경 RL을 통해 효율성과 정확도를 동시에 개선한 모델로, 1M 토큰 맥락에서 Qwen3 대비 3.3배 높은 처리량을 달성하며, 오픈소스로 전체 스택을 공개한다. 주요 기여로는 LatentMoE를 통한 전문가 라우팅 비용 감소, NVFP4로 높은 처리량 달성, MTP로 정확도 개선 등이 있으며, 안전성 및 편향성 평가에 대한 구체적 설명은 부족하다. 연구자와 실무자 모두에게 유용한 자료로 강력히 추천된다.

Open Source

[논문 AI 리뷰] MUON IS SCALABLE FOR LLM TRAINING TECHNICAL REPORT

2025년 12월 4일

Muon 최적화 알고리즘은 대규모 LLM 학습에서 AdamW 대비 약 2배의 계산 효율성을 달성하며, 메모리 최적화된 분산 구현체와 함께 5.7T 토큰 학습한 MoE 모델 'Moonlight'의 우수한 성능을 입증했습니다. 주요 기여로는 안정적 학습을 위한 두 가지 핵심 기술과 메모리 절감형 분산 알고리즘이 포함되며, 오픈소스 자원도 공개되어 향후 연구를 지원합니다. 그러나 비행렬 파라미터 처리와 사전학습-미세조정 불일치 문제는 여전히 해결이 필요합니다.

distributed deep learning

📗 Docs

devstack

2025년 12월 4일

DevStack은 OpenStack 개발 환경을 신속하게 구축할 수 있도록 돕는 스크립트 모음으로, 단일 머신에 복잡한 OpenStack 환경을 쉽게 배포할 수 있게 해줍니다. 주요 특징으로는 빠른 설치, 자동화된 구성, 유연한 커스터마이징이 있으며, 핵심 서비스로는 Keystone, Nova, Glance, Neutron, Cinder, Horizon이 포함됩니다. DevStack은 개발 및 테스트 목적으로 설계되었으며, 프로덕션 환경에는 부적합합니다. 설치는 Git을 통해 DevStack 저장소를 클론하고, local.conf 파일을 설정한 후

[논문 AI 리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

2025년 11월 30일

프롬프트 기반 인터랙션과 대규모 데이터 엔진을 결합하여 단일 이미지에서 전신 메쉬를 복원하는 SAM 3D Body(3DB)는 기존 방법을 초월하는 성능과 일반화 능력을 보여준다. 주요 기여는 프롬프트 가능한 인코더-디코더 아키텍처, 새로운 파라메트릭 메쉬 표현인 모멘텀 휴먼 리그(MHR), VLM 기반 데이터 엔진을 통한 700만 장의 고품질 데이터 구축이다. 3DPW 및 EMDB 벤치마크에서 기존 방법을 초과 달성하며, 사용자 선호도 조사에서 83.8%의 승리율을 기록했다. 그러나 실시간 애플리케이션에 적합하지 않으며, 얼굴 표정 및 미세한 손가락 모션 표현에 한계가 있다. 이 연구는 강력히 추천되며, 데이터 중심 AI와 모델 설계 혁신을 보여준다.

image recognition

[논문 AI 리뷰] SAM 3: SEGMENT ANYTHING WITH CONCEPTS

2025년 11월 15일

개념 기반 프롬프트로 이미지와 비디오에서 모든 객체 인스턴스를 검출·분할·추적하는 새로운 작업인 Promptable Concept Segmentation을 정의하고, 4M 개념과 52M 마스크로 구성된 SA-Co 데이터셋과 혁신적인 SAM 3 모델 아키텍처를 제안하여 성능을 2배 이상 향상시켰다. 이 연구는 멀티모달 AI 및 컴퓨터 비전 분야에서 중요한 기여를 하며, 향후 연구 필요성과 함께 비디오 처리의 효율성 문제와 복잡한 언어 표현 처리 한계를 지적한다.

[논문 AI 리뷰] Hierarchical Reasoning Model

2025년 11월 14일

HRM은 인간 뇌의 계층적 처리를 모방한 새로운 재귀 아키텍처로, 고수준 계획 모듈과 저수준 실행 모듈의 시간척 분리를 통해 조기 수렴을 방지하고 유효 계산 깊이를 극대화한다. 27M 파라미터와 1000개 샘플로 ARC-AGI(40.3%), Sudoku(74.5%), Maze(74.5%)에서 SOTA 모델을 초과하는 성능을 보이며, BPTT 없이 1단계 기울기 근사와 ACT를 통해 훈련 안정성과 효율성을 동시에 달성한다. 그러나 자연어 작업에서의 성능과 내부 메커니즘에 대한 검증은 미비하다.

[논문 AI 리뷰] Efficient Deep Learning with Decorrelated Backpropagation

2025년 11월 12일

Decorrelated Backpropagation(DBP) 알고리즘은 레이어별 입력 비상관화를 통해 대규모 CNN 훈련의 wall-clock time을 최대 50% 단축하고 정확도를 향상시켰다. 패치별 비상관화, 샘플링, 행렬 사전 곱셈 등의 최적화로 실용성을 확보했으며, ImageNet 기준으로 탄소 배출량도 감소시켰다. 그러나 메모리 오버헤드와 하이퍼파라미터 민감성 등의 한계가 있으며, 추가 연구가 필요하다.

image recognition

[논문 AI 리뷰] Scaling Embedding Layers in Language Models

SCONE이라는 새로운 임베딩 기법을 제안하여, 훈련 시 별도의 트랜스포머로 n-gram 임베딩을 학습하고 추론 시 이를 오프-액셀러레이터 메모리에 캐싱하여 GPU/TPU 사용량을 고정하면서도 모델 성능을 확장할 수 있는 방법을 제시한다. 1B 파라미터 모델이 1.9B 베이스라인을 초과하며, FLOPS와 GPU 메모리를 약 48% 절감할 수 있음을 보여준다. 그러나 대규모 모델 검증 부족과 훈련 복잡도가 한계로 지적된다.

[논문 AI 리뷰] mmHSense: Multi-Modal and Distributed mmWave ISAC Datasets for Human Sensing

mmHSense는 제스처 인식, 자세 추정, 위치 파악, 사용자 식별을 위한 6개의 멀티모달 mmWave ISAC 데이터셋을 제안하며, COTS 기기와 SDR을 활용한 분산 측정 구조를 포함한다. ResNet18은 5G 제스처 인식에서 97.75%의 정확도를 달성하고, LoRA 기반 미세 조정으로 파라미터를 640배 감소시키며 재난적 망각 문제를 해결했다. 그러나 데이터셋의 사용자 수가 제한적이며 도메인 적응 문제와 실시간 처리 성능 평가가 부족하다. 추가 연구가 필요하며, mmWave ISAC 및 6G 통신 연구자들에게 유용한 자원으로 추천된다.

[논문 AI 리뷰] RETHINKING INFERENCE PLACEMENT FOR DEEP LEARNING ACROSS EDGE AND CLOUD PLATFORMS: A MULTI-OBJECTIVE OPTIMIZATION PERSPECTIVE AND FUTURE DIRECTIONS

multi-objective optimization

엣지-클라우드 환경에서 딥러닝 추론 배치를 지연, 비용, 프라이버시의 다목적 최적화 문제로 재정의하며, 상호작용 인식 최적화 프레임워크를 제시한다. 모델 분해와 리소스 오케스트레이션을 통합하고, LLM 시대의 새로운 위협과 기회를 식별했으나, 대규모 실증 검증과 실용적 프라이버시 보호 기법 개발이 필요하다.

edge cloud deep learning

inference placement

[논문 AI 리뷰] Mercury: Ultra-Fast Language Models Based on Diffusion

확산 기반 언어 모델 Mercury는 기존 자기회귀 모델보다 최대 10배 빠른 속도로 코딩 작업에서 동등한 품질을 달성함을 입증했다. Mercury Coder Mini와 Small은 각각 1109 tokens/sec 및 737 tokens/sec의 처리량을 기록하며, 다양한 벤치마크에서 GPT-4o Mini와 유사한 성능을 보였다. 그러나 모델 규모와 훈련 비용에 대한 정보가 부족하며, 일반 자연어 처리에 대한 검증이 필요하다. 이 연구는 생성 AI의 효율성 문제에 대한 실용적인 해결책을 제시하며, 특히 코딩 보조 도구 개발자에게 높은 가치를 제공한다.

transformer

[논문 AI 리뷰] KIMI K2: OPEN AGENTIC INTELLIGENCE

1조 파라미터 MoE 구조에 MuonClip 옵티마이저를 결합하여 에이전트 작업에서 오픈소스 SOTA를 달성한 연구로, MuonClip은 손실 스파이크를 제거하고 대규모 에이전트 데이터 합성을 통해 다양한 작업을 자동 생성한다. SWE-bench, ACEBench 등에서 높은 성능을 기록했으나, 복잡한 추론 시 과도한 토큰 생성과 비효율적인 도구 사용 등의 한계가 있다. 향후 QK-Clip의 이론적 근거와 메타 에이전트 메커니즘 연구가 필요하다.

Open Source

[논문 AI 리뷰] Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

scalable long-term memory

Mem0는 LLM의 고정 컨텍스트 한계를 극복하는 장기 기억 아키텍처로, LOCOMO 벤치마크에서 26% 정확도 향상과 91% 지연시간 감소를 달성하였다. 증분식 기억 추출 및 작업 분류 파이프라인을 통해 효율성을 입증하며, 그래프 기반 관계 모델링을 통해 시간적 추론을 지원한다. 그러나 그래프 버전의 비효율성과 평가 범위의 제한이 있으며, 추가 연구가 필요하다. 이 연구는 프로덕션 AI 에이전트 개발자에게 강력히 권장된다.

😎 Daily

k3s deployment

2025년 10월 2일

디플로이먼트는 레플리카셋을 관리하는 상위 개념으로, 롤링 업데이트, 롤백, 배포 일시 중지 및 재개, 스케일링, 블루-그린 및 카나리 배포와 같은 강력한 기능을 제공합니다. 실제 운영 환경에서는 디플로이먼트를 사용하는 것이 권장되며, 이를 통해 애플리케이션을 효율적으로 관리할 수 있습니다.

k3s service

2025년 10월 1일

k3s는 경량화된 쿠버네티스 배포판으로, 서비스 개념을 통해 포드 집합에 대한 단일 접점을 제공하고 안정적인 네트워크 엔드포인트를 유지합니다. 서비스 유형으로는 ClusterIP, NodePort, LoadBalancer, ExternalName이 있으며, 서비스 디스커버리는 환경 변수와 DNS를 통해 이루어집니다. 서비스 라우팅은 레이블 셀렉터와 kube-proxy를 사용하여 관리되며, 서비스 생성 및 상태 확인 방법, 트러블슈팅 팁, 모범 사례도 포함되어 있습니다.

kubernetes

network

🤖 Computer Science

k3s ha 구성

2025년 10월 1일

k3s를 HAProxy와 Keepalived를 사용하여 고가용성 클러스터로 구성하는 방법을 설명합니다. 기본 아키텍처는 여러 대의 k3s 서버 노드, HAProxy, Keepalived로 구성되며, 서버 장애 시에도 클러스터가 작동하도록 합니다. 환경 준비, Keepalived 및 HAProxy 설치, k3s 서버 설치, 클러스터 확인 및 에이전트 노드 추가 방법을 단계별로 안내합니다. 보안 및 성능 최적화에 대한 주의사항도 포함되어 있습니다.

💻 Frontend

k3s replicaset

2025년 10월 1일

레플리카셋은 Kubernetes에서 지정된 수의 파드 복제본을 유지하고 자동 복구, 스케일링, 선언적 관리를 지원하는 중요한 리소스입니다. YAML 파일을 작성하여 레플리카셋을 생성하고, 자가 복구 기능을 테스트하며, 필요에 따라 레플리카 수를 조정할 수 있습니다. 레플리카셋을 통해 서비스 중단 위험을 줄이고 시스템 안정성을 향상시킬 수 있습니다. 다음 단계로는 Deployment 리소스를 학습하는 것이 좋습니다.

The Forward-Forward Algorithm 정리

2025년 9월 26일

딥러닝에서 역전파의 한계와 대안으로 제안된 Forward-Forward 알고리즘은 긍정 및 부정 샘플을 통해 각 레이어의 적합도를 조정하는 방식이다. 이 방법은 각 레이어가 독립적으로 학습할 수 있도록 하며, 레이어 정규화와 RMS 정규화를 통해 특징 학습을 최적화한다. 실험 결과, FF 알고리즘은 기존의 역전파 방식과 유사한 성능을 보이며, 긍정 및 부정 데이터를 활용한 학습이 효과적임을 보여준다. 또한, 수면 상태에서의 데이터 처리 가능성에 대한 연구도 제안되었다.

💻 Frontend

k3s install

2025년 9월 25일

k3s는 경량화된 쿠버네티스 배포판으로, 설치 전 모든 노드의 hosts 파일을 수정해야 하며, 마스터 노드와 워커 노드의 설치 명령어가 제공된다. 설치 후 클러스터 상태를 확인하고, 필요 시 제공된 스크립트를 통해 K3s를 제거할 수 있다. 수동 제거 방법도 설명되어 있다.

install

kubernetes

🤖 Computer Science

k3s

2025년 9월 24일

쿠버네티스는 컨테이너화된 애플리케이션의 자동화된 배포, 확장 및 관리를 위한 오픈소스 플랫폼으로, K3s는 경량 배포판으로 Edge 및 IoT 환경에 적합하다. K3s는 간단한 설치 과정과 낮은 메모리 요구사항을 가지고 있으며, 고가용성, 자동화된 배포, 자원 효율성 등의 장점을 제공한다. 설치를 위해서는 특정 하드웨어와 소프트웨어 요구사항이 필요하다.

Daily

Docs

😎 Daily

openstack 마이그레이션 대꼴박 도전기 -1

2025년 7월 17일

OpenStack 배포를 위한 Kolla Ansible의 설치 및 설정 과정에 대해 설명하며, 초기 수동 설치의 번거로움을 해결하기 위해 자동화의 필요성을 강조합니다. Kolla Ansible을 사용하여 Docker를 통해 OpenStack을 배포하는 방법, 필수 패키지 설치, 설정 파일 구성 및 배포 명령어를 단계별로 안내합니다. 또한, 배포 중 발생할 수 있는 문제와 해결 방법에 대해서도 다룹니다.

nvidia container toolkit used

Docker는 리소스를 효율적으로 사용하며 빠른 시작과 종료가 가능하지만, 커널의 취약점을 공유하는 단점이 있다. NVIDIA의 GPU 가상화는 패스스루와 vGPU 방식으로 이루어지며, NVIDIA Container Toolkit을 통해 GPU 자원에 접근할 수 있다. 설치 과정에서는 NVIDIA 드라이버와 CUDA Toolkit의 매핑이 필요하며, Docker 컨테이너에서 리소스 제한을 설정하는 방법도 설명된다.

portainer install

Docker에서 Portainer CE를 설치하는 방법을 설명하며, 볼륨 생성, 컨테이너 실행, 포트 포워딩 설정, 관리자 계정 생성, GPU 할당 정보 확인 및 최신 버전으로 업데이트하는 절차를 포함합니다. 초기 접속 시 관리자 계정 정보를 기억해야 하며, IP 고정 설정이 중요합니다.

tensorflow 2.12 install

TensorFlow 2.12 설치를 위해 Miniconda를 설치하고, 새로운 conda 환경을 만들며, GPU 설정을 선택적으로 진행한 후 TensorFlow를 pip로 설치하는 방법을 안내합니다. 설치 후 CPU와 GPU 설정 확인을 위한 테스트 코드를 제공하며, Ubuntu 22.04에서 발생할 수 있는 오류와 그 해결 방법도 설명합니다.

openvpn install

Ubuntu 22.04 LTS에서 OpenVPN을 설치하고 설정하는 방법에 대한 가이드로, Easy-RSA와 OpenVPN을 함께 사용하여 VPN을 구축하는 과정이 상세히 설명되어 있다. VPN을 통해 외부에서 안전하게 내부망에 접근할 수 있으며, 필요한 패키지 설치, 인증서 생성, 서버 및 클라이언트 구성, 방화벽 설정, 계정 관리 및 문제 해결 방법이 포함되어 있다. 최종적으로 OpenVPN의 성능과 지연 시간 문제를 언급하며, 향후 WireGuard와 같은 대안에 대한 포스팅을 예고하고 있다.

vscode ssh tunnel 구성