📰 AI 뉴스2026-07-025분

Meta, Llama 4 Maverick 한국어 파인튜닝 공식 레시피 공개

Meta가 Llama 4 Maverick 17B(활성 파라미터 기준) 모델의 한국어 도메인 특화 파인튜닝을 위한 공식 가이드와 샘플 데이터셋 구성 지침을 Llama 공식 리포지터리에 추가했다. LoRA 랭크 64 기준 A100 80GB 단일 GPU로 8시간 내 수렴 가능한 하이퍼파라미터 세트를 제공해, 국내 스타트업과 개인 개발자의 진입 장벽이 낮아질 전망이다.

metallamafinetuning

공개된 파인튜닝 레시피 상세

Meta가 공개한 llama-recipes 저장소의 ko_finetune 브랜치에는 다음 구성이 포함된다.

| 항목 | 권장값 | |------|--------| | 기법 | LoRA (r=64, alpha=128) | | 배치 사이즈 | 4 (그래디언트 누적 8) | | 학습률 | 2e-4, cosine decay | | 최대 시퀀스 길이 | 8,192 토큰 | | 예상 수렴 스텝 | 3,000~5,000 | | GPU 최소 사양 | A100 80GB × 1 |

샘플 데이터셋은 공공 한국어 말뭉치(국립국어원 개방 데이터)를 기반으로 Alpaca 포맷으로 변환한 10만 건 지침 셋이며, 직접 교체 가능한 구조로 제공된다.

왜 Maverick인가

Llama 4 시리즈 중 Maverick은 혼합 전문가(MoE) 아키텍처 기반으로 전체 파라미터는 400B 이상이지만 추론 시 활성화되는 파라미터는 약 17B다. 한국어처럼 형태소가 풍부한 언어에서 전문가 라우팅이 언어별로 분리되는 경향이 실험적으로 확인되어, 파인튜닝 시 다른 언어 성능 저하 없이 한국어 능력만 선택적으로 끌어올릴 수 있다는 점이 Meta 측 설명이다.

한국 개발자 실전 적용 가이드

환경 설정: pip install llama-recipes 후 finetune.py --dataset ko_alpaca --model_name llama4-maverick 명령 한 줄로 시작.
클라우드 비용 추정: A100 80GB 스팟 인스턴스(AWS p4d 기준) 8시간 → 약 $40~60 예상(온디맨드 대비 70% 절감 가능).
평가 지표: 한국어 파인튜닝 품질 검증에는 KMMLU와 Ko-H4 벤치마크를 병행 사용하도록 가이드에 명시돼 있다.
서빙: 파인튜닝 완료 후 vLLM 0.8.x의 --enable-lora 옵션으로 LoRA 가중치를 베이스 모델에 동적 로딩해 멀티테넌트 서빙이 가능하다.

출처: Meta Llama GitHub (llama-recipes)

← 이전

Google, Gemini Flash 2.5 배치 API 정식 GA—대규모 문서 처리 비용 50% 절감

Anthropic, Claude Haiku 4.5 토큰 효율 벤치마크 공개—경량 에이전트 최적 선택지 부상