Meta, Llama 4 공식 GGUF 양자화 가중치 공개—로컬 추론 문턱 낮춰
Meta가 Llama 4 Scout 및 Maverick 모델의 공식 GGUF 양자화 가중치를 Hugging Face에 직접 배포하기 시작했다. 기존에는 커뮤니티 변환본에 의존해야 했으나, 이제 Meta가 직접 Q4_K_M·Q8_0 등 주요 비트 수 변형을 제공해 재현성과 신뢰성이 높아진다. 16GB VRAM 환경에서 Llama 4 Scout 17B Q4_K_M을 llama.cpp로 구동하는 레퍼런스 명령어도 함께 공개됐다.
공개 가중치 종류와 요구 사양
Meta가 공개한 공식 GGUF 파일 목록은 다음과 같다.
| 모델 | 양자화 | 파일 크기 | 권장 VRAM | |---|---|---|---| | Llama 4 Scout 17B | Q4_K_M | 약 10.5 GB | 16 GB | | Llama 4 Scout 17B | Q8_0 | 약 18 GB | 24 GB | | Llama 4 Maverick 400B | Q2_K | 약 148 GB | 2×80 GB | | Llama 4 Maverick 400B | Q4_K_M | 약 232 GB | 4×80 GB |
Scout 17B Q4_K_M 기준 M2 Max MacBook Pro(96 GB 통합 메모리)에서도 구동 가능하며, Meta 레퍼런스 기준 토큰 생성 속도는 약 32 tok/s로 측정됐다.
왜 공식 배포가 중요한가
기존 커뮤니티 GGUF 변환본은 변환 스크립트 버전·파라미터 설정이 제각각이어 같은 모델이라도 결과물이 달랐다. Meta 공식 가중치는 라이선스 명확화(Llama 4 Community License 준수 여부 추적 용이), 체크섬 보장(SHA-256 해시 공식 제공), 업스트림 동기화(파인튜닝 베이스로 사용 시 재현성 확보) 측면에서 차별화된다.
한국 개발자 활용 시나리오
온프레미스 LLM 서비스: 금융·의료 등 데이터 외부 전송이 제한된 환경에서 자체 서버에 Scout Q4_K_M을 배포하는 데 드는 허들이 낮아진다. 파인튜닝 베이스라인: 공식 FP16 가중치에서 GGUF로 직접 변환하는 파이프라인 없이 공식 Q8_0을 LoRA 어댑터 병합 후 추론 베이스로 쓸 수 있다. llama.cpp 구동 예시:
./llama-cli \
-m llama-4-scout-17b-q4_k_m.gguf \
-ngl 99 \
--ctx-size 131072 \
-p "한국어로 답변하세요: {prompt}"
-ngl 99 플래그로 GPU 레이어 오프로드를 최대화하면 CPU 병목을 최소화할 수 있다.