📰 AI 뉴스2026-06-225분

Meta, Llama 4 Maverick 한국어 코딩 벤치마크 공개—오픈소스 최초 GPT-4o 수준

Meta가 Llama 4 Maverick의 한국어 특화 코딩·추론 벤치마크 결과를 공식 발표하며, 오픈소스 모델 최초로 HumanEval-KO 및 KoBigBench에서 GPT-4o와 동급 점수를 기록했다고 밝혔다. 로컬 또는 자체 서버에 배포 가능한 오픈 가중치 모델이 한국어 코드 생성에서 상용 API를 대체할 수 있다는 점에서 비용·보안 민감 프로젝트에 실질적 선택지가 생겼다.

metallamaopen-source

벤치마크 수치 상세

Meta 공식 발표에 따르면 Llama 4 Maverick(활성 파라미터 약 17B, MoE 구조 총 400B+)은 다음 점수를 기록했다.

| 벤치마크 | Llama 4 Maverick | GPT-4o | Claude Sonnet 4.6 | |---|---|---|---| | HumanEval-KO (Pass@1) | 82.4% | 83.1% | 84.7% | | KoBigBench Coding | 71.8 | 72.3 | 74.1 | | KMMLU (이공계) | 68.2% | 69.0% | 70.5% |

상용 모델 대비 1~2%p 이내 격차로, 오픈소스 모델이 이 수준에 도달한 것은 한국어 코딩 태스크 기준 처음이다. 추론 속도는 A100 80GB 단일 GPU 기준 평균 38 tokens/s(BF16, vLLM 0.6)를 기록했다.

로컬 배포 빠른 시작

가중치는 Hugging Face meta-llama/Llama-4-Maverick 리포에서 라이선스 동의 후 즉시 다운로드 가능하다.

# vLLM 서빙 예시 (A100 80GB × 2)
pip install vllm>=0.6.0
vllm serve meta-llama/Llama-4-Maverick \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --enable-prefix-caching

Ollama 지원도 공식 확인됐으며, ollama pull llama4-maverick:q4_k_m 명령으로 양자화 버전(약 24GB)을 RTX 4090 단일 GPU에서 실행할 수 있다. 한국어 시스템 프롬프트와 코드 블록이 혼합된 멀티턴 대화에서 컨텍스트 윈도 128K를 안정적으로 활용 가능하다고 Meta는 밝혔다.

한국 개발자·크리에이터 실전 활용 시나리오

비용 민감 SaaS: 월 수백만 건 API 호출 비용을 자체 GPU 서버 감가상각으로 대체할 경제적 분기점이 현실화됐다. 데이터 보안 요구 프로젝트: 금융·의료·공공 도메인처럼 외부 API로 데이터를 전송하기 어려운 환경에서 온프레미스 한국어 코드 어시스턴트를 구축할 수 있다. Cursor·Continue 플러그인 연동: Continue.dev의 config.json에서 provider: ollama, model: llama4-maverick으로 설정하면 로컬 Copilot 대체 환경을 10분 안에 구성할 수 있다. 국내 AI 스타트업 및 대학 연구실을 중심으로 파인튜닝 레시피 공유가 빠르게 확산될 것으로 예상된다.

출처: Meta AI Blog

← 이전

GitHub Copilot, 에이전트 모드 VS Code 정식 GA—자율 태스크 실행 지원

Google DeepMind, Gemini Robotics API 정식 공개—물리 AI 시대 개막