Meta, Llama 4 Maverick 비디오 이해 API 정식 공개
Meta가 Llama 4 Maverick 모델에 비디오 스트림 입력을 지원하는 Video Understanding API를 정식 공개했다. 최대 10분 길이의 MP4·WebM 파일을 직접 업로드하거나 URL로 참조해 장면 분석·요약·타임스탬프 추출이 가능해졌으며, 오픈소스 가중치도 함께 배포돼 온프레미스 환경에서도 활용할 수 있다.
무엇이 달라졌나
Meta는 2026년 6월 26일 Llama 4 Maverick의 Video Understanding API를 정식 GA로 전환했다. 이번 릴리스의 핵심은 최대 10분(600초), 최대 2GB 분량의 비디오 파일을 멀티모달 프롬프트에 직접 첨부할 수 있다는 점이다. 기존 이미지 입력과 동일한 엔드포인트(/v1/chat/completions)를 재사용하므로 기존 Llama 4 Maverick 통합 코드의 변경이 최소화된다.
지원 포맷은 MP4, WebM, MOV이며, 비디오는 내부적으로 **초당 1프레임(최대 600프레임)**으로 샘플링된다. 장면 전환 감지·자막 생성·하이라이트 타임스탬프 추출 등의 태스크를 단일 API 호출로 처리할 수 있다.
오픈소스 가중치와 로컬 실행
Meta는 Video Understanding 기능을 포함한 Llama 4 Maverick 비디오 파인튜닝 가중치를 Hugging Face에 동시 공개했다. 요구 사항은 다음과 같다.
- GPU 메모리: 최소 80 GB VRAM (H100 1장 또는 A100 2장)
- 추론 프레임워크: vLLM 0.9.1 이상, SGLang 0.5 이상
- 라이선스: Llama 4 Community License (상업적 사용 허용, MAU 7억 명 이상 시 별도 계약)
로컬 실행 시 비디오 전처리는 llama-video-utils 공식 패키지로 처리할 수 있으며, ffmpeg 의존성 없이 Python 단독으로 동작한다.
한국 개발자·크리에이터 활용 포인트
숏폼 콘텐츠 자동 편집 파이프라인에 즉시 접목 가능하다. 유튜브·릴스용 영상을 업로드하면 하이라이트 구간과 자막 초안을 자동 추출할 수 있다. 비용은 Meta의 Llama API 기준 공식 페이지 참조이며, 온프레미스 배포 시 추론 비용은 GPU 운영 원가로 대체된다.
교육 플랫폼·OTT 등 비디오 중심 서비스의 백엔드에서 GPT-4o Vision 대비 오픈소스 대안으로 고려할 수 있다는 점이 국내 스타트업에게 특히 유리하다.