Meta, Llama 4 Scout 함수 호출 API 정식 GA—온디바이스 에이전트 구축 문 열려
Meta가 Llama 4 Scout의 Function Calling API를 정식 출시하며 엣지·온디바이스 환경에서도 구조화된 도구 호출 파이프라인을 구성할 수 있게 됐다. 클라우드 의존 없이 로컬 추론 환경에서 에이전트를 운영하려는 한국 개발자에게 실질적인 대안이 생긴 셈이다.
무엇이 달라졌나
Meta는 2026년 6월 28일 Llama 4 Scout(17B 활성 파라미터, MoE 구조)의 Function Calling API를 정식 GA로 전환했다. 이번 업데이트는 단순 텍스트 완성을 넘어 JSON 스키마 기반의 도구 정의와 병렬 함수 호출(parallel tool use)을 공식 지원한다. 기존 베타 대비 호출 성공률이 평균 18%p 향상됐으며, 오류 응답 시 자동 재시도 힌트를 응답 페이로드에 포함한다.
핵심 스펙 및 가격
- 모델: Llama 4 Scout (17B active / 109B total, MoE)
- 컨텍스트 윈도우: 최대 512K 토큰
- 병렬 도구 호출: 최대 8개 함수 동시 호출 지원
- 응답 포맷:
tool_calls배열 포함 OpenAI 호환 JSON 구조 - Meta AI API 요금: 공식 페이지 참조
- 자체 호스팅(Ollama·vLLM 등): 가중치 무료 공개(Meta Llama 4 커뮤니티 라이선스)
한국 개발자는 Hugging Face meta-llama/Llama-4-Scout-17B-Instruct 리포지토리에서 가중치를 직접 내려받아 사용할 수 있다.
한국 개발자 실전 적용 포인트
1. 온프레미스·엣지 에이전트 구축
vLLM 또는 Ollama로 로컬 서버를 띄운 뒤 OpenAI SDK의 base_url만 교체하면 기존 에이전트 코드를 재사용할 수 있다. 데이터를 외부로 보내기 어려운 금융·의료 도메인 프로젝트에 특히 유리하다.
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="llama4-scout",
messages=[{"role": "user", "content": "서울 날씨 알려줘"}],
tools=[{
"type": "function",
"function": {
"name": "get_weather",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"]
}
}
}]
)
2. 비용 구조 비교 클라우드 모델 대비 GPU 서버 초기 비용이 발생하지만, 월 API 호출량이 일정 임계를 넘으면 자체 호스팅이 경제적이다. A100 80GB 1장으로 Scout 4비트 양자화 모델을 올리면 초당 약 40토큰 처리가 가능하다.
3. LangChain·LlamaIndex 연동
두 프레임워크 모두 이번 릴리스 직후 ChatOllama, OllamaFunctions 클래스에서 Scout Function Calling을 공식 지원한다고 밝혔다. 기존 ReAct 에이전트를 Scout 백엔드로 교체하는 마이그레이션 가이드가 각 공식 문서에 추가됐다.