📰 AI 뉴스2026-07-024분

Anthropic, Claude Haiku 4.5 토큰 효율 벤치마크 공개—경량 에이전트 최적 선택지 부상

Anthropic이 Claude Haiku 4.5의 공식 성능 벤치마크와 함께 경량 에이전트 워크플로우 최적화 가이드를 공개했다. 반복 호출이 많은 분류·라우팅·요약 태스크에서 Sonnet 4.6 대비 응답 속도가 최대 2.4배 빠르고 비용이 낮아, 고빈도 자동화 파이프라인 설계 시 모델 선택 기준이 명확해졌다.

anthropicclaudeagents

공개된 벤치마크 핵심 수치

Anthropic이 2026년 7월 1일 공식 문서에 추가한 Claude Haiku 4.5 비교 벤치마크에 따르면, 1,000토큰 미만의 단일 라운드 트립 태스크 기준 평균 응답 레이턴시는 340ms로 측정됐다. 동일 조건에서 Claude Sonnet 4.6은 820ms였다. 코드 생성 정확도(HumanEval 기준)는 Haiku 4.5가 78.3%, Sonnet 4.6이 89.1%로 복잡한 생성 태스크에서는 차이가 있지만, 분류·NER·단문 요약에서는 격차가 2% 이내로 좁혀진다.

어떤 워크플로우에 유리한가

Anthropic이 제시한 권장 사용 패턴은 세 가지다.

라우팅 레이어: 멀티 에이전트 시스템에서 최초 의도 분류를 Haiku 4.5가 담당하고, 복잡한 추론은 Sonnet 4.6 또는 Opus 4로 위임하는 구조.
고빈도 요약: 슬랙·이메일·로그 스트림처럼 분당 수십 건 이상 처리하는 파이프라인.
온디바이스 프록시: Claude Code SDK와 결합해 로컬 IDE에서 린트 피드백·인라인 설명을 실시간 제공.

가격은 공식 페이지 참조.

한국 개발자 적용 포인트

Claude Code 연동: claude-haiku-4-5 모델 ID를 SDK에 명시하면 기존 Sonnet 기반 파이프라인 대비 월 API 비용을 실측 후 조정 가능.
Spring AI / LangChain4j: Java 생태계에서 ChatClient 빌더의 defaultModel 파라미터에 모델 ID를 지정하는 방식으로 전환이 간단하다.
레이턴시 SLA가 500ms 이하인 서비스라면 Haiku 4.5를 1차 후보로 두고 품질 미달 시 폴백하는 패턴을 권장한다.

출처: Anthropic Official Docs

← 이전

Meta, Llama 4 Maverick 한국어 파인튜닝 공식 레시피 공개

OpenAI, o3 모델 Batch API 지원 정식 추가—추론 비용 50% 절감