Anthropic, Claude Haiku 4.5 Vision 정식 GA—이미지·PDF 멀티모달 지원 확대
Anthropic이 Claude Haiku 4.5에 Vision 기능을 정식 통합하며 이미지·PDF 문서 처리를 API 수준에서 지원한다. Haiku 4.5의 빠른 응답 속도와 저비용 구조를 유지하면서 스크린샷 분석·디자인 시안 리뷰·차트 데이터 추출 등 시각 작업까지 단일 모델로 처리 가능해졌다.
업데이트 개요
Anthropic은 2026년 6월 25일 Claude Haiku 4.5 Vision을 Messages API 및 Bedrock·Vertex 파트너 플랫폼에서 정식 GA로 전환했다. 기존 Haiku 4.5는 텍스트 전용 초고속·저비용 모델로 포지셔닝됐으나, 이번 업데이트로 이미지·PDF 멀티모달 입력을 공식 지원한다. Sonnet·Opus 라인업과 달리 Haiku 4.5 Vision은 처리량 우선 설계를 유지해 대량 이미지 분류·OCR 후처리 파이프라인에 최적화된다.
주요 스펙
| 항목 | 수치 | |---|---| | 최대 이미지 크기 | 이미지당 5MB | | 요청당 이미지 수 | 최대 20장 | | 지원 형식 | JPEG, PNG, GIF, WebP, PDF | | PDF 최대 페이지 | 100페이지 | | 컨텍스트 윈도우 | 200K 토큰 | | 가격 | 공식 페이지 참조 |
한국어 OCR 정확도는 내부 벤치마크에서 인쇄체 기준 98.2%, 손글씨 기준 87.4%를 기록했다고 Anthropic이 밝혔다.
실전 활용 시나리오
① UI/UX 디자인 자동 리뷰: Figma 스크린샷을 API에 전달해 접근성(WCAG) 준수 여부, 버튼 레이블 일관성, 폰트 계층 문제를 자동 감지하는 파이프라인을 구성할 수 있다. Haiku 4.5의 낮은 레이턴시 덕분에 CI/CD 훅에 직접 삽입 가능하다.
② 차트·그래프 데이터 추출: 보고서 PDF의 차트를 JSON 구조로 변환하는 작업에서 Sonnet 대비 ~60% 비용 절감이 가능하다. 정밀도보다 속도가 우선인 대량 처리 단계에 Haiku 4.5 Vision을 쓰고, 불확실한 항목만 Sonnet으로 재검증하는 캐스케이드 패턴이 권장된다.
③ 콘텐츠 크리에이터 워크플로: 유튜브 썸네일 A/B 시안을 업로드해 클릭 유도 문구·색상 대비·텍스트 가독성에 대한 피드백을 자동화할 수 있다.
import anthropic, base64, pathlib
client = anthropic.Anthropic()
image_data = base64.standard_b64encode(
pathlib.Path("design_mockup.png").read_bytes()
).decode("utf-8")
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": image_data}},
{"type": "text", "text": "이 UI 디자인의 접근성 문제를 한국어로 3가지 지적해줘."},
],
}
],
)
print(message.content[0].text)
마이그레이션 및 주의사항
기존 텍스트 전용 Haiku 4.5 호출은 변경 없이 그대로 동작한다. Vision 기능은 요청 페이로드에 이미지 블록이 포함될 때만 활성화되며, 추가 모델 버전 선택 파라미터는 필요하지 않다. 이미지 토큰 계산 방식은 Anthropic 공식 문서의 Vision pricing 섹션에서 확인해야 하며, PDF는 페이지당 토큰 소비가 상이하므로 프로덕션 전 사전 계측을 권장한다.