k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-04-165분

Prompt Caching, 전체 모델 GA — 반복 호출 비용 최대 90% 절감

Opus·Sonnet·Haiku 전 라인업에서 Prompt Caching이 정식 출시됐다. 공통 컨텍스트가 긴 워크로드에서 캐시 적중 시 입력 단가가 약 10분의 1로 떨어진다.

anthropic비용최적화caching

무엇인가

Prompt Caching은 여러 요청에서 공통으로 쓰이는 프롬프트 앞부분을 Anthropic 측에 캐싱해두고, 재호출 시 그 부분은 훨씬 싸게 과금하는 기능이다. RAG·에이전트·긴 시스템 프롬프트 워크로드의 단가 구조를 바꿔놓는다.

비용 구조

| 항목 | 단가 | |---|---| | 캐시 쓰기 (최초 1회) | 일반 입력 × 1.25 | | 캐시 읽기 (재호출) | 일반 입력 × 0.1 | | TTL | 5분 또는 1시간(ephemeral/1h) |

언제 쓰면 이득인가

  1. 공통 프롬프트가 1,024 토큰 이상
  2. 5분 내에 2회 이상 재호출 예상
  3. 공통부와 가변부의 경계가 명확

코드 예 (TypeScript)

await client.messages.create({
  model: "claude-sonnet-4-6",
  system: [
    {
      type: "text",
      text: LONG_SYSTEM_PROMPT,   // 수천~수만 토큰
      cache_control: { type: "ephemeral" },
    },
  ],
  messages: userMessages,
})

실측 예시

  • 시스템 프롬프트 30k + 사용자 입력 500 토큰 × 20회 반복
  • 캐시 미사용: 30,500 × 20 × $3/M = $1.83
  • 캐시 사용: 30k × $3.75/M (쓰기) + 30k × $0.3/M × 19 (읽기) + 500 × $3/M × 20 = $0.30
  • 약 83% 절감

설계 원칙

  • 캐시 가능한 모든 것을 프롬프트 앞쪽에 배치
  • 사용자별 변수·세션별 데이터는 맨 뒤에
  • 공통 컨텍스트 일부만 바뀌어도 캐시 무효화 → 설계 시 명확히 분리
  • usage.cache_read_input_tokens 로 적중률 모니터링
출처: Anthropic Docs