Google, Gemini 2.5 Pro 컨텍스트 캐싱 v2 정식 GA—최대 10M 토큰 캐시
Google DeepMind가 Gemini 2.5 Pro의 컨텍스트 캐싱을 v2로 업그레이드해 정식 공개했다. 캐시 가능한 토큰 상한이 기존 1M에서 10M으로 확장됐고, 캐시 유효 기간이 최대 72시간으로 늘어나 긴 코드베이스나 대규모 문서를 반복 참조하는 에이전트 워크플로의 비용을 대폭 절감할 수 있다.
컨텍스트 캐싱 v2의 주요 변경사항
Google은 2026년 6월 26일 Gemini API에서 Gemini 2.5 Pro의 Context Caching v2를 정식 GA로 전환했다. 이번 업데이트의 핵심 수치는 다음과 같다.
| 항목 | v1 | v2 | |---|---|---| | 최대 캐시 토큰 | 1,000,000 | 10,000,000 | | 캐시 최소 토큰 | 32,768 | 32,768 | | 최대 TTL | 1시간 | 72시간 | | 캐시 저장 비용 | 공식 페이지 참조 | 공식 페이지 참조 | | 캐시 히트 시 입력 비용 | 75% 할인 | 75% 할인 유지 |
캐시 키는 모델명 + 시스템 프롬프트 + 캐시 대상 콘텐츠의 해시로 자동 생성되며, 개발자가 별도 키를 관리할 필요가 없다.
코드베이스 전체를 캐시에 올리는 실전 패턴
10M 토큰은 약 **7,500만 자(한국어 기준 약 2,500만 어절)**에 해당한다. 실제 활용 시나리오는 다음과 같다.
import google.generativeai as genai
# 대규모 코드베이스를 캐시에 올리기
cache = genai.caching.CachedContent.create(
model="gemini-2.5-pro",
contents=[entire_codebase_content], # 최대 10M 토큰
ttl_seconds=72 * 3600, # 72시간 캐시
)
# 캐시를 참조해 반복 질의
model = genai.GenerativeModel.from_cached_content(cache)
response = model.generate_content("이 함수의 버그를 찾아줘")
이 패턴은 Cursor·Claude Code 같은 AI 코드 에디터의 자체 서버 사이드 컨텍스트 관리를 직접 구현하고 싶은 팀에 유용하다.
한국 개발자에게 미치는 영향
레거시 Java·COBOL 코드베이스를 현대화하는 마이그레이션 에이전트 시나리오에서 효과가 크다. 수십만 줄의 소스를 한 번 캐시에 올려두면 이후 수천 건의 파일별 분석 요청 비용을 최대 75% 절감할 수 있다.
또한 RAG 없이 전체 문서를 컨텍스트에 넣는 Long-Context Native 아키텍처가 현실적인 선택지가 됐다. 임베딩·벡터DB 인프라를 생략하고 캐싱 기반 설계로 단순화하는 것을 검토할 시점이다.