Google, Gemini 2.5 Flash-Lite 정식 GA—초저비용 고속 추론 API 공개
Google DeepMind가 Gemini 2.5 Flash-Lite를 정식 출시하며 개발자 대상 API를 전면 개방했다. 기존 Flash 대비 추론 속도 40% 향상, 입력 토큰 비용은 절반 수준으로 대규모 배치 처리·실시간 UX가 필요한 프로덕션 환경에 적합하다.
출시 배경과 포지셔닝
Google DeepMind는 2026년 6월 25일 Gemini 2.5 Flash-Lite를 Google AI Studio 및 Vertex AI에서 정식 GA(General Availability)로 전환했다. Flash-Lite는 Gemini 2.5 패밀리 중 가장 경량화된 모델로, 코드 자동완성·문서 요약·실시간 챗봇처럼 레이턴시와 비용이 동시에 중요한 시나리오를 타깃으로 설계됐다. 기존 Gemini 2.5 Flash가 범용 균형 모델이라면, Flash-Lite는 처리량(throughput) 극대화에 최적화돼 있다.
주요 스펙 및 가격
- 컨텍스트 윈도우: 1M 토큰 (입·출력 합산)
- 최대 출력: 8,192 토큰
- 멀티모달 지원: 텍스트·이미지·오디오 입력 (동영상 입력은 Flash 이상)
- 추론 속도: Gemini 2.5 Flash 대비 약 40% 빠른 TTFT(First Token Time)
- 가격: 공식 페이지 참조 (Google AI Studio 무료 티어 내 일 요청 한도 포함)
- Rate Limit: Vertex AI 기준 프로젝트당 기본 4,000 RPM, 엔터프라이즈 협의 가능
한국 리전(asia-northeast3, 서울)에서도 동일 스펙으로 서비스된다.
한국 개발자·크리에이터 활용 포인트
① 실시간 스트리밍 응답이 필요한 서비스: TTFT가 낮아 사용자 체감 응답성이 중요한 고객 지원 봇, 라이브 자막 생성, 인터랙티브 스토리텔링 앱에 즉시 적용 가능하다.
② 대규모 문서 파이프라인: 1M 토큰 컨텍스트를 유지하면서 비용을 Flash 수준보다 낮게 유지할 수 있어, 법률·특허·기술 문서 자동 분류 작업에 적합하다.
③ 모바일·엣지 연동 백엔드: 경량 추론 덕분에 서버 인스턴스를 스케일다운해도 SLA를 충족할 수 있으며, Firebase Extensions와의 공식 통합도 동시 업데이트됐다.
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash-lite")
response = model.generate_content("한국어로 REST API 설계 원칙 3가지를 설명해줘")
print(response.text)
마이그레이션은 모델명 문자열만 교체하면 되며, 기존 Gemini 2.5 Flash SDK와 완전 호환된다.