k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-07-024분

Google, Gemini Flash 2.5 배치 API 정식 GA—대규모 문서 처리 비용 50% 절감

Google DeepMind가 Gemini Flash 2.5 모델을 대상으로 Batch API를 정식 출시하며, 실시간 응답이 불필요한 대량 작업에 한해 표준 API 대비 최대 50% 할인된 요금을 적용한다. 비동기 큐 방식으로 최대 24시간 내 결과를 반환하며, 수천 개 문서 요약·분류·임베딩 생성 등 배치성 파이프라인에 즉시 활용 가능하다. 크리에이터·개발자 모두 운영 비용을 크게 낮출 수 있어 프로덕션 도입 장벽이 실질적으로 낮아졌다는 평가다.

googlegeminibatch-api

무엇이 달라졌나

Google DeepMind는 2026년 7월 2일 Google AI Studio 및 Vertex AI에서 Gemini Flash 2.5 Batch API를 정식 GA(General Availability)로 전환했다. 기존 프리뷰 기간 동안 제한적으로 제공되던 배치 처리 기능이 이제 모든 유료 플랜 사용자에게 개방된다.

핵심 변경 사항은 다음과 같다.

  • 요금: 표준 동기 API 대비 입력·출력 토큰 모두 50% 할인 적용 (정확한 단가는 공식 페이지 참조)
  • 처리 방식: 요청을 비동기 큐에 적재 → 최대 24시간 이내 결과 반환 (평균 처리 시간 2~6시간 수준으로 보고됨)
  • 입력 형식: JSON Lines(.jsonl) 파일 업로드 또는 Cloud Storage URI 지정 방식 모두 지원
  • 컨텍스트 윈도우: 단일 요청당 최대 1M 토큰 유지, Flash 2.5의 멀티모달 입력(텍스트·이미지·PDF) 그대로 활용 가능
  • 최소 배치 크기: 제한 없음(1건도 가능하나, 소량은 동기 API가 경제적)

개발자·크리에이터 실전 활용 시나리오

① 대량 문서 요약 파이프라인

수천 개의 PDF 계약서·리포트를 야간 배치로 처리해 다음날 아침 결과물을 받는 구조가 가능해진다. 예를 들어 1,000개 문서(평균 5,000토큰)를 동기 API로 처리할 때 대비 월 비용을 약 절반으로 줄일 수 있다.

import google.generativeai as genai

# 배치 잡 생성 예시 (공식 SDK 기준)
client = genai.Client()
batch_job = client.batches.create(
    model="gemini-2.5-flash",
    src="gs://my-bucket/requests.jsonl",
    config={"dst": "gs://my-bucket/results/"}
)
print(batch_job.name)  # batches/xxxx

② 유튜브·숏폼 콘텐츠 메타데이터 자동 생성

크리에이터 툴 개발사나 MCN 스튜디오에서 수백 개 영상의 자막 파일을 일괄 입력해 제목·설명·태그·챕터를 자동 생성하는 워크플로우에 적합하다.

③ 임베딩 전처리 비용 절감

RAG 파이프라인 구축 시 초기 문서 청크 요약 단계를 배치로 전환하면 인덱싱 비용을 대폭 낮출 수 있다.

주의 사항 및 한계

| 항목 | 내용 | |------|------| | 응답 시간 SLA | 24시간 이내 보장, 실시간 불가 | | 지원 모델 | 현재 Gemini Flash 2.5만 해당 (Pro·Ultra 미지원) | | 지역 | us-central1, europe-west4 등 일부 Vertex AI 리전 우선 지원 | | 취소 정책 | 큐 진입 후 처리 시작 전까지만 취소 가능 |

실시간 응답이 필요한 챗봇·에이전트 루프에는 여전히 동기 API를 사용해야 한다. 또한 현재 함수 호출(Function Calling)과 Search Grounding은 배치 모드에서 미지원이므로, 이를 필요로 하는 파이프라인은 별도 설계가 필요하다.

공식 문서 및 요금 상세는 Google AI for Developers 공식 페이지를 참조한다.

출처: Google AI for Developers