📰 AI 뉴스2026-07-014분

Google DeepMind, Gemini Live API 멀티모달 스트리밍 정식 GA

Google DeepMind가 Gemini Live API의 카메라·화면 공유 실시간 스트리밍 기능을 정식 GA로 전환하며, 영상 프레임과 텍스트·음성을 단일 WebSocket 연결로 동시에 처리할 수 있게 됐다. 크리에이터 도구·라이브 튜토리얼 앱·실시간 코드 리뷰 서비스 등 영상 컨텍스트가 필요한 프로덕션 서비스에 즉시 적용 가능하다.

googlemultimodalstreaming

정식 GA 전환 내용 요약

Gemini Live API는 2026년 초 프리뷰로 공개된 이후 이번에 정식 GA로 전환됐다. 핵심 변경 사항은 다음과 같다.

멀티모달 동시 스트리밍: 카메라 영상 프레임(최대 30 fps), 시스템 오디오, 사용자 마이크, 텍스트 메시지를 단일 WebSocket 세션에서 혼합 전송 가능.
화면 공유 스트림 지원: input_type: "screen" 파라미터 추가로 데스크톱·브라우저 탭 스트림을 직접 입력으로 연결.
세션 길이: 프리뷰 대비 최대 세션 시간이 30분으로 연장(기존 10분).
사용 모델: gemini-2.5-flash-live, gemini-2.5-pro-live (가격은 공식 페이지 참조).

크리에이터·개발자 활용 시나리오

라이브 코딩 튜토리얼 제작자는 화면 공유 스트림을 Gemini에 연결해 시청자 질문에 맞춰 실시간으로 코드 설명 자막이나 음성 해설을 자동 생성하는 파이프라인을 구성할 수 있다. 영상 기반 QA 봇 시나리오에서는 제품 데모 영상을 스트리밍으로 입력하면서 사용자가 텍스트로 질문을 던지면, Gemini가 현재 프레임 컨텍스트를 반영한 답변을 즉시 반환한다.

Google AI Studio에서 별도 설정 없이 Live API 탭에서 바로 테스트할 수 있으며, Python SDK google-generativeai>=0.9.0 기준 genai.live.connect() 메서드로 진입한다.

프로덕션 적용 시 유의사항

고해상도(1080p 이상) 영상 스트림은 자동으로 720p로 다운샘플링되므로 세밀한 UI 텍스트 인식이 필요한 경우 클라이언트 단에서 크롭 전처리 권장.
한국어 음성 인식 품질은 gemini-2.5-flash-live 기준 WER(단어 오류율) 공식 벤치마크가 아직 공개되지 않아, 프로덕션 전 자체 테스트 필수.
Vertex AI 경유 사용 시 리전을 asia-northeast3(서울)로 지정하면 왕복 레이턴시를 최소화할 수 있다.

출처: Google DeepMind 공식 블로그 / Google AI for Developers

← 이전

Cursor, Background Agent 정식 GA—원격 병렬 코딩 태스크 자동화

OpenAI, Structured Outputs v2 정식 GA—스키마 복잡도 제한 대폭 완화