k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-06-235분

OpenAI Realtime API, WebRTC 전송 방식 정식 GA—음성 에이전트 레이턴시 200ms 달성

OpenAI가 Realtime API의 WebRTC 전송 모드를 정식 GA로 전환하며 엔드투엔드 음성 응답 레이턴시를 평균 200ms 수준으로 낮췄다. 기존 WebSocket 방식 대비 네트워크 안정성이 개선되어, 한국 내 실시간 음성 인터랙션 서비스 개발 진입 장벽이 크게 낮아졌다.

openairealtime-apivoice

WebRTC 모드 GA의 핵심 변경점

OpenAI는 2026년 6월 23일 Realtime API의 WebRTC 전송 방식을 정식 GA로 전환했다. 기존 WebSocket 방식은 유지되며 두 방식은 병렬 지원된다.

| 항목 | WebSocket(기존) | WebRTC(GA) | |------|---------------|------------| | 평균 레이턴시 | 약 320ms | 약 200ms | | 패킷 손실 복구 | 미지원 | NACK 기반 자동 재전송 | | 브라우저 직접 연결 | 불가(서버 중계 필요) | 가능 | | ICE/STUN 서버 | 자체 구성 필요 | OpenAI 관리형 제공 |

지원 모델 및 가격

GA 시점에서 WebRTC 모드를 지원하는 모델은 gpt-4o-realtime-preview이며, 추후 모델 라인업 확대 예정이다. 가격은 오디오 입력·출력 토큰 단위로 과금되며 정확한 단가는 공식 페이지 참조.

브라우저에서 직접 연결하는 코드 예시

WebRTC GA의 가장 큰 실무 변화는 클라이언트(브라우저)가 OpenAI 서버와 직접 P2P에 준하는 연결을 맺을 수 있다는 점이다. 백엔드 WebSocket 프록시 서버를 별도로 운영할 필요가 없어진다.

// Ephemeral 토큰 발급 (서버사이드)
const tokenRes = await fetch('https://api.openai.com/v1/realtime/sessions', {
  method: 'POST',
  headers: { Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
             'Content-Type': 'application/json' },
  body: JSON.stringify({ model: 'gpt-4o-realtime-preview', voice: 'alloy' })
});
const { client_secret } = await tokenRes.json();

// 클라이언트사이드 WebRTC 연결
const pc = new RTCPeerConnection();
const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
stream.getTracks().forEach(track => pc.addTrack(track, stream));

const offer = await pc.createOffer();
await pc.setLocalDescription(offer);

const sdpRes = await fetch(
  `https://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview`,
  { method: 'POST',
    headers: { Authorization: `Bearer ${client_secret.value}`,
               'Content-Type': 'application/sdp' },
    body: offer.sdp }
);
await pc.setRemoteDescription({ type: 'answer', sdp: await sdpRes.text() });

한국 개발자·크리에이터 활용 포인트

  1. 인터랙티브 튜토리얼 제작: 크리에이터가 음성 기반 학습 콘텐츠를 웹 단독으로 배포할 수 있다. 별도 앱 설치 없이 200ms 내 응답으로 자연스러운 대화형 강의 제작이 가능하다.
  2. 고객 응대 보이스봇: 콜센터 솔루션 개발사가 백엔드 프록시 없이 직접 브라우저↔OpenAI 음성 스트림을 구성해 인프라 비용을 절감할 수 있다.
  3. 접근성 도구: 시각 장애인 대상 웹 접근성 보조 도구에 저레이턴시 음성 인터페이스를 저비용으로 탑재할 수 있는 기반이 마련됐다.

마이그레이션 참고: 기존 WebSocket 방식 Realtime API 코드는 그대로 동작하며 강제 마이그레이션 기한은 공지되지 않았다. 신규 프로젝트라면 WebRTC 모드를 우선 검토할 것을 권장한다.

출처: OpenAI Official Blog