OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지 포함 학습 데이터 지원
OpenAI가 GPT-4o 모델의 이미지 입력을 포함한 파인튜닝을 정식 일반 공개했다. 텍스트 전용이던 기존 파인튜닝 한계를 넘어 UI 스크린샷, 도면, 제품 이미지 등 멀티모달 학습 데이터를 직접 활용할 수 있어, 커스텀 비전 에이전트·분류 파이프라인 구축이 크게 쉬워진다.
무엇이 달라졌나
OpenAI 파인튜닝 API가 기존 텍스트 전용 messages 구조에서 이미지 URL 및 base64 인코딩 이미지를 content 배열에 포함하는 형태로 확장됐다. 학습 데이터 포맷은 Chat Completions와 동일한 구조를 유지하며, 이미지당 최대 해상도는 1024×1024px, 학습 파일 하나당 이미지 포함 샘플은 최대 50,000개까지 허용된다.
// 학습 데이터 예시 (JSONL 한 줄)
{
"messages": [
{
"role": "user",
"content": [
{ "type": "image_url", "image_url": { "url": "https://..." } },
{ "type": "text", "text": "이 UI의 접근성 문제를 설명해줘" }
]
},
{ "role": "assistant", "content": "버튼 대비비가 WCAG AA 기준 미달입니다..." }
]
}
요금 및 제한
| 항목 | 수치 |
|---|---|
| 학습 토큰 단가 | 공식 페이지 참조 |
| 추론 시 입력 이미지 토큰 | 기존 GPT-4o Vision 요금과 동일 |
| 최대 학습 스텝 | 10,000 |
| 지원 베이스 모델 | gpt-4o-2025-08-06 이상 |
무료 티어 Fine-tuning 크레딧은 텍스트 전용 파인튜닝과 공유되며, 이미지 토큰은 별도 청구된다.
한국 개발자 활용 시나리오
커머스·제조: 제품 이미지 + 불량 레이블 데이터를 학습시켜 커스텀 품질 검사 모델을 API 한 번으로 호출 가능하다. 기존에는 별도 Vision 모델을 파인튜닝하거나 프롬프트 엔지니어링으로 한계를 우회해야 했다.
UI/UX 자동 리뷰: 디자인 시스템 가이드라인을 반영한 학습 데이터를 구성하면, Figma 익스포트 이미지를 넣었을 때 회사 내부 기준에 맞는 리뷰 코멘트를 자동 생성하는 파이프라인을 구축할 수 있다.
주의사항: 학습 데이터 내 개인정보·저작권 이미지 포함 여부를 사전에 반드시 검토해야 하며, OpenAI 사용 정책상 학습 데이터는 데이터 보존 기간(기본 30일) 후 자동 삭제된다.