📰 AI 뉴스2026-07-044분

OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지 포함 학습 데이터 지원

OpenAI가 GPT-4o 모델의 이미지 입력을 포함한 파인튜닝을 정식 일반 공개했다. 텍스트 전용이던 기존 파인튜닝 한계를 넘어 UI 스크린샷, 도면, 제품 이미지 등 멀티모달 학습 데이터를 직접 활용할 수 있어, 커스텀 비전 에이전트·분류 파이프라인 구축이 크게 쉬워진다.

openaifine-tuningmultimodal

무엇이 달라졌나

OpenAI 파인튜닝 API가 기존 텍스트 전용 messages 구조에서 이미지 URL 및 base64 인코딩 이미지를 content 배열에 포함하는 형태로 확장됐다. 학습 데이터 포맷은 Chat Completions와 동일한 구조를 유지하며, 이미지당 최대 해상도는 1024×1024px, 학습 파일 하나당 이미지 포함 샘플은 최대 50,000개까지 허용된다.

// 학습 데이터 예시 (JSONL 한 줄)
{
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "image_url", "image_url": { "url": "https://..." } },
        { "type": "text", "text": "이 UI의 접근성 문제를 설명해줘" }
      ]
    },
    { "role": "assistant", "content": "버튼 대비비가 WCAG AA 기준 미달입니다..." }
  ]
}

요금 및 제한

| 항목 | 수치 | |---|---| | 학습 토큰 단가 | 공식 페이지 참조 | | 추론 시 입력 이미지 토큰 | 기존 GPT-4o Vision 요금과 동일 | | 최대 학습 스텝 | 10,000 | | 지원 베이스 모델 | gpt-4o-2025-08-06 이상 |

무료 티어 Fine-tuning 크레딧은 텍스트 전용 파인튜닝과 공유되며, 이미지 토큰은 별도 청구된다.

한국 개발자 활용 시나리오

커머스·제조: 제품 이미지 + 불량 레이블 데이터를 학습시켜 커스텀 품질 검사 모델을 API 한 번으로 호출 가능하다. 기존에는 별도 Vision 모델을 파인튜닝하거나 프롬프트 엔지니어링으로 한계를 우회해야 했다.

UI/UX 자동 리뷰: 디자인 시스템 가이드라인을 반영한 학습 데이터를 구성하면, Figma 익스포트 이미지를 넣었을 때 회사 내부 기준에 맞는 리뷰 코멘트를 자동 생성하는 파이프라인을 구축할 수 있다.

출처: OpenAI 공식 문서

← 이전

Anthropic, MCP OAuth 2.1 인증 정식 표준화—서드파티 툴 연결 보안 강화