신문 지면 OCR 및 광고 영역 라벨링 데이터셋

본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.

활용 사례 및 분야

  • OCR 기반 신문 기사 인식 및 재구성
    지면 단위의 이미지에 기사별 영역 정보와 OCR 텍스트가 포함되어 있어, 문서 레이아웃 인식, 기사 자동 분리, 디지털 뉴스 콘텐츠 변환 등 다양한 OCR 후처리 모델 개발에 활용됩니다.
  • 신문 광고 탐지 및 분류
    광고 영역 정보 및 OCR 결과를 활용하여 광고와 기사를 구분하는 자동 분류 시스템, 광고 탐지 알고리즘, 광고 이미지 분석 기반 마케팅 솔루션 등에 적용할 수 있습니다.
  • 멀티모달 문서 이해 및 레이아웃 분석
    시각적 구조와 텍스트가 결합된 지면 데이터는 LayoutLM, Donut 등 멀티모달 문서 인식 모델의 학습 데이터로 활용되어, 뉴스 문서의 시각-텍스트 이해 능력을 향상시킬 수 있습니다.
  • 언론사별 기사 배치 및 레이아웃 스타일 분석
    동일한 형식의 신문 지면 데이터를 활용해 언론사별 기사 구성, 레이아웃 패턴, 텍스트 흐름 분석 등에 기반한 미디어 연구 및 뉴스 큐레이션 자동화가 가능합니다.
  • 시각 기반 뉴스 탐색 및 검색 시스템
    지면 기반 기사·광고 영역을 활용해 이미지 기반 뉴스 검색, 광고 탐지 기반 추천 시스템, 시각적 기사 클러스터링 등 정보 검색 모델 개발에 적용할 수 있습니다.

데이터셋 스펙

  • 데이터 타입: 텍스트 및 이미지
  • 데이터 분량
    • 신문 지면 라벨링 데이터: 연간 4,000,000건 (기간별 누적 데이터)
    • 신문 지면 광고 데이터: 100,000건
  • 데이터 정보
    • 신문 지면 라벨링 데이터
      • 기사 영역 및 텍스트 위치 박스 (bounding box)
      • OCR 결과 텍스트
    • 신문 지면 광고 데이터
      • 광고 이미지 및 위치 정보
      • OCR 텍스트 추출 결과
  • 언어: 한국어
  • 파일 포맷: json, jpg


샘플데이터 요청

샘플데이터 요청
개인정보 수집 및 이용 동의(필수)
개인정보 수집 및 이용 동의(선택)
광고성 정보 수신 동의(선택)