신문 지면 OCR 및 광고 영역 라벨링 데이터셋

본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.
활용 사례 및 분야
- OCR 기반 신문 기사 인식 및 재구성
지면 단위의 이미지에 기사별 영역 정보와 OCR 텍스트가 포함되어 있어, 문서 레이아웃 인식, 기사 자동 분리, 디지털 뉴스 콘텐츠 변환 등 다양한 OCR 후처리 모델 개발에 활용됩니다.
- 신문 광고 탐지 및 분류
광고 영역 정보 및 OCR 결과를 활용하여 광고와 기사를 구분하는 자동 분류 시스템, 광고 탐지 알고리즘, 광고 이미지 분석 기반 마케팅 솔루션 등에 적용할 수 있습니다.
- 멀티모달 문서 이해 및 레이아웃 분석
시각적 구조와 텍스트가 결합된 지면 데이터는 LayoutLM, Donut 등 멀티모달 문서 인식 모델의 학습 데이터로 활용되어, 뉴스 문서의 시각-텍스트 이해 능력을 향상시킬 수 있습니다.
- 언론사별 기사 배치 및 레이아웃 스타일 분석
동일한 형식의 신문 지면 데이터를 활용해 언론사별 기사 구성, 레이아웃 패턴, 텍스트 흐름 분석 등에 기반한 미디어 연구 및 뉴스 큐레이션 자동화가 가능합니다.
- 시각 기반 뉴스 탐색 및 검색 시스템
지면 기반 기사·광고 영역을 활용해 이미지 기반 뉴스 검색, 광고 탐지 기반 추천 시스템, 시각적 기사 클러스터링 등 정보 검색 모델 개발에 적용할 수 있습니다.
데이터셋 스펙
- 데이터 타입: 텍스트 및 이미지
- 데이터 분량
- 신문 지면 라벨링 데이터: 연간 4,000,000건 (기간별 누적 데이터)
- 신문 지면 광고 데이터: 100,000건
- 데이터 정보
- 신문 지면 라벨링 데이터
- 기사 영역 및 텍스트 위치 박스 (bounding box)
- OCR 결과 텍스트
- 신문 지면 광고 데이터
- 광고 이미지 및 위치 정보
- OCR 텍스트 추출 결과
- 신문 지면 라벨링 데이터
- 언어: 한국어
- 파일 포맷: json, jpg