본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.
멀티도메인 고품질 이미지 데이터셋
이 데이터셋은 예술, 자연, 음식, 도시, 우주 등 다양한 시각적 주제(domain)를 포괄하는 1,060만 장 규모의 고해상도 이미지 데이터셋으로, 이미지 분류, 객체 인식, 스타일 전이, 이미지 생성 등 시각 인공지능 모델 학습에 최적화되어 있습니다. 각 이미지는 도메인별 특성이 명확하게 드러나도록 구성되어 있으며, 풍부한 시각 표현과 세부 묘사가 가능한 원본 화질을 유지하고 있어 멀티도메인 생성형 AI 개발에도 활용할 수 있는 고품질 학습 자원입니다.
얼굴 이미지 및 감정·신원 데이터셋
이 데이터셋은 인물 얼굴 이미지에 감정, 연령, 신원 등 다양한 주석 정보를 결합한 멀티모달 학습용 데이터로, 총 924,153장의 고품질 얼굴 이미지로 구성되어 있습니다.
코딩 강의 자료 및 코드 데이터셋
이 데이터셋은 다양한 프로그래밍 언어와 주제를 기반으로 구성된 총 147종 코딩 강의에 대한 823개 문서로, 학습 수준(초급~고급), 분야(웹, 알고리즘, 데이터 처리 등), 학습 내용별로 세분화된 수업 자료와 실습용 소스코드를 포함하고 있습니다. 텍스트 기반 강의 자료와 함께 실습에 활용된 코드 파일 및 관련 이미지까지 포함된 멀티모달 구성으로, 수준별·단계별 프로그래밍 학습 및 교육 AI 모델 개발에 최적화된 고품질 교육 데이터입니다.
초음파 데이터셋
40,000개의 고품질 초음파 이미지가 포함된 이 데이터셋은 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 애플리케이션에 적합합니다.
심초음파 데이터셋
67,000개의 고품질 심초음파 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
유방촬영술 데이터셋
1,000개의 고품질 유방촬영술 이미지가 포함된 이 데이터셋은 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
핵의학 스캔 데이터셋
6,000개 이상의 핵의학 스캔 시험 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 개발에 적합합니다.
CT 스캔 데이터셋
20,000개 이상의 고품질 CT 스캔 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
스트리트뷰 객체 탐지 데이터셋
1,000만 개의 주석이 달린 이미지를 제공하는 이 스트리트뷰 경계 박스 데이터셋은 10개의 클래스에 대해 AI 개발을 위한 객체 탐지에 최적화된 자원입니다. 한국어, 일본어, 영어로 제공되며, 96 dpi 해상도의 JPG 형식으로 제공됩니다.