본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.
다국어 법률 문서 템플릿 데이터셋
이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.
의료 문서 및 임상 노트 데이터셋
본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.
대규모 코드 데이터셋
이 데이터셋은 다양한 프로그래밍 언어로 작성된 비공개 소스코드와 코드 관련 파일들(.py, .c, .html 등)로 구성된 고품질 코드 학습용 데이터셋입니다. 총 180억 토큰 규모의 코드 텍스트를 포함하고 있으며, 코드 생성, 자동 완성, 오류 탐지, 보안 취약점 분석 등 소프트웨어 개발 특화 AI 모델 학습에 최적화되어 있습니다.
실제 개발 환경에서 작성된 다양한 언어의 실전 코드가 포함되어 있어, 대형 언어 모델(LLM)의 코드 이해 및 생성 능력 향상에 활용할 수 있습니다.
다장르 미디어 콘텐츠 영상 데이터셋
이 데이터셋은 총 63,928시간 분량의 고품질 영상으로 구성된 대규모 멀티도메인·다국어 미디어 학습 자료입니다.
멀티도메인 고품질 이미지 데이터셋
이 데이터셋은 예술, 자연, 음식, 도시, 우주 등 다양한 시각적 주제(domain)를 포괄하는 1,060만 장 규모의 고해상도 이미지 데이터셋으로, 이미지 분류, 객체 인식, 스타일 전이, 이미지 생성 등 시각 인공지능 모델 학습에 최적화되어 있습니다. 각 이미지는 도메인별 특성이 명확하게 드러나도록 구성되어 있으며, 풍부한 시각 표현과 세부 묘사가 가능한 원본 화질을 유지하고 있어 멀티도메인 생성형 AI 개발에도 활용할 수 있는 고품질 학습 자원입니다.
표정·자세 기반 생체정보 영상 데이터셋
이 데이터셋은 실제 인물 100명을 대상으로 수집된 전신 자세, 표정, 의상 등 생체 정보를 포함한 2,586개의 원본 비디오 데이터와, 다양한 얼굴 각도에서 촬영된 180도 셀피 영상 807개로 구성되어 있습니다. 모든 영상은 전처리 없이 자연스러운 환경에서 촬영되었으며, 감정 표현, 신체 움직임, 의상 및 배경의 다양성이 반영되어 있어, 얼굴·자세 인식, 행동 분석, 신원 확인 등 영상 기반 인식 AI 모델 개발에 최적화된 고품질 멀티모달 학습 자료입니다.
얼굴 이미지 및 감정·신원 데이터셋
이 데이터셋은 인물 얼굴 이미지에 감정, 연령, 신원 등 다양한 주석 정보를 결합한 멀티모달 학습용 데이터로, 총 924,153장의 고품질 얼굴 이미지로 구성되어 있습니다.
STEM 분야 인터넷 강의 데이터셋
이 데이터셋은 자격증, 공무원 시험 대비, 대학 전공 과목, 프로그래밍 등 STEM(과학, 기술, 공학, 수학) 분야를 포괄하는 1,769종의 온라인 강의 데이터를 포함하고 있습니다. 각 강의는 평균 34편의 동영상으로 구성되어 있으며, 총 60,519편의 강의 영상으로 구성된 대규모 교육 콘텐츠입니다. 다양한 학습 목적(입시, 자격 취득, 실무 역량 강화 등)에 따라 세분화된 커리큘럼으로 구성되어 있어, 교육 AI 모델 개발, 콘텐츠 분석, 학습 추천 시스템 등 다양한 응용 분야에서 활용이 가능합니다.
코딩 강의 자료 및 코드 데이터셋
이 데이터셋은 다양한 프로그래밍 언어와 주제를 기반으로 구성된 총 147종 코딩 강의에 대한 823개 문서로, 학습 수준(초급~고급), 분야(웹, 알고리즘, 데이터 처리 등), 학습 내용별로 세분화된 수업 자료와 실습용 소스코드를 포함하고 있습니다. 텍스트 기반 강의 자료와 함께 실습에 활용된 코드 파일 및 관련 이미지까지 포함된 멀티모달 구성으로, 수준별·단계별 프로그래밍 학습 및 교육 AI 모델 개발에 최적화된 고품질 교육 데이터입니다.