이 데이터셋은 총 63,928시간 분량의 고품질 영상으로 구성된 대규모 멀티도메인·다국어 미디어 학습 자료입니다.
국/영/수/사/과 문항·해설 데이터셋
이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.
내신 시험 대비용 개념서/이론서
이 데이터셋은 중·고등학교 내신 시험 대비를 위한 다양한 교과목(국어, 영어, 수학, 사회, 과학) 문제들을 포함하고 있으며, 각 교과목의 이론서와 문제 풀이 자료를 체계적으로 정리하여 학생들이 효과적으로 시험에 대비할 수 있도록 돕는 자료입니다. 문제와 함께 개념 설명, 연습 문제, 실전 문제 등이 포함되어 있어 학생들이 다양한 학습 스타일에 맞춰 활용할 수 있습니다.
국내외 도서 데이터셋
이 데이터셋은 국내 대학출판부, 학술 기관, 전문 협회 및 해외 출판 소스를 기반으로 구축된 고품질 도서 및 텍스트 자료로 구성되어 있습니다. 의료, 법률, 과학기술, 사회과학, 인문학 등 다양한 학문 분야를 포괄하며, 한글·영문·스페인어 등 다국어로 제공됩니다. 기초 학문부터 대학원 수준의 고급 전문서, 교육용 교재, 수험서, 문학작품, 자기개발서까지 포함되어 있으며, AI 언어 모델 학습 및 자연어 처리(NLP), 지능형 교육 시스템 구축 등에 활용 가능한 포괄적 텍스트 자원입니다.
과학 학술 데이터셋
약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
과학 강의 비디오 데이터셋
1,000개의 비디오로 구성된 이 데이터셋은 총 250시간 분량의 영어 강의를 제공합니다. 모든 비디오는 서명 동의를 기반으로하며, 자동 생성된 전사본이 제공됩니다. 각 비디오는 교육적이고 과학적인 주제를 다루며, 각 시뮬레이션에는 1명이 등장합니다.