국/영/수/사/과 문항·해설 데이터셋

이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.
활용 사례 및 분야
- AI 기반 학습 진단 및 튜터링
- 초·중·고 내신 수준의 영역별·유형별 문항 및 상세 해설 데이터를 활용하여, 학생별 약점 진단과 맞춤형 학습 콘텐츠 추천, 실시간 피드백이 가능한 AI 개인 학습 튜터 개발에 적용할 수 있습니다.
- 지능형 교육용 대형언어모델(LLM)을 training/fine-tuning 하여, 내신 대비 효율적인 학습 솔루션을 구축할 수 있습니다.
- 자동 문제 생성 및 평가 시스템
다양한 난이도와 유형의 실전 문항/정답/해설 데이터를 바탕으로, AI 기반 자동 문제 출제(모의고사·숙제 문제), 자동 채점 및 해설 제공, 평가/진단 AI 솔루션 개발이 가능합니다.
- 멀티모달(텍스트+이미지) 학습 모델
도표, 삽화, 시각정보가 포함된 문항을 활용해 Vision-Language Model(VLM) 등 복합 데이터 해석이 필요한 멀티모달 교육 AI의 학습 데이터로 사용할 수 있으며, 스마트 교과서·교육 로봇 등 첨단 플랫폼 개발에 적용할 수 있습니다.
- 적응형 e-러닝 및 교육 평가 플랫폼
학생별 수준/진도에 따라 맞춤형 문항 자동 추천, 문제 난이도 조정, 응시 결과 분석, 학교별 내신 유형 분석 등 다양한 차세대 디지털 교육 플랫폼의 핵심 평가 모듈에 활용할 수 있습니다.
- 콘텐츠 자동화 및 문제은행 구축
교육 평가기관‧국내외 에듀테크 기업에서 자동 문제은행 구축, 교재 추천/제작, 맞춤형 학습 콘텐츠 제공, 온라인/오프라인 공교육 및 사교육 분야에 폭넓게 적용할 수 있습니다.
- 연구 및 개발
대학, 연구소, AI 스타트업 등에서 교육 특화 LLM, 문제 자동 생성 엔진, 학습 진단 AI, 멀티모달 정보 처리 AI 등 최신 연구 및 서비스 개발에 필수적인 학술 및 실전 데이터로 활용 가능합니다.
데이터셋 스펙
- 데이터 타입: 텍스트 (문항, 정답, 해설), 멀티모달 이미지 (VLM 삽화/도표)
- 데이터 분량: 2,166,604 문항
- 분야: 중등·고등학교 내신(국어, 영어, 수학, 사회, 과학)
- 수준: 초등 6학년~고등 3학년(학교 내신 대비용, 중상 수준)
- 언어: 한글 (일부 영문 문항 포함)
- 파일 포맷: JSON, LaTeX, HTML, PDF, PNG