STEM 분야 인터넷 강의 데이터셋

이 데이터셋은 자격증, 공무원 시험 대비, 대학 전공 과목, 프로그래밍 등 STEM(과학, 기술, 공학, 수학) 분야를 포괄하는 1,769종의 온라인 강의 데이터를 포함하고 있습니다. 각 강의는 평균 34편의 동영상으로 구성되어 있으며, 총 60,519편의 강의 영상으로 구성된 대규모 교육 콘텐츠입니다. 다양한 학습 목적(입시, 자격 취득, 실무 역량 강화 등)에 따라 세분화된 커리큘럼으로 구성되어 있어, 교육 AI 모델 개발, 콘텐츠 분석, 학습 추천 시스템 등 다양한 응용 분야에서 활용이 가능합니다.
활용 사례 및 분야
- AI 기반 교육 추천 시스템
- 분야별, 수준별 강의 콘텐츠를 기반으로 사용자의 학습 이력과 목표에 따라 최적의 학습 콘텐츠를 추천하는 AI 기반 적응형 학습 플랫폼 개발에 활용할 수 있습니다.
- 각 강의 시퀀스를 기반으로 학습 경로 예측 및 진도 추적이 가능한 LLM 기반 에듀테크 서비스 구축에 적합합니다.
- 자동 요약 및 강의 콘텐츠 생성
강의 영상을 기반으로 요약, 키워드 추출, 챕터 분류 등 자연어처리 및 멀티모달 AI 연구에 사용할 수 있으며, 자동 강의노트 생성, 자막 작성, 하이라이트 영상 생성 등에 응용 가능합니다.
- 멀티모달 교육 AI 모델 훈련
대량의 영상 강의 데이터를 활용해 음성, 텍스트, 시각 정보를 통합적으로 처리하는 멀티모달 학습 모델(VLM, AVLM 등)을 훈련시킬 수 있으며, 교육용 생성형 AI 개발에 활용할 수 있습니다.
- 콘텐츠 큐레이션 및 학습 플랫폼 확장
다양한 STEM 분야 강의를 분류하고 정제하여 카테고리별 콘텐츠 큐레이션, 검색 최적화, 플랫폼 UX 개선 등 디지털 학습 서비스 고도화에 활용 가능합니다.
- 시험 대비 학습 자료 개발
자격증 및 공무원 시험 대비용 강의 영상을 기반으로, 학습 흐름에 맞는 예상문제 생성, 실전 모의고사 설계, 챗봇 튜터 개발 등 교육 평가 솔루션에 적용할 수 있습니다.
데이터셋 스펙
- 데이터 타입: 영상, 텍스트 (메타데이터)
- 데이터 분량: 총 60,519편의 강의 영상 (1,769종 강의, 평균 34편/강의)
- 분야: STEM (과학, 기술, 공학, 수학) – 자격증, 공무원, 대학 전공, 프로그래밍 등
- 언어: 한글
- 수준: 초급, 중급, 고급
- 파일 포맷: mp4, mov, avi