이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.
내신 시험 대비용 개념서/이론서
이 데이터셋은 중·고등학교 내신 시험 대비를 위한 다양한 교과목(국어, 영어, 수학, 사회, 과학) 문제들을 포함하고 있으며, 각 교과목의 이론서와 문제 풀이 자료를 체계적으로 정리하여 학생들이 효과적으로 시험에 대비할 수 있도록 돕는 자료입니다. 문제와 함께 개념 설명, 연습 문제, 실전 문제 등이 포함되어 있어 학생들이 다양한 학습 스타일에 맞춰 활용할 수 있습니다.
한글 도서 데이터셋
이 데이터셋은 의료, 법률, 금융/경제, 과학, 기술, 인문학 등 여러 도메인에서 각 분야의 전문가 자문을 통해 엄선된 고급 한글 도서들을 포함하고 있습니다. 기초 학문부터 고급 전문 서적에 이르는 다양한 학술 서적, 교과서 등이 포함되어 있으며, AI 모델 학습 및 자연어 처리(NLP) 시스템 훈련을 위한 고품질 데이터셋을 제공합니다.
러시아어 팟캐스트 데이터셋
600시간 분량의 고품질 러시아어 팟캐스트 데이터로, 자연스러운 구어체 표현과 다양한 억양을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
중국어(광동어) 팟캐스트 데이터셋
500시간 분량의 고품질 광동어 팟캐스트 데이터로, 자연스러운 구어체 표현과 다양한 지역 억양을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
중국어(만다린) 팟캐스트 데이터셋
8,950시간 분량의 고품질 만다린어 팟캐스트 데이터로, 자연스러운 구어체 표현과 다양한 지역 억양을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다. 활용 사례 및 분야 데이터셋 스펙
스웨덴어 팟캐스트 데이터셋
14,340시간 분량의 고품질 스웨덴어 팟캐스트 데이터로, 다양한 구어체 표현과 지역 억양을 포함하여 AI의 언어 이해 및 생성 능력을 강화하는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용될 수 있습니다.
이탈리아어 팟캐스트 데이터셋
5,850시간 분량의 고품질 이탈리아어 팟캐스트 데이터로 구어체 표현을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 이탈리아 지역의 라이브 팟캐스트를 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
독일어 팟캐스트 데이터셋
10,800시간 분량의 고품질 독일어 팟캐스트 데이터로, 다양한 지역 억양과 구어체 표현을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 독일어권 지역의 라이브 팟캐스트를 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
프랑스어 팟캐스트 데이터셋
4,300시간 분량의 고품질 프랑스어 팟캐스트 데이터로, 프랑스, 캐나다 및 기타 프랑스어권 지역의 다양한 방언과 구어체를 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.