약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
수학 학술 데이터셋
8,752건의 수학 논문과 저널, 344권의 학술 서적(참고 문헌 1,638건 포함)으로 구성된 1억 6천만 단어 규모의 영어 데이터셋입니다. 대학원 및 수학 올림피아드 수준의 문제 세트, 고급 교과서, 교수진 Q&A 등 다양한 고급 수학 자료를 포함하여, 수학 특화 LLM 훈련, 자동 문제 생성, 지능형 튜터링 시스템 등 고차원 AI 기술 개발에 최적화된 고품질 학술 데이터셋입니다.
의료 학술 데이터셋
약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
멀티모달 수학 문항 데이터셋
수학 학습을 지원하는 고품질 문제들로 구성되어 있으며, 다양한 형식의 데이터를 제공하여 효과적인 학습과 AI 기반 분석을 지원하는 데이터셋입니다.