약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
수학 학술 데이터셋
8,752건의 수학 논문과 저널, 344권의 학술 서적(참고 문헌 1,638건 포함)으로 구성된 1억 6천만 단어 규모의 영어 데이터셋입니다. 대학원 및 수학 올림피아드 수준의 문제 세트, 고급 교과서, 교수진 Q&A 등 다양한 고급 수학 자료를 포함하여, 수학 특화 LLM 훈련, 자동 문제 생성, 지능형 튜터링 시스템 등 고차원 AI 기술 개발에 최적화된 고품질 학술 데이터셋입니다.
의료 학술 데이터셋
약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
영어 스크립트 1인 화자 녹음 데이터셋
보험, 리테일, 통신, 은행 등 다양한 산업에서 수집된 988시간 분량의 고품질 영어 대화 데이터입니다. 이 데이터는 영국, 미국, 호주 출신의 모국어 화자들에 의해 녹음되었습니다.
영어 IVR 데이터셋
은행, 통신, 보험, 리테일 분야에서 수집된 1,566시간 분량의 IVR(인터랙티브 음성 응답) 대화 데이터입니다. 미국, 영국, 인도 출신의 사람들이 IVR 시스템에 작성한 쿼리를 포함하여, 실제 상황에서 발생하는 다양한 주제의 대화 데이터를 제공합니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.
의사-환자 대화문 데이터셋
80개 이상의 전문 분야와 50,000개 이상의 대화가 포함된 이 데이터셋은 실제 사용자들로부터의 질문과 이를 검증된 의사, 치료사, 건강 전문가들이 답변한 내용을 제공합니다. 우울증, 불안 등 다양한 주제로 태깅되어 있으며, AI 기반 헬스케어 솔루션에 최적화된 자료입니다.
영어 팟캐스트 데이터셋 – 자기 계발
라이프스타일에 관한 41.5시간 분량의 라이브 영어 팟캐스트 데이터입니다.
영어 배우 음성 데이터
시와 오디오 드라마 등 다양한 장르의 44 kHz 고품질 녹음으로 구성된 81시간 분량의 전문 영어 배우 음성 데이터입니다.
의사-환자 영어 대화 녹음 데이터셋
2,000시간 분량의 인간이 기록하고 태깅한 실시간 의료 대화입니다. 영어로 제공되며, 각 대화는 의료 분야에 맞게 분류 태그가 포함되어 있습니다.