1,200개 이상의 정성껏 선별된 기사가 포함된 이 데이터셋은 대학생들을 위한 정신 건강, 피트니스, 영양, 관계 등 중요한 분야를 다룹니다. 각 기사는 학생들의 관심사와 선호에 맞춰 작성되었습니다.
학술 교과서 및 STEM Q&A 데이터셋
12,000권 이상의 영어 학술 교과서가 포함된 이 데이터셋은 다양한 과목을 다룹니다. 비즈니스 및 경영학, 환경 과학, 의학, 비선형 과학, 생명 과학, 수학, 아시아 연구, 경제학 및 금융학, 공학, 화학, 나노기술, 물리학, 사회 과학, 건축학, 컴퓨터 과학 등 다양한 분야에서 제공됩니다. 이 데이터 셋에는 STEM Q&A만을 포함하는 100권의 교과서가 있어 LLM 미세 조정을 위한 완벽한 자료입니다.
영어 팟캐스트 데이터셋 – 일반 주제
2,000시간 분량의 라이브 영어 팟캐스트 데이터로, 일반적인 학습 주제를 다룬 음성 데이터입니다.
영어 팟캐스트 데이터셋 – 스포츠 대화
메이저 리그 축구에 관한 54.2시간 분량의 라이브 영어 팟캐스트 데이터입니다.
영어 팟캐스트 데이터셋 – 동기 부여
스포츠 및 피트니스 활동에 관한 97.3시간 분량의 라이브 영어 팟캐스트 데이터입니다.
영어 팟캐스트 데이터셋 – 자기 계발
라이프스타일에 관한 41.5시간 분량의 라이브 영어 팟캐스트 데이터입니다.
영어 배우 음성 데이터
시와 오디오 드라마 등 다양한 장르의 44 kHz 고품질 녹음으로 구성된 81시간 분량의 전문 영어 배우 음성 데이터입니다.
영어 대화 녹음 데이터셋
은행, 헬스케어, 리테일, 보험, 통신 등 다양한 산업에서 수집된 3,345시간 분량의 자연스러운 영어 대화 데이터입니다. 영국, 미국, 아일랜드, 호주, 인도 등 다양한 영어권 국가의 모국어 화자들의 실제 대화를 기반으로 하며, 일상생활 속 다양한 상황을 담고 있습니다.