약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
수학 학술 데이터셋
8,752건의 수학 논문과 저널, 344권의 학술 서적(참고 문헌 1,638건 포함)으로 구성된 1억 6천만 단어 규모의 영어 데이터셋입니다. 대학원 및 수학 올림피아드 수준의 문제 세트, 고급 교과서, 교수진 Q&A 등 다양한 고급 수학 자료를 포함하여, 수학 특화 LLM 훈련, 자동 문제 생성, 지능형 튜터링 시스템 등 고차원 AI 기술 개발에 최적화된 고품질 학술 데이터셋입니다.
의료 학술 데이터셋
약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
WorksOne 데이터셋 : SLM Fine Tuning Dataset
크라우드웍스의 자체 SLM 학습을 위해 설계된 이 데이터셋은 기업들이 실제 업무 환경에서 선호하는 표현과 어투를 반영하여 다양한 비즈니스 상황에 적합한 20가지 답변 유형을 체계적으로 담고 있습니다.
전문 지식 Q&A 한국어 데이터셋
법률, 세금·세무, 인사·노무, 의료, 약료, 반려동물, 치과, 한방, 무역, 보험, 재무설계, 과학, 부동산, 교통사고, 영양・식단, 육아·아동, 경제·금융, 인문·예술 등 총 17개 분야에 걸친 전문 지식 기반의 한국어 질의응답(Q&A) 데이터로 구성되어 있습니다.
음악 악기 연주 트랙 데이터셋
60,000개의 원본 악기 음악 트랙이 포함되어 있으며, 각 트랙은 평균 3-5분 길이로 10에서 25개의 악기를 사용합니다. 이 데이터셋은 음악 추천 시스템 및 고급 음악 검색을 위한 최적의 학습 데이터 셋입니다.
스페인어 IVR 데이터셋
500시간 분량의 스페인어 음성 데이터로 스페인에서 수집된 것으로, 은행, 보험, 리테일, 통신 등의 주요 분야에서 IVR 시스템과의 실제 상호작용을 포함한 자료입니다. 고객의 질문과 응답을 통해 IVR 시스템에서의 실제 상호작용을 잘 보여주며, 고객 경험과 응답 분석에 중요한 통찰을 제공합니다.
일본어 IVR 데이터셋
은행, 리테일, 통신, 보험 등 다양한 분야에서 수집된 326시간 분량의 일본어 음성 데이터입니다. 일본 모국어 화자들이 IVR 시스템과 상호작용하며, 실제 상황을 반영한 대화들을 포함하고 있습니다.
영어 IVR 데이터셋
은행, 통신, 보험, 리테일 분야에서 수집된 1,566시간 분량의 IVR(인터랙티브 음성 응답) 대화 데이터입니다. 미국, 영국, 인도 출신의 사람들이 IVR 시스템에 작성한 쿼리를 포함하여, 실제 상황에서 발생하는 다양한 주제의 대화 데이터를 제공합니다.
스페인어 스크립트 1인 화자 녹음 데이터셋
558시간 분량의 스크립트 음성 데이터로 멕시코와 스페인의 원어민 화자들이 녹음한 데이터입니다. 은행, 보험, 리테일, 통신 등 다양한 도메인을 포함하며, 일반적인 대화와 특정한 주제의 대화를 모두 제공합니다.