2,500시간 분량의 온라인 그룹 수업 녹화 데이터셋으로, 하나의 사람이 수업을 이끌고 다른 사람들이 적극적으로 참여하는 온라인 미팅 형식의 실시간 상호작용을 캡처한 가치있는 학습 데이터 셋입니다. 이 데이터셋은 교육 환경에서 AI의 잠재력을 열어줍니다.
원격 근무 팟캐스트 비디오 데이터셋
10시간 분량의 원격 근무 관련 공동 작업 팟캐스트 비디오 데이터셋으로, 온라인 원격 환경에서 진행된 라이브 비디오 팟캐스트를 제공합니다. 이 데이터셋은 공동 작업과 원격 협업에 대한 논의와 전략을 다루고 있으며, 원격 근무 인사이트를 제공합니다.
라이브 게임 스트리밍 녹화 데이터셋
200시간 분량의 다양한 인기 콘텐츠 제작자들의 영어 라이브 게임 스트리밍을 포함하며, 게이머 행동, 참여 전략, 시청자 상호작용에 대한 통찰을 제공합니다.
마케팅 비디오 및 소비자 리뷰 데이터셋
550시간 분량의 마케팅 비디오 데이터셋으로, 다양한 제작자가 제공하는 제품 리뷰가 포함되어 있습니다. 물, 운동화, 맥주 브랜드 등 다양한 제품에 대한 소비자 리뷰를 다루고 있으며, 감정 분석과 시장 트렌드 분석에 적합합니다.
사운드 이펙트 데이터셋
500,000개의 트랙이 포함된 이 데이터셋은 최첨단 오디오 인식, 합성, 향상 기술 개발에 최적의 학습 데이셋 입니다. 동물, 자연, 과학 소설, 교통 등 15개의 다양한 카테고리를 포함하고 있으며, 실제 및 시뮬레이션 된 사운드를 폭넓게 다룹니다.
음악 보컬 트랙 데이터셋
12,500개의 보컬 음악 트랙이 포함된 이 데이터셋은 음성 인식, 음성 합성, 감정 탐지 애플리케이션 개발에 최적의 학습 데이셋 입니다. 다양한 오디오 AI 프로젝트에 대한 포괄적인 학습을 보장하는 보컬 트랙 컬렉션을 제공합니다.
멀티모달 수학 경시대회 문제 데이터셋
이 데이터셋은 수학 학습을 위한 고품질 문제들로 구성되어 있으며, 다양한 형식의 데이터를 제공하여 효과적인 학습과 AI 기반 분석을 지원합니다. 기본적인 연산부터 고급 문제 해결까지 다양한 수준의 수학 문제를 포함하며, 텍스트, 수식, 그래프, 이미지 등 멀티모달 요소를 활용하여 더욱 직관적이고 풍부한 학습 경험을 제공합니다.
또한 중·고등학교 수학 경시대회(올림피아드 등) 기출 및 변형 문제를 포함한 고급 수학 문제도 포함되어 있어, 수학적 사고력과 문제 해결 능력을 강화할 수 있습니다. 이 데이터셋은 AI 기반 튜터링 시스템, 대형 언어 모델(LLM) 및 비전 언어 모델(VLM) 훈련을 위한 최적의 학습 리소스로 활용될 수 있으며, 다양한 교육 AI 응용 분야에 적용 가능합니다.
채팅 모더레이션 데이터셋
27M 메시지가 포함된 이 데이터셋은 콘텐츠 창작자와 팬들 간의 소통하는 내용을 다룹니다. 구독 기반 콘텐츠 창작 공간에서의 대화 데이터를 통해 콘텐츠 모더레이션의 역학을 탐구할 수 있습니다. 이 데이터셋은 개인 식별 정보(PII)가 제외된 실시간 영어 데이터를 제공하며, 다양한 대화 주제를 포함하고 있습니다.
학술 교과서 및 STEM Q&A 데이터셋
12,000권 이상의 영어 학술 교과서가 포함된 이 데이터셋은 다양한 과목을 다룹니다. 비즈니스 및 경영학, 환경 과학, 의학, 비선형 과학, 생명 과학, 수학, 아시아 연구, 경제학 및 금융학, 공학, 화학, 나노기술, 물리학, 사회 과학, 건축학, 컴퓨터 과학 등 다양한 분야에서 제공됩니다. 이 데이터 셋에는 STEM Q&A만을 포함하는 100권의 교과서가 있어 LLM 미세 조정을 위한 완벽한 자료입니다.
웰니스 및 라이프스타일 기사 데이터셋
1,200개 이상의 정성껏 선별된 기사가 포함된 이 데이터셋은 대학생들을 위한 정신 건강, 피트니스, 영양, 관계 등 중요한 분야를 다룹니다. 각 기사는 학생들의 관심사와 선호에 맞춰 작성되었습니다.