382시간 분량의 고품질 표준 중국어 음성 데이터로 일반 도메인의 내용을 담고 있습니다. 중국 본토의 원어민 화자들이 참여하여 중국어의 본질과 뉘앙스를 포착하기 위해 신중하게 작성된 스크립트를 사용하여 다양한 표현을 제공합니다.
일본어 스크립트 1인 화자 녹음 데이터셋
일반 도메인 내 다양한 주제를 다룬 102시간 분량의 프리미엄 일본어 음성 데이터입니다. 일본어 대화의 다양한 측면을 반영하며, 다양한 장치에서 일본어 모국어 화자들이 스크립트에 맞춰 녹음한 대화입니다.
영어 스크립트 1인 화자 녹음 데이터셋
보험, 리테일, 통신, 은행 등 다양한 산업에서 수집된 988시간 분량의 고품질 영어 대화 데이터입니다. 이 데이터는 영국, 미국, 호주 출신의 모국어 화자들에 의해 녹음되었습니다.
스페인어 대화 녹음 데이터셋
859시간분량의 자연스러운 스페인어 대화 데이터로 스페인, 멕시코, 미국의 다양한 지역에서 수집된 데이터를 제공합니다. 은행, 보험, 리테일, 통신 등의 분야에서 실제 대화를 기반으로 하며, 일상생활 속 다양한 상황을 담고 있습니다.
표준 중국어 대화 녹음 데이터셋
1,082시간분량의 중국어 음성 데이터로 은행, 보험, 리테일, 통신 등 다양한 분야에서의 대화 데이터를 제공합니다. 중국 본토의 원어민 화자들에 의해 녹음된 것으로, 일상 대화의 실제 모습을 담고 있습니다.
일본어 대화 녹음 데이터셋
은행, 보험, 리테일, 통신 등 다양한 산업에서 수집된 422시간 분량의 자연스러운 일본어 대화 데이터입니다. 일본 모국어 화자들의 실제 대화를 기반으로 하며, 일상생활 속 다양한 상황을 담고 있습니다.
의사-환자 대화문 데이터셋
80개 이상의 전문 분야와 50,000개 이상의 대화가 포함된 이 데이터셋은 실제 사용자들로부터의 질문과 이를 검증된 의사, 치료사, 건강 전문가들이 답변한 내용을 제공합니다. 우울증, 불안 등 다양한 주제로 태깅되어 있으며, AI 기반 헬스케어 솔루션에 최적화된 자료입니다.
다국어 번역문 코퍼스 데이터셋
40개 이상의 언어를 포함한 40억 개의 데이터 유닛을 제공하는 이 병렬 코퍼스 데이터셋은 다국어 번역 애플리케이션, 자연어 처리(NLP), 기계 학습 모델을 발전시키는 데 중요한 리소스입니다. 알바니아어, 아랍어, 아르메니아어 등 다양한 언어 쌍을 포함한 번역을 제공하며, 정확하고 미묘한 번역 도구를 만드는 데 필요한 기초 자료를 제공합니다.
개체명 인식(NER) 데이터셋
150,000개의 문장이 포함된 이 데이터셋은 10개의 언어에서 24개의 개체명 인식 범주로 주석이 달려 있습니다. 이 데이터셋은 사람 이름, 위치, 회사 이름, 날짜, 시간, 기간 등 다양한 엔티티를 식별하는 AI 모델 훈련을 돕기 위해 정교하게 준비되었습니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.