500시간 분량의 고품질 광동어 팟캐스트 데이터로, 자연스러운 구어체 표현과 다양한 지역 억양을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
중국어(만다린) 팟캐스트 데이터셋
8,950시간 분량의 고품질 만다린어 팟캐스트 데이터로, 자연스러운 구어체 표현과 다양한 지역 억양을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 라이브 팟캐스트 녹음을 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다. 활용 사례 및 분야 데이터셋 스펙
중국어(만다린) IVR 데이터셋
중국어 (만다린) IVR 데이터셋은 중국 본토에서 수집된 48시간 분량의 고품질 음성 데이터로, 은행, 보험, 리테일, 통신 분야의 실제 고객과 IVR 시스템 간 자발적 상호작용을 기반으로 합니다. 다양한 고객 쿼리와 응답을 포함하여 음성 인식, 자연어 처리, 고객 서비스 자동화 기술을 최적화하는 데 적합합니다.
표준 중국어 대화 녹음 데이터셋
1,082시간분량의 중국어 음성 데이터로 은행, 보험, 리테일, 통신 등 다양한 분야에서의 대화 데이터를 제공합니다. 중국 본토의 원어민 화자들에 의해 녹음된 것으로, 일상 대화의 실제 모습을 담고 있습니다.
표준 중국어 스크립트 1인 화자 녹음 데이터셋
382시간 분량의 고품질 표준 중국어 음성 데이터로 일반 도메인의 내용을 담고 있습니다. 중국 본토의 원어민 화자들이 참여하여 중국어의 본질과 뉘앙스를 포착하기 위해 신중하게 작성된 스크립트를 사용하여 다양한 표현을 제공합니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.