이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.
스페인어 팟캐스트 데이터셋
12,975시간 분량의 고품질 스페인어 팟캐스트 데이터로, 다양한 지역 (아르헨티나, 멕시코 등) 방언을 포함하여 AI의 언어 이해 및 생성 능력을 향상시키는 데 최적화된 데이터셋입니다. 스페인, 라틴아메리카 등 스페인어권 지역의 라이브 팟캐스트를 기반으로 하며, 대화형 AI, 음성 인식, 감정 분석 등 다양한 AI 애플리케이션 개발에 활용할 수 있습니다.
스페인어 대화 녹음 데이터셋
859시간분량의 자연스러운 스페인어 대화 데이터로 스페인, 멕시코, 미국의 다양한 지역에서 수집된 데이터를 제공합니다. 은행, 보험, 리테일, 통신 등의 분야에서 실제 대화를 기반으로 하며, 일상생활 속 다양한 상황을 담고 있습니다.
스페인어 스크립트 1인 화자 녹음 데이터셋
558시간 분량의 스크립트 음성 데이터로 멕시코와 스페인의 원어민 화자들이 녹음한 데이터입니다. 은행, 보험, 리테일, 통신 등 다양한 도메인을 포함하며, 일반적인 대화와 특정한 주제의 대화를 모두 제공합니다.
스페인어 IVR 데이터셋
500시간 분량의 스페인어 음성 데이터로 스페인에서 수집된 것으로, 은행, 보험, 리테일, 통신 등의 주요 분야에서 IVR 시스템과의 실제 상호작용을 포함한 자료입니다. 고객의 질문과 응답을 통해 IVR 시스템에서의 실제 상호작용을 잘 보여주며, 고객 경험과 응답 분석에 중요한 통찰을 제공합니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.