이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.
다국어 번역문 코퍼스 데이터셋
40개 이상의 언어를 포함한 40억 개의 데이터 유닛을 제공하는 이 병렬 코퍼스 데이터셋은 다국어 번역 애플리케이션, 자연어 처리(NLP), 기계 학습 모델을 발전시키는 데 중요한 리소스입니다. 알바니아어, 아랍어, 아르메니아어 등 다양한 언어 쌍을 포함한 번역을 제공하며, 정확하고 미묘한 번역 도구를 만드는 데 필요한 기초 자료를 제공합니다.
헬스케어 프롬프트 Q&A 데이터셋
프랑스, 스페인, 포르투갈, 이탈리아에서 수집된 실제 의사 프롬프트와 기계 응답으로 구성된 이 데이터셋은 고급 AI 훈련을 위한 맞춤화된 자료입니다. 이 데이터셋은 영어를 포함하여 160,000개 이상의 프롬프트와 응답 쌍을 제공하며, 모든 데이터는 개인 식별 정보를 제외하고 세심하게 선별되었습니다. 헬스케어 분야의 고도화된 AI 애플리케이션을 개발하는 데 필수적인 학습데이터 셋입니다.