은행, 보험, 리테일, 통신 등 다양한 산업에서 수집된 422시간 분량의 자연스러운 일본어 대화 데이터입니다. 일본 모국어 화자들의 실제 대화를 기반으로 하며, 일상생활 속 다양한 상황을 담고 있습니다.
의사-환자 대화문 데이터셋
80개 이상의 전문 분야와 50,000개 이상의 대화가 포함된 이 데이터셋은 실제 사용자들로부터의 질문과 이를 검증된 의사, 치료사, 건강 전문가들이 답변한 내용을 제공합니다. 우울증, 불안 등 다양한 주제로 태깅되어 있으며, AI 기반 헬스케어 솔루션에 최적화된 자료입니다.
다국어 번역문 코퍼스 데이터셋
40개 이상의 언어를 포함한 40억 개의 데이터 유닛을 제공하는 이 병렬 코퍼스 데이터셋은 다국어 번역 애플리케이션, 자연어 처리(NLP), 기계 학습 모델을 발전시키는 데 중요한 리소스입니다. 알바니아어, 아랍어, 아르메니아어 등 다양한 언어 쌍을 포함한 번역을 제공하며, 정확하고 미묘한 번역 도구를 만드는 데 필요한 기초 자료를 제공합니다.
개체명 인식(NER) 데이터셋
150,000개의 문장이 포함된 이 데이터셋은 10개의 언어에서 24개의 개체명 인식 범주로 주석이 달려 있습니다. 이 데이터셋은 사람 이름, 위치, 회사 이름, 날짜, 시간, 기간 등 다양한 엔티티를 식별하는 AI 모델 훈련을 돕기 위해 정교하게 준비되었습니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.
과학 강의 비디오 데이터셋
1,000개의 비디오로 구성된 이 데이터셋은 총 250시간 분량의 영어 강의를 제공합니다. 모든 비디오는 서명 동의를 기반으로하며, 자동 생성된 전사본이 제공됩니다. 각 비디오는 교육적이고 과학적인 주제를 다루며, 각 시뮬레이션에는 1명이 등장합니다.
연령 민감 콘텐츠 분류 데이터셋
300,000개 이상의 이미지와 1,700개의 비디오가 포함된 이 데이터셋은 연령 민감한 콘텐츠 모더레이션을 위한 필수 자원입니다. 각 콘텐츠는 관련된 분류가 꼼꼼하게 태깅되어 있으며, 효과적인 모더레이션을 위한 AI 모델 개발에 최적화되어 있습니다.
스트리트뷰 객체 탐지 데이터셋
1,000만 개의 주석이 달린 이미지를 제공하는 이 스트리트뷰 경계 박스 데이터셋은 10개의 클래스에 대해 AI 개발을 위한 객체 탐지에 최적화된 자원입니다. 한국어, 일본어, 영어로 제공되며, 96 dpi 해상도의 JPG 형식으로 제공됩니다.
CT 스캔 데이터셋
20,000개 이상의 고품질 CT 스캔 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
핵의학 스캔 데이터셋
6,000개 이상의 핵의학 스캔 시험 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 개발에 적합합니다.










