크라우드웍스의 자체 SLM 학습을 위해 설계된 이 데이터셋은 기업들이 실제 업무 환경에서 선호하는 표현과 어투를 반영하여 다양한 비즈니스 상황에 적합한 20가지 답변 유형을 체계적으로 담고 있습니다.
전문 지식 Q&A 한국어 데이터셋
법률, 세금·세무, 인사·노무, 의료, 약료, 반려동물, 치과, 한방, 무역, 보험, 재무설계, 과학, 부동산, 교통사고, 영양・식단, 육아·아동, 경제·금융, 인문·예술 등 총 17개 분야에 걸친 전문 지식 기반의 한국어 질의응답(Q&A) 데이터로 구성되어 있습니다.
개체명 인식(NER) 데이터셋
150,000개의 문장이 포함된 이 데이터셋은 10개의 언어에서 24개의 개체명 인식 범주로 주석이 달려 있습니다. 이 데이터셋은 사람 이름, 위치, 회사 이름, 날짜, 시간, 기간 등 다양한 엔티티를 식별하는 AI 모델 훈련을 돕기 위해 정교하게 준비되었습니다.
다국어 번역문 코퍼스 데이터셋
40개 이상의 언어를 포함한 40억 개의 데이터 유닛을 제공하는 이 병렬 코퍼스 데이터셋은 다국어 번역 애플리케이션, 자연어 처리(NLP), 기계 학습 모델을 발전시키는 데 중요한 리소스입니다. 알바니아어, 아랍어, 아르메니아어 등 다양한 언어 쌍을 포함한 번역을 제공하며, 정확하고 미묘한 번역 도구를 만드는 데 필요한 기초 자료를 제공합니다.
의사-환자 대화문 데이터셋
80개 이상의 전문 분야와 50,000개 이상의 대화가 포함된 이 데이터셋은 실제 사용자들로부터의 질문과 이를 검증된 의사, 치료사, 건강 전문가들이 답변한 내용을 제공합니다. 우울증, 불안 등 다양한 주제로 태깅되어 있으며, AI 기반 헬스케어 솔루션에 최적화된 자료입니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.
영어권 의사 모바일 앱 사용 데이터셋
117,000명의 영어 사용 의사의 모바일 앱 사용 데이터에 직접 접근할 수 있는 이 데이터셋은 헬스케어 분야 AI 개발을 위한 중요한 분석 자료를 제공합니다. 실시간으로 제공되는 데이터셋으로, 헬스케어 전문가들의 디지털 행동을 이해하고 AI 훈련에 활용하는 데 최적화되어 있습니다. 의료 분석, AI 기반 솔루션 또는 의료 분야의 자연어 처리(NLP) 연구에 집중하는 AI 개발자에게 필수적인 자료입니다.
헬스케어 기사 데이터셋
19,000개 이상의 건강 관련 기사가 포함된 이 데이터셋은 40개 이상의 건강 카테고리에서 다양한 정보를 제공합니다. 중독에서 정신 건강, 여성 건강에서 피트니스까지, 각 기사는 관련된 의학적 조건으로 태깅되어 있어, 예를 들어 화학 요법 및 면역 요법과 같은 암 주제나 CAD 및 혈압과 같은 심장 및 순환기 건강을 다룬 내용을 탐구할 수 있습니다.
웰니스 및 라이프스타일 기사 데이터셋
1,200개 이상의 정성껏 선별된 기사가 포함된 이 데이터셋은 대학생들을 위한 정신 건강, 피트니스, 영양, 관계 등 중요한 분야를 다룹니다. 각 기사는 학생들의 관심사와 선호에 맞춰 작성되었습니다.
학술 교과서 및 STEM Q&A 데이터셋
12,000권 이상의 영어 학술 교과서가 포함된 이 데이터셋은 다양한 과목을 다룹니다. 비즈니스 및 경영학, 환경 과학, 의학, 비선형 과학, 생명 과학, 수학, 아시아 연구, 경제학 및 금융학, 공학, 화학, 나노기술, 물리학, 사회 과학, 건축학, 컴퓨터 과학 등 다양한 분야에서 제공됩니다. 이 데이터 셋에는 STEM Q&A만을 포함하는 100권의 교과서가 있어 LLM 미세 조정을 위한 완벽한 자료입니다.