뉴스 빅데이터는 20년간 600여 매체에서 수집된 약 7억 건의 데이터를 기반으로 구성된 대규모 데이터셋입니다. 이 데이터셋은 인터넷 신문, 지방일간지, 경제일간지, 종합일간지 등 다양한 매체에서 수집된 고품질 뉴스 콘텐츠로 구성되어 있으며, 원권리자(언론사)로부터 데이터 판매 등에 필요한 모든 권리를 합법적으로 취득한 데이터만을 포함하고 있습니다.
비즈니스 및 금융 분야 학술 데이터셋
약 2억 3천만 단어, 2만 6천여 건의 비즈니스 및 금융 분야 연구 논문 및 저널, 5천 7백만 단어, 279권의 학술 서적 데이터셋은 영어로 제공되며, 전문 저널, 비즈니스 사례 연구, 재무 연구 논문, 고급 Q&A 자료를 포함합니다. 이 데이터셋은 비즈니스·금융 특화 LLM, 자동 사례 분석, 고도화된 재무 AI, 경영 의사결정 지원 시스템 등 다양한 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
과학 학술 데이터셋
약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
수학 학술 데이터셋
8,752건의 수학 논문과 저널, 344권의 학술 서적(참고 문헌 1,638건 포함)으로 구성된 1억 6천만 단어 규모의 영어 데이터셋입니다. 대학원 및 수학 올림피아드 수준의 문제 세트, 고급 교과서, 교수진 Q&A 등 다양한 고급 수학 자료를 포함하여, 수학 특화 LLM 훈련, 자동 문제 생성, 지능형 튜터링 시스템 등 고차원 AI 기술 개발에 최적화된 고품질 학술 데이터셋입니다.
의료 학술 데이터셋
약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
WorksOne 데이터셋 : SLM Fine Tuning Dataset
크라우드웍스의 자체 SLM 학습을 위해 설계된 이 데이터셋은 기업들이 실제 업무 환경에서 선호하는 표현과 어투를 반영하여 다양한 비즈니스 상황에 적합한 20가지 답변 유형을 체계적으로 담고 있습니다.
전문 지식 Q&A 한국어 데이터셋
법률, 세금·세무, 인사·노무, 의료, 약료, 반려동물, 치과, 한방, 무역, 보험, 재무설계, 과학, 부동산, 교통사고, 영양・식단, 육아·아동, 경제·금융, 인문·예술 등 총 17개 분야에 걸친 전문 지식 기반의 한국어 질의응답(Q&A) 데이터로 구성되어 있습니다.
Aspect-Based Sentiment Analysis (ABSA) 데이터셋
Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.
개체명 인식(NER) 데이터셋
150,000개의 문장이 포함된 이 데이터셋은 10개의 언어에서 24개의 개체명 인식 범주로 주석이 달려 있습니다. 이 데이터셋은 사람 이름, 위치, 회사 이름, 날짜, 시간, 기간 등 다양한 엔티티를 식별하는 AI 모델 훈련을 돕기 위해 정교하게 준비되었습니다.
다국어 번역문 코퍼스 데이터셋
40개 이상의 언어를 포함한 40억 개의 데이터 유닛을 제공하는 이 병렬 코퍼스 데이터셋은 다국어 번역 애플리케이션, 자연어 처리(NLP), 기계 학습 모델을 발전시키는 데 중요한 리소스입니다. 알바니아어, 아랍어, 아르메니아어 등 다양한 언어 쌍을 포함한 번역을 제공하며, 정확하고 미묘한 번역 도구를 만드는 데 필요한 기초 자료를 제공합니다.