AI 모델 성능 향상을 위한 전문지식 데이터(STEM/도서/의료)

AI 모델은 학습 데이터에 담긴 정보를 바탕으로 예측하고 판단합니다. 전문 데이터는 해당 분야의 깊이 있는 지식과 패턴을 포함하고 있어, 모델이 더 정확하고 신뢰성 있는 결과를 내도록 돕습니다. 예를 들어, 의료 AI 모델은 수많은 일반 이미지보다 암 조직 슬라이드 같은 전문 데이터를 통해 질병을 더 정확하게 진단할 수 있습니다.
그러나 전문 데이터는 그 자체로 희소하기도 하며, 저작권 문제로 인해 AI 학습데이터로 활용하는데, 많은 어려움을 겪고 있습니다. 크라우드웍스는 전문데이터의 희소성과 저작권 문제를 모두 해결하고, AI 학습데이터로 활용가능한 상태로 전문 데이터를 확보하였습니다.
도서 데이터셋
크라우드웍스는 ‘AI 학습데이터 활용가능 라이선스‘가 확보된 대량의 도서데이터를 보유하고 있습니다. 국내 최대의 AI 데이터 기업으로서, AI 모델 학습데이터로서 도서데이터의 중요성을 오래전부터 인지하고 있었기 때문에, 관련 라이선스를 확보하기 위해 많은 노력을 해왔습니다.
- 프로그래밍 및 IT 전문서 – 50권 이상
- 전공서 및 학술도서 – 2,000권 이상
- 국어학·언어학 단행본 – 200권 이상
- 전문 분야별 영문 대학 교과서 – 10,000권 이상
- 영어 고전 문헌 – 90,000권 이상
- 위 구성 외에도 다수의 국내외 학술·교육 콘텐츠가 포함되어 있으며, 분야별 확장 가능
STEM/코드 강의 데이터셋
(Science, Technology, Engineering, Mathematics)
STEM 강의는 해당 분야의 전문 용어와 개념이 체계적으로 정리되어 있습니다. AI는 이 데이터를 학습함으로써 정확한 전문 용어를 올바른 맥락에서 사용하는 능력을 키울 수 있습니다. 이는 과학 논문 작성, 기술 문서 번역, 또는 특정 분야에 대한 질의응답 시스템을 구축할 때 매우 중요합니다.
크라우드웍스는 자격증, 공무원 시험 대비, 대학 전공 과목, 프로그래밍 등 STEM(과학, 기술, 공학, 수학) 분야를 포괄하는 1,769종의 온라인 강의 데이터를 보유하고 있습니다. 총 60,519편의 강의 영상으로 구성된 대규모 교육 콘텐츠입니다. 다양한 학습 목적(입시, 자격 취득, 실무 역량 강화 등)에 따라 세분화된 커리큘럼으로 구성되어 있어, 교육 AI 모델 개발, 콘텐츠 분석, 학습 추천 시스템 등 다양한 응용 분야에서 활용이 가능합니다.
국내 의료문서 및 영상 데이터셋
병원 서류 발급대행 서비스에서 수집된 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.
교육문항 데이터셋
초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.