이 데이터셋은 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.
AI 모델 성능 향상을 위한 전문지식 데이터(STEM/도서/의료)
AI 모델은 학습 데이터에 담긴 정보를 바탕으로 예측하고 판단합니다. 전문 데이터는 해당 분야의 깊이 있는 지식과 패턴을 포함하고 있어, 모델이 더 정확하고 신뢰성 있는 결과를 내도록 돕습니다. 예를 들어, 의료 AI 모델은 수많은 일반 이미지보다 암 조직 슬라이드 같은 전문 데이터를 통해 질병을 더 정확하게 진단할 수 있습니다. 그러나 전문 데이터는 그 자체로 희소하기도 하며, […]
의료 문서 및 임상 노트 데이터셋
본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.
국내외 도서 데이터셋
이 데이터셋은 국내 대학출판부, 학술 기관, 전문 협회 및 해외 출판 소스를 기반으로 구축된 고품질 도서 및 텍스트 자료로 구성되어 있습니다. 의료, 법률, 과학기술, 사회과학, 인문학 등 다양한 학문 분야를 포괄하며, 한글·영문·스페인어 등 다국어로 제공됩니다. 기초 학문부터 대학원 수준의 고급 전문서, 교육용 교재, 수험서, 문학작품, 자기개발서까지 포함되어 있으며, AI 언어 모델 학습 및 자연어 처리(NLP), 지능형 교육 시스템 구축 등에 활용 가능한 포괄적 텍스트 자원입니다.
의료 학술 데이터셋
약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.
초음파 데이터셋
40,000개의 고품질 초음파 이미지가 포함된 이 데이터셋은 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 애플리케이션에 적합합니다.
심초음파 데이터셋
67,000개의 고품질 심초음파 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
유방촬영술 데이터셋
1,000개의 고품질 유방촬영술 이미지가 포함된 이 데이터셋은 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.
핵의학 스캔 데이터셋
6,000개 이상의 핵의학 스캔 시험 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 개발에 적합합니다.
CT 스캔 데이터셋
20,000개 이상의 고품질 CT 스캔 이미지가 포함된 이 데이터셋은 원본 DICOM 형식으로 제공되며, 컴퓨터 비전 기반의 의료 AI 애플리케이션에 적합합니다.