국내 의료 문서·영상 대규모 데이터셋

이 데이터셋은 병원 서류 발급대행 서비스에서 수집된 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.
활용 사례 및 분야
- 환자 상태 추적 및 질환 경과 예측
- 동일 환자의 여러 진단서·소견서·검사결과지를 통해 질환의 발병 → 진행 → 치료 과정까지 추적 가능
- 암, 심혈관 질환 등 중증 질환(전체 데이터의 약 20%)에 대한 장기적 패턴 분석 활용
- 의료 자연어 처리(NLP) 모델 학습
- PDF 포맷의 진단서, 소견서, 판독지 등 문서 데이터
- 질병 분류, 의료 요약, 임상 보고서 자동화, 전자의무기록(EMR) 처리 모델 학습에 최적
- 영상 기반 진단 및 멀티모달 AI 연구
- MRI, X-ray 등 약 5천 건의 DICOM 포맷 의료 영상 데이터 포함
- 영상 + 텍스트 데이터 결합을 통한 멀티모달 진단 AI 연구 가능
- 병변 탐지, 영상 판독 자동화, 영상-문서 상관 분석 모델 학습에 활용
- 의료 빅데이터 분석 및 인공지능 연구
- 다양한 연령대(신생아~노인)와 성별 데이터 포함 → 인구 집단별 질병 패턴 연구 가능
- 암, 심혈관 질환을 중심으로 한 대규모 의료 데이터 기반 예측 모델 개발 가능
- 정밀의료, 개인 맞춤형 치료 추천 AI 연구에 최적
데이터셋 스펙
- 데이터 타입: 의료 문서(PDF), 의료 영상(DICOM)
- 데이터 분량
- 문서: 약 20,000건
- 영상: 약 5,000건
- 주요 카테고리
- 진단서, 소견서, 검사결과지, 판독지 등
- MRI, X-ray 등
- 질환 분포: 약 20% 중증 환자 (암, 심혈관 질환 중심)
- 구성 특징: 환자 단위 기록 관리(추적 가능), 월 1,000건 이상 신규 데이터 유입
- 언어: 한국어
- 파일 포맷: PDF, DICOM