의료 문서 및 임상 노트 데이터셋

본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.

  • 중독, 여성 건강, 정신 건강, 심혈관 질환 등 40개 이상의 주제를 다루는 24,000개의 건강 주제별 전문 의료 Article(총 약 1억 2,477만 토큰)이며, 각 문서에는 질환 분류 및 주요 의료 태그(예: 심전도, 고혈압, 화학요법 등)가 포함되어 있습니다.
  • 의사-환자 영어 대화를 기반으로 작성된 6,888건의 SOAP 형식 임상 노트 데이터로, 진단 보조 및 임상 문서 생성 AI 모델 학습에 최적화되어 있습니다.

활용 사례 및 분야

  • 의료 특화 언어모델(LLM) 학습
    • 질환별로 정제된 건강 기사 및 진료기록 문서를 활용해, 영어 기반 의료 LLM(Med-LLM, BioGPT 등)을 사전학습 또는 파인튜닝하는 데 사용할 수 있습니다.
    • 다양한 질환 주제와 진단 기록 양식을 포함해 의료 지식 범위를 확장하는 데 효과적입니다.
  • 진단 보조 및 텍스트 생성 AI
    • SOAP 노트 형식의 임상 데이터는 증상-진단-처방 흐름을 학습하는 데 적합하며, 의료 상담 요약, 차트 자동화, 임상 요약 자동 생성 모델에 활용될 수 있습니다.
    • 전문가 작성 문서를 기반으로 고품질 환자용 설명 텍스트 생성 AI 학습에도 응용 가능합니다.
  • 질병 분류 및 의료 태그 추출 모델
    건강 기사 데이터에는 질환 및 의료 행위 관련 키워드가 정제된 형태로 태깅되어 있어, 자동 분류기, 질병 추출 모델, 의료 문서 큐레이션 AI 등의 훈련에 적합합니다.
  • 헬스케어 챗봇 및 검색 시스템 개발
    건강정보성 기사와 진료 기반 노트 데이터를 활용하여 질의응답 기반 헬스케어 챗봇, 증상 검색 시스템, 질병 안내 서비스 등에 접목할 수 있습니다.
  • 의료 NLP 및 정보 추출 연구
    자연어 기반 의료 정보 추출(NER, RE, QA 등), 임상 문서 구조화, 질환 추론 등 다양한 NLP 연구 및 의료 AI 솔루션 개발에 적용 가능합니다.

데이터셋 스펙

  • 데이터 타입: 텍스트
  • 데이터 분량: 문서 약 24,000개, 리뷰 6,888개
  • 데이터 정보
    • 건강 주제별 의료 문서 (문서 약 24,000개)
      • 주제: 중독, 정신 건강, 영양, 여성 건강, 심혈관 진환 등 40개 이상
      • 주석 정보: 질환별 분류, 의료 태그 (화학 요법, 심전도, 고혈압 등)
    • SOAP 임상 노트 (리뷰 6,888개)
      • 출처: AI 학습 동의 기반의 의사-환자 대화
  • 언어: 영어
  • 파일 포맷: json


샘플데이터 요청

샘플데이터 요청
개인정보 수집 및 이용 동의(필수)
개인정보 수집 및 이용 동의(선택)
광고성 정보 수신 동의(선택)