의료 문서 및 임상 노트 데이터셋

본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.
- 중독, 여성 건강, 정신 건강, 심혈관 질환 등 40개 이상의 주제를 다루는 24,000개의 건강 주제별 전문 의료 Article(총 약 1억 2,477만 토큰)이며, 각 문서에는 질환 분류 및 주요 의료 태그(예: 심전도, 고혈압, 화학요법 등)가 포함되어 있습니다.
- 의사-환자 영어 대화를 기반으로 작성된 6,888건의 SOAP 형식 임상 노트 데이터로, 진단 보조 및 임상 문서 생성 AI 모델 학습에 최적화되어 있습니다.
활용 사례 및 분야
- 의료 특화 언어모델(LLM) 학습
- 질환별로 정제된 건강 기사 및 진료기록 문서를 활용해, 영어 기반 의료 LLM(Med-LLM, BioGPT 등)을 사전학습 또는 파인튜닝하는 데 사용할 수 있습니다.
- 다양한 질환 주제와 진단 기록 양식을 포함해 의료 지식 범위를 확장하는 데 효과적입니다.
- 진단 보조 및 텍스트 생성 AI
- SOAP 노트 형식의 임상 데이터는 증상-진단-처방 흐름을 학습하는 데 적합하며, 의료 상담 요약, 차트 자동화, 임상 요약 자동 생성 모델에 활용될 수 있습니다.
- 전문가 작성 문서를 기반으로 고품질 환자용 설명 텍스트 생성 AI 학습에도 응용 가능합니다.
- 질병 분류 및 의료 태그 추출 모델
건강 기사 데이터에는 질환 및 의료 행위 관련 키워드가 정제된 형태로 태깅되어 있어, 자동 분류기, 질병 추출 모델, 의료 문서 큐레이션 AI 등의 훈련에 적합합니다.
- 헬스케어 챗봇 및 검색 시스템 개발
건강정보성 기사와 진료 기반 노트 데이터를 활용하여 질의응답 기반 헬스케어 챗봇, 증상 검색 시스템, 질병 안내 서비스 등에 접목할 수 있습니다.
- 의료 NLP 및 정보 추출 연구
자연어 기반 의료 정보 추출(NER, RE, QA 등), 임상 문서 구조화, 질환 추론 등 다양한 NLP 연구 및 의료 AI 솔루션 개발에 적용 가능합니다.
데이터셋 스펙
- 데이터 타입: 텍스트
- 데이터 분량: 문서 약 24,000개, 리뷰 6,888개
- 데이터 정보
- 건강 주제별 의료 문서 (문서 약 24,000개)
- 주제: 중독, 정신 건강, 영양, 여성 건강, 심혈관 진환 등 40개 이상
- 주석 정보: 질환별 분류, 의료 태그 (화학 요법, 심전도, 고혈압 등)
- SOAP 임상 노트 (리뷰 6,888개)
- 출처: AI 학습 동의 기반의 의사-환자 대화
- 건강 주제별 의료 문서 (문서 약 24,000개)
- 언어: 영어
- 파일 포맷: json