전국 가맹점 추정매출 데이터셋은 국내 주요 카드사에서 수집된 결제 데이터를 기반으로 한 고품질 데이터셋입니다. 전국 카드 가맹점의 결제 데이터를 통해 추정된 매출 정보를 제공하며, 지역별 상권 트렌드 분석, 신규 가맹점 매출 예측, AI 모델 학습 등 다양한 용도로 활용할 수 있습니다. 데이터는 구조화된 테이블 형태로 제공되며, 매출월, 지역, 가맹점 업종, 가맹점명, 추정매출액 등의 메타데이터를 포함합니다. 이 데이터셋은 상업적 분석 및 AI 기반 예측 모델 개발에 최적화되어 있습니다.
국내 신용·체크카드 소비 데이터셋
이 데이터셋은 전국 주요 카드 가맹점에서 발생한 신용·체크카드 결제 데이터를 기반으로 구축된 고품질 소비 데이터셋입니다. 소비자의 연령, 성별, 거주 지역, 라이프 스테이지 등 다양한 속성과 함께 업종·지역·시간대별 소비 내역을 포함하고 있어 상권 분석, 소비 트렌드 파악, AI 모델 학습 등 다양한 활용이 가능합니다.
특히 개인정보 보호와 관련 법규 준수를 위해 나이는 10살 단위, 사용 시간은 6시간 단위로 구분하여 제공되며, 고객에게는 난수 ID가 부여되어 개별 식별이 불가능하도록 처리되었습니다. 이러한 조치를 통해 안전하게 활용 가능한 동시에, 대규모 데이터 기반 분석 및 AI 연구에 최적화된 환경을 제공합니다.
국내 의료 문서·영상 대규모 데이터셋
이 데이터셋은 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.
AI 모델 성능 향상을 위한 전문지식 데이터(STEM/도서/의료)
AI 모델은 학습 데이터에 담긴 정보를 바탕으로 예측하고 판단합니다. 전문 데이터는 해당 분야의 깊이 있는 지식과 패턴을 포함하고 있어, 모델이 더 정확하고 신뢰성 있는 결과를 내도록 돕습니다. 예를 들어, 의료 AI 모델은 수많은 일반 이미지보다 암 조직 슬라이드 같은 전문 데이터를 통해 질병을 더 정확하게 진단할 수 있습니다. 그러나 전문 데이터는 그 자체로 희소하기도 하며, […]
신문 지면 OCR 및 광고 영역 라벨링 데이터셋
본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.
다국어 법률 문서 템플릿 데이터셋
이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.
의료 문서 및 임상 노트 데이터셋
본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.
대규모 코드 데이터셋
이 데이터셋은 다양한 프로그래밍 언어로 작성된 비공개 소스코드와 코드 관련 파일들(.py, .c, .html 등)로 구성된 고품질 코드 학습용 데이터셋입니다. 총 180억 토큰 규모의 코드 텍스트를 포함하고 있으며, 코드 생성, 자동 완성, 오류 탐지, 보안 취약점 분석 등 소프트웨어 개발 특화 AI 모델 학습에 최적화되어 있습니다.
실제 개발 환경에서 작성된 다양한 언어의 실전 코드가 포함되어 있어, 대형 언어 모델(LLM)의 코드 이해 및 생성 능력 향상에 활용할 수 있습니다.
전국 누적 교통량 데이터
전국 누적 교통량 데이터는 약 2,300만 사용자의 차량 이동 정보를 기반으로, 5분 단위, 365일 24시간 동안 전국 도로망에서 수집된 고해상도 교통 데이터셋입니다. 각 도로 구간의 평균 속도, 차량 통과량 등의 핵심 교통지표가 포함되어 있으며, 정밀한 교통 현황 분석과 예측, 정책 수립 및 산업 응용에 활용할 수 있습니다.
국/영/수/사/과 문항·해설 데이터셋
이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.