• About Us
  • Datasets
  • Text
  • Audio
  • Speech
  • Image
  • Video
데이터 구매문의
데이터 판매문의

데이터 판매 문의

데이터 판매 문의

콘텐츠 편집
[contact-form-7 id="10448"]

유민 송

  • Home
  • 유민 송
Text

국내 신용·체크카드 소비 데이터셋

이 데이터셋은 전국 주요 카드 가맹점에서 발생한 신용·체크카드 결제 데이터를 기반으로 구축된 고품질 소비 데이터셋입니다. 소비자의 연령, 성별, 거주 지역, 라이프 스테이지 등 다양한 속성과 함께 업종·지역·시간대별 소비 내역을 포함하고 있어 상권 분석, 소비 트렌드 파악, AI 모델 학습 등 다양한 활용이 가능합니다.

특히 개인정보 보호와 관련 법규 준수를 위해 나이는 10살 단위, 사용 시간은 6시간 단위로 구분하여 제공되며, 고객에게는 난수 ID가 부여되어 개별 식별이 불가능하도록 처리되었습니다. 이러한 조치를 통해 안전하게 활용 가능한 동시에, 대규모 데이터 기반 분석 및 AI 연구에 최적화된 환경을 제공합니다.

Text, Video

국내 의료 문서·영상 대규모 데이터셋

이 데이터셋은 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.

Image, Text

신문 지면 OCR 및 광고 영역 라벨링 데이터셋

본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.

Text

다국어 법률 문서 템플릿 데이터셋

이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.

Text

의료 문서 및 임상 노트 데이터셋

본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.

Text

대규모 코드 데이터셋

이 데이터셋은 다양한 프로그래밍 언어로 작성된 비공개 소스코드와 코드 관련 파일들(.py, .c, .html 등)로 구성된 고품질 코드 학습용 데이터셋입니다. 총 180억 토큰 규모의 코드 텍스트를 포함하고 있으며, 코드 생성, 자동 완성, 오류 탐지, 보안 취약점 분석 등 소프트웨어 개발 특화 AI 모델 학습에 최적화되어 있습니다.

실제 개발 환경에서 작성된 다양한 언어의 실전 코드가 포함되어 있어, 대형 언어 모델(LLM)의 코드 이해 및 생성 능력 향상에 활용할 수 있습니다.

Video

다장르 미디어 콘텐츠 영상 데이터셋

이 데이터셋은 총 63,928시간 분량의 고품질 영상으로 구성된 대규모 멀티도메인·다국어 미디어 학습 자료입니다.

Image

멀티도메인 고품질 이미지 데이터셋

이 데이터셋은 예술, 자연, 음식, 도시, 우주 등 다양한 시각적 주제(domain)를 포괄하는 1,060만 장 규모의 고해상도 이미지 데이터셋으로, 이미지 분류, 객체 인식, 스타일 전이, 이미지 생성 등 시각 인공지능 모델 학습에 최적화되어 있습니다. 각 이미지는 도메인별 특성이 명확하게 드러나도록 구성되어 있으며, 풍부한 시각 표현과 세부 묘사가 가능한 원본 화질을 유지하고 있어 멀티도메인 생성형 AI 개발에도 활용할 수 있는 고품질 학습 자원입니다.

Video

표정·자세 기반 생체정보 영상 데이터셋

이 데이터셋은 실제 인물 100명을 대상으로 수집된 전신 자세, 표정, 의상 등 생체 정보를 포함한 2,586개의 원본 비디오 데이터와, 다양한 얼굴 각도에서 촬영된 180도 셀피 영상 807개로 구성되어 있습니다. 모든 영상은 전처리 없이 자연스러운 환경에서 촬영되었으며, 감정 표현, 신체 움직임, 의상 및 배경의 다양성이 반영되어 있어, 얼굴·자세 인식, 행동 분석, 신원 확인 등 영상 기반 인식 AI 모델 개발에 최적화된 고품질 멀티모달 학습 자료입니다.

Image

얼굴 이미지 및 감정·신원 데이터셋

이 데이터셋은 인물 얼굴 이미지에 감정, 연령, 신원 등 다양한 주석 정보를 결합한 멀티모달 학습용 데이터로, 총 924,153장의 고품질 얼굴 이미지로 구성되어 있습니다.

글 페이지 매김

1 2 … 10 다음

Search

Categories

  • Audio (3)
  • Image (15)
  • Speech (42)
  • Text (34)
  • Video (12)

Recent Datasets

  • 백과사전 멀티미디어 데이터셋
  • 전국 가맹점 추정매출 데이터셋
  • 국내 신용·체크카드 소비 데이터셋

Tags

1인화자 (9) ivr (6) Q&A (4) stem (3) 가맹점 (2) 감정분석 (7) 강의 (3) 객체인식 (14) 과학 (6) 교육 (7) 국어 (2) 기사 (4) 논문 (3) 뉴스 (4) 다국어 (3) 대화 (10) 독일어 (5) 멀티모달 (3) 문항 (3) 민감콘텐츠 (3) 브라질 (3) 사회 (2) 상권 (5) 소비 (5) 수학 (4) 스크립트 (5) 스페인어 (6) 심장 질환 (2) 심초음파 (2) 억양 (2) 영어 (22) 오디오분석 (3) 음성인식 (27) 음성제어 (18) 의료 (15) 인문학 (3) 일본어 (8) 저널 (3) 중국어 (6) 카드 (4) 팟캐스트 (14) 포르투갈어 (3) 프랑스 (3) 학술 (5) 헬스케어 (3)

(주)크라우드웍스 | 대표이사 : 김우승
사업자등록번호 : 223-81-18325
서울특별시 강남구 테헤란로 309 삼성제일빌딩 5F
사업제휴문의 : contact@crowdworks.ai
고객센터 : support@crowdworks.ai | 02-6954-2960
통신판매업 번호 : 제 2019-서울강남-05382호

Home
  • Crowdworks
  • About Us
  • Datasets
  • Contact
  • 데이터판매 문의
Resources
  • Blog
  • Documentation
  • 뉴스레터
Social
  • Behance
  • Dribbble
  • Facebook
  • Instagram

© Crowdworks. All Rights Reserved.

  • 이용약관
  • 개인정보 처리방침