• About Us
  • Datasets
  • Text
  • Audio
  • Speech
  • Image
  • Video
데이터 구매문의
데이터 판매문의

데이터 판매 문의

데이터 판매 문의

콘텐츠 편집
[contact-form-7 id="10448"]

Text

  • Home
  • Datasets
  • Text
Image, Text

신문 지면 OCR 및 광고 영역 라벨링 데이터셋

본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.

Text

다국어 법률 문서 템플릿 데이터셋

이 데이터셋은 독일어, 스페인어, 프랑스어, 일본어, 브라질 포르투갈어로 작성된 계약서, 합의서, 정책 문서 등 다양한 형식의 법률 문서 템플릿 1,950개로 구성되어 있습니다. 각 문서는 실제 문서 작성에 기반하여 구조화된 양식을 따르고 있으며, 다국어 법률 문서 생성, 분석, 분류 등 법률 특화 AI 모델 학습에 최적화되어 있습니다.

Text

의료 문서 및 임상 노트 데이터셋

본 데이터셋은 실제 보건 전문가가 작성·편집한 영문 기반 의료 문서 및 임상 기록 텍스트로 구성된 고품질 의료 특화 데이터셋입니다.

Text

대규모 코드 데이터셋

이 데이터셋은 다양한 프로그래밍 언어로 작성된 비공개 소스코드와 코드 관련 파일들(.py, .c, .html 등)로 구성된 고품질 코드 학습용 데이터셋입니다. 총 180억 토큰 규모의 코드 텍스트를 포함하고 있으며, 코드 생성, 자동 완성, 오류 탐지, 보안 취약점 분석 등 소프트웨어 개발 특화 AI 모델 학습에 최적화되어 있습니다.

실제 개발 환경에서 작성된 다양한 언어의 실전 코드가 포함되어 있어, 대형 언어 모델(LLM)의 코드 이해 및 생성 능력 향상에 활용할 수 있습니다.

Text

전국 누적 교통량 데이터

전국 누적 교통량 데이터는 약 2,300만 사용자의 차량 이동 정보를 기반으로, 5분 단위, 365일 24시간 동안 전국 도로망에서 수집된 고해상도 교통 데이터셋입니다. 각 도로 구간의 평균 속도, 차량 통과량 등의 핵심 교통지표가 포함되어 있으며, 정밀한 교통 현황 분석과 예측, 정책 수립 및 산업 응용에 활용할 수 있습니다.

Text

국/영/수/사/과 문항·해설 데이터셋

이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.

Text

내신 시험 대비용 개념서/이론서

이 데이터셋은 중·고등학교 내신 시험 대비를 위한 다양한 교과목(국어, 영어, 수학, 사회, 과학) 문제들을 포함하고 있으며, 각 교과목의 이론서와 문제 풀이 자료를 체계적으로 정리하여 학생들이 효과적으로 시험에 대비할 수 있도록 돕는 자료입니다. 문제와 함께 개념 설명, 연습 문제, 실전 문제 등이 포함되어 있어 학생들이 다양한 학습 스타일에 맞춰 활용할 수 있습니다.

Text

국내외 도서 데이터셋

이 데이터셋은 국내 대학출판부, 학술 기관, 전문 협회 및 해외 출판 소스를 기반으로 구축된 고품질 도서 및 텍스트 자료로 구성되어 있습니다. 의료, 법률, 과학기술, 사회과학, 인문학 등 다양한 학문 분야를 포괄하며, 한글·영문·스페인어 등 다국어로 제공됩니다. 기초 학문부터 대학원 수준의 고급 전문서, 교육용 교재, 수험서, 문학작품, 자기개발서까지 포함되어 있으며, AI 언어 모델 학습 및 자연어 처리(NLP), 지능형 교육 시스템 구축 등에 활용 가능한 포괄적 텍스트 자원입니다.

Text

전국 카드 가맹점 및 상권 정보 데이터셋

가맹점 상세 및 상권정보 데이터는 전국에 분포한 XX카드 가맹점 360만 개와 해당 가맹점이 위치한 배후지 상권 분석 정보를 통합한 고품질 데이터셋입니다. 이 데이터셋은 가맹점의 위치, 업종, 매출 패턴, 상권 특성, 소비자 행동 데이터를 포함하며, 상권 분석, 입지 선정, 소비 트렌드 분석, AI 모델 학습 등 다양한 용도로 활용 가능합니다. 모든 데이터는 개인정보 보호법 및 관련 규정을 준수하여 처리되었으며, 구조화된 형태로 제공됩니다.

Text

외국인 국내 소비 이력 데이터셋

외국인 국내 소비 이력 데이터는 해외 글로벌 카드를 국내 카드 가맹점에서 사용한 소비 데이터를 기반으로 구축된 고품질 데이터셋입니다. 이 데이터셋은 외국인의 국내 소비 패턴, 이동 경로, 고객 유형별 소비 비교 분석에 활용 가능하며, 모든 데이터는 개인정보 보호법 및 관련 규정을 준수하여 처리되었습니다.

글 페이지 매김

1 2 3 다음

Search

Categories

  • Audio (3)
  • Image (14)
  • Speech (42)
  • Text (29)
  • Video (9)

Recent Datasets

  • 신문 지면 OCR 및 광고 영역 라벨링 데이터셋
  • 다국어 법률 문서 템플릿 데이터셋
  • 의료 문서 및 임상 노트 데이터셋

Tags

1인화자 (9) ivr (6) Q&A (4) 감정분석 (7) 강의 (3) 객체인식 (14) 건강 (2) 과학 (6) 교육 (6) 구매 (2) 기사 (4) 논문 (3) 뉴스 (4) 다국어 (3) 대화 (10) 독일어 (5) 러시아 (2) 만다린 (2) 멀티모달 (3) 문항 (3) 민감콘텐츠 (3) 브라질 (3) 상권 (3) 소비 (3) 수학 (4) 스크립트 (5) 스페인어 (6) 억양 (2) 영어 (22) 오디오분석 (3) 음성인식 (27) 음성제어 (18) 의료 (13) 이탈리아 (2) 인문학 (3) 일본어 (8) 저널 (3) 중국어 (6) 카드 (3) 팟캐스트 (14) 포르투갈어 (3) 프랑스 (3) 학술 (4) 한국어 (2) 헬스케어 (3)

(주)크라우드웍스 | 대표이사 : 김우승
사업자등록번호 : 223-81-18325
서울특별시 강남구 테헤란로 309 삼성제일빌딩 5F
사업제휴문의 : contact@crowdworks.ai
고객센터 : support@crowdworks.ai | 02-6954-2960
통신판매업 번호 : 제 2019-서울강남-05382호

Home
  • Crowdworks
  • About Us
  • Datasets
  • Contact
  • 데이터판매 문의
Resources
  • Blog
  • Documentation
  • 뉴스레터
Social
  • Behance
  • Dribbble
  • Facebook
  • Instagram

© Crowdworks. All Rights Reserved.

  • 이용약관
  • 개인정보 처리방침