• About Us
  • Datasets
  • Text
  • Audio
  • Speech
  • Image
  • Video
데이터 구매문의
데이터 판매문의

데이터 판매 문의

데이터 판매 문의

콘텐츠 편집
[contact-form-7 id="10448"]

기사

  • Home
  • Datasets
  • 기사
Image, Text

신문 지면 OCR 및 광고 영역 라벨링 데이터셋

본 데이터셋은 국내외 언론사에서 발행한 실제 신문 지면 기반 뉴스·광고 이미지에 OCR 및 시각적 위치 정보를 결합한 멀티모달 학습용 데이터셋입니다.지면 뉴스 기사 4,000,000건 이상과 신문 지면 광고 이미지 100,000건으로 구성되어 있으며, 각 이미지에는 텍스트 위치, 기사/광고 영역, OCR 결과가 포함되어 있어, 문서 시각 이해, 기사 분리, 광고 탐지, OCR 기반 정보 추출 AI 모델에 최적화되어 있습니다.

Text

국내/해외 뉴스 빅데이터

뉴스 빅데이터는 20년간 600여 매체에서 수집된 약 7억 건의 데이터를 기반으로 구성된 대규모 데이터셋입니다. 이 데이터셋은 인터넷 신문, 지방일간지, 경제일간지, 종합일간지 등 다양한 매체에서 수집된 고품질 뉴스 콘텐츠로 구성되어 있으며, 원권리자(언론사)로부터 데이터 판매 등에 필요한 모든 권리를 합법적으로 취득한 데이터만을 포함하고 있습니다.

Text

헬스케어 기사 데이터셋

19,000개 이상의 건강 관련 기사가 포함된 이 데이터셋은 40개 이상의 건강 카테고리에서 다양한 정보를 제공합니다. 중독에서 정신 건강, 여성 건강에서 피트니스까지, 각 기사는 관련된 의학적 조건으로 태깅되어 있어, 예를 들어 화학 요법 및 면역 요법과 같은 암 주제나 CAD 및 혈압과 같은 심장 및 순환기 건강을 다룬 내용을 탐구할 수 있습니다.

Text

웰니스 및 라이프스타일 기사 데이터셋

1,200개 이상의 정성껏 선별된 기사가 포함된 이 데이터셋은 대학생들을 위한 정신 건강, 피트니스, 영양, 관계 등 중요한 분야를 다룹니다. 각 기사는 학생들의 관심사와 선호에 맞춰 작성되었습니다.

Search

Categories

  • Audio (3)
  • Image (14)
  • Speech (42)
  • Text (29)
  • Video (9)

Recent Datasets

  • 신문 지면 OCR 및 광고 영역 라벨링 데이터셋
  • 다국어 법률 문서 템플릿 데이터셋
  • 의료 문서 및 임상 노트 데이터셋

Tags

1인화자 (9) ivr (6) Q&A (4) 감정분석 (7) 강의 (3) 객체인식 (14) 건강 (2) 과학 (6) 교육 (6) 구매 (2) 기사 (4) 논문 (3) 뉴스 (4) 다국어 (3) 대화 (10) 독일어 (5) 러시아 (2) 만다린 (2) 멀티모달 (3) 문항 (3) 민감콘텐츠 (3) 브라질 (3) 상권 (3) 소비 (3) 수학 (4) 스크립트 (5) 스페인어 (6) 억양 (2) 영어 (22) 오디오분석 (3) 음성인식 (27) 음성제어 (18) 의료 (13) 이탈리아 (2) 인문학 (3) 일본어 (8) 저널 (3) 중국어 (6) 카드 (3) 팟캐스트 (14) 포르투갈어 (3) 프랑스 (3) 학술 (4) 한국어 (2) 헬스케어 (3)

(주)크라우드웍스 | 대표이사 : 김우승
사업자등록번호 : 223-81-18325
서울특별시 강남구 테헤란로 309 삼성제일빌딩 5F
사업제휴문의 : contact@crowdworks.ai
고객센터 : support@crowdworks.ai | 02-6954-2960
통신판매업 번호 : 제 2019-서울강남-05382호

Home
  • Crowdworks
  • About Us
  • Datasets
  • Contact
  • 데이터판매 문의
Resources
  • Blog
  • Documentation
  • 뉴스레터
Social
  • Behance
  • Dribbble
  • Facebook
  • Instagram

© Crowdworks. All Rights Reserved.

  • 이용약관
  • 개인정보 처리방침