• About Us
  • Datasets
  • Text
  • Audio
  • Speech
  • Image
  • Video
데이터 구매문의
데이터 판매문의

데이터 판매 문의

데이터 판매 문의

콘텐츠 편집
[contact-form-7 id="10448"]

영어

  • Home
  • Datasets
  • 영어
Text

국/영/수/사/과 문항·해설 데이터셋

이 데이터셋은 초·중·고등학교 내신 시험 대비를 위한 5개 주요 과목(국어, 영어, 수학, 사회, 과학)의 객관식 및 주관식 문항, 정답, 해설과 관련 삽화 이미지를 포함한 대규모 멀티모달 학습 자료입니다. 2,166,600개의 다양한 유형의 문제와 답안, 상세 해설을 제공하며, 텍스트와 JSON 포맷뿐만 아니라 수식(LaTeX), HTML, 이미지(PNG), PDF 등 다양한 파일 포맷을 지원합니다. 일부 문항에는 시각정보를 이해하고 학습하는 멀티모달 AI 시스템을 위한 VLM(Vision-Language Model)용 삽화 및 도표 이미지가 포함되어 있습니다. 본 데이터셋은 내신 평가 AI, 자동 문제 생성, 지능형 학습 튜터 및 멀티모달 학습모델 개발에 최적화된 고품질 학습 자료입니다.

Text

내신 시험 대비용 개념서/이론서

이 데이터셋은 중·고등학교 내신 시험 대비를 위한 다양한 교과목(국어, 영어, 수학, 사회, 과학) 문제들을 포함하고 있으며, 각 교과목의 이론서와 문제 풀이 자료를 체계적으로 정리하여 학생들이 효과적으로 시험에 대비할 수 있도록 돕는 자료입니다. 문제와 함께 개념 설명, 연습 문제, 실전 문제 등이 포함되어 있어 학생들이 다양한 학습 스타일에 맞춰 활용할 수 있습니다.

Speech

영어(다양한 억양) 스크립트 1인 화자 녹음 데이터셋

영어(다양한 억양) 스크립트 1인 화자 녹음 데이터셋은 434시간 분량의 고품질 독백 음성 데이터로, 프랑스어, 아랍어, 스페인어 등 다양한 언어를 사용하는 원어민들이 발음한 영어 음성을 포함합니다. 이 데이터셋은 다국어 억양과 발음 패턴을 포착하여 음성 인식, 음성 제어 애플리케이션, AI 언어 처리 모델 개발을 목표로 하는 연구자와 개발자에게 필수적인 리소스입니다.

Speech

영어(필리핀 억양) 대화 녹음 데이터셋

필리핀 억양이 특징인 249시간 분량의 고품질 영어 대화 데이터셋입니다. 은행, 보험, 리테일 등 주요 산업 분야에서 수집된 이 데이터셋은 필리핀 억양의 영어를 정확히 인식하고 처리하는 음성 인식 시스템 및 대화형 AI 개발을 위해 설계되었습니다. 자발적이고 자연스러운 대화를 포함하여 AI 모델의 성능을 향상시키는 데 최적화된 데이터셋입니다.

Text

과학 학술 데이터셋

약 43억 단어, 52만여 건의 과학 분야 연구 논문 및 저널, 60권의 학술 서적 데이터셋은 영어로 제공되며, 대학원 수준의 교과서, 고급 학술 연구 논문, 저널, 교수진이 직접 작성한 복잡한 Q&A 콘텐츠를 포함합니다. 이 데이터셋은 물리학, 화학, 생물학 등 과학 분야 특화 LLM, 자동 문제 생성, 지능형 튜터링 시스템, 과학적 추론 AI 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.

Text

수학 학술 데이터셋

8,752건의 수학 논문과 저널, 344권의 학술 서적(참고 문헌 1,638건 포함)으로 구성된 1억 6천만 단어 규모의 영어 데이터셋입니다. 대학원 및 수학 올림피아드 수준의 문제 세트, 고급 교과서, 교수진 Q&A 등 다양한 고급 수학 자료를 포함하여, 수학 특화 LLM 훈련, 자동 문제 생성, 지능형 튜터링 시스템 등 고차원 AI 기술 개발에 최적화된 고품질 학술 데이터셋입니다.

Text

의료 학술 데이터셋

약 40억 단어, 55만건의 의료 분야 연구 논문 및 저널, 679권의 학술 서적(참고 문헌 173건 포함) 데이터셋은 영어로 제공되며, 의학 연구 논문, 임상 사례 연구, 최신 저널, 시험 스타일의 Q&A, 전문 의료 서적을 포함합니다. 이 데이터셋은 의료 특화 LLM, 임상 의사결정 지원, 의료 교육용 AI, 논문 자동 요약 등 첨단 AI 기술 개발에 최적화된 고품질 학술 자료입니다.

Speech

영어 스크립트 1인 화자 녹음 데이터셋

보험, 리테일, 통신, 은행 등 다양한 산업에서 수집된 988시간 분량의 고품질 영어 대화 데이터입니다. 이 데이터는 영국, 미국, 호주 출신의 모국어 화자들에 의해 녹음되었습니다.

Speech

영어 IVR 데이터셋

은행, 통신, 보험, 리테일 분야에서 수집된 1,566시간 분량의 IVR(인터랙티브 음성 응답) 대화 데이터입니다. 미국, 영국, 인도 출신의 사람들이 IVR 시스템에 작성한 쿼리를 포함하여, 실제 상황에서 발생하는 다양한 주제의 대화 데이터를 제공합니다.

Text

Aspect-Based Sentiment Analysis (ABSA) 데이터셋

Aspect-Based Sentiment Analysis (ABSA) 데이터셋은 제품 및 서비스 리뷰에 대한 단어 또는 구 단위의 세부 주석을 제공하여 감정 분석을 향상시키는 데 중점을 둔 포괄적인 데이터셋입니다. 이 데이터셋은 표준 문장 수준 감정 주석을 넘어, 텍스트 내에서 특정 주제나 요소, 의견 및 그 관계에 대한 통찰을 제공합니다. 일본어, 중국어, 스페인어, 독일어, 영어(미국) 등 다섯 가지 언어로 총 60,000개의 셋을 포함하고 있습니다.

글 페이지 매김

1 2 3 다음

Search

Categories

  • Audio (3)
  • Image (14)
  • Speech (42)
  • Text (29)
  • Video (9)

Recent Datasets

  • 신문 지면 OCR 및 광고 영역 라벨링 데이터셋
  • 다국어 법률 문서 템플릿 데이터셋
  • 의료 문서 및 임상 노트 데이터셋

Tags

1인화자 (9) ivr (6) Q&A (4) 감정분석 (7) 강의 (3) 객체인식 (14) 건강 (2) 과학 (6) 교육 (6) 구매 (2) 기사 (4) 논문 (3) 뉴스 (4) 다국어 (3) 대화 (10) 독일어 (5) 러시아 (2) 만다린 (2) 멀티모달 (3) 문항 (3) 민감콘텐츠 (3) 브라질 (3) 상권 (3) 소비 (3) 수학 (4) 스크립트 (5) 스페인어 (6) 억양 (2) 영어 (22) 오디오분석 (3) 음성인식 (27) 음성제어 (18) 의료 (13) 이탈리아 (2) 인문학 (3) 일본어 (8) 저널 (3) 중국어 (6) 카드 (3) 팟캐스트 (14) 포르투갈어 (3) 프랑스 (3) 학술 (4) 한국어 (2) 헬스케어 (3)

(주)크라우드웍스 | 대표이사 : 김우승
사업자등록번호 : 223-81-18325
서울특별시 강남구 테헤란로 309 삼성제일빌딩 5F
사업제휴문의 : contact@crowdworks.ai
고객센터 : support@crowdworks.ai | 02-6954-2960
통신판매업 번호 : 제 2019-서울강남-05382호

Home
  • Crowdworks
  • About Us
  • Datasets
  • Contact
  • 데이터판매 문의
Resources
  • Blog
  • Documentation
  • 뉴스레터
Social
  • Behance
  • Dribbble
  • Facebook
  • Instagram

© Crowdworks. All Rights Reserved.

  • 이용약관
  • 개인정보 처리방침