다장르 미디어 콘텐츠 영상 데이터셋

이 데이터셋은 총 63,928시간 분량의 고품질 영상으로 구성된 대규모 멀티도메인·다국어 미디어 학습 자료입니다.
- 전 세계 다양한 국가와 지역의 요리 문화를 반영한 5,000시간 분량의 다국적 요리 영상 데이터셋이며, 일부 영상에는 영어 내레이션이 포함되어 있어 멀티모달 AI 학습에 활용할 수 있습니다.
- 역사, 과학, 자연, 스포츠, 엔터테인먼트 등 6개 이상의 장르를 아우르는 58,928시간 분량의 미디어 콘텐츠 영상 데이터셋으로, 다큐멘터리, 애니메이션, 비디오 캐스트 등 다양한 형식의 콘텐츠가 포함되어 있으며, 12개 언어 기반의 키워드 주석이 에피소드 혹은 장면 단위로 제공됩니다.
활용 사례 및 분야
- 멀티모달 학습 및 비디오-언어 모델 훈련
- 내레이션 포함 요리 영상 및 키워드 주석 기반 미디어 콘텐츠는 텍스트-비디오 매핑이 가능하여, 비디오-언어 모델(VLM, VideoCLIP 등) 개발에 활용할 수 있습니다.
- 음식, 과학, 스포츠 등 다양한 도메인에 대한 이해 능력을 훈련시킬 수 있어 범용 멀티모달 AI 구축에 적합합니다.
- 다국어 음성 인식 및 자막 생성
- 영어, 일본어 등 총 12개 언어로 구성된 멀티언어 미디어 콘텐츠는 다국어 음성 인식(STT), 자막 생성, 번역 모델 개발에 활용될 수 있습니다.
- 내레이션이 있는 요리 영상은 요리 행위와 언어 간 관계 학습에도 유용합니다.
- 영상 콘텐츠 요약 및 장면 분할
장면 단위의 키워드 주석 데이터를 기반으로, 자동 요약, 주요 장면 추출, 콘텐츠 큐레이션 알고리즘 등 영상 분석·검색 기술 개발에 적용할 수 있습니다.
- 푸드 AI 및 조리과정 인식 연구
- 다양한 문화권의 조리법과 식재료가 등장하는 요리 영상 데이터를 활용해, 조리 단계 인식, 재료 예측, 요리 자동 설명 등 푸드 AI 기술을 연구할 수 있습니다.
- 영상 기반의 조리 방법 설명 자동 생성이나 AR 조리 가이드 기술 개발에도 유용합니다.
- 생성형 콘텐츠 AI
영상 콘텐츠를 기반으로 텍스트 설명 생성, 스토리 요약, 애니메이션 장면 이해 등 콘텐츠 생성 AI에 활용할 수 있으며, 도메인 특화된 생성형 모델 학습에도 적합합니다.
데이터셋 스펙
- 데이터 타입: 영상
- 데이터 분량: 63,928시간
- 데이터 정보
- 다국적 요리 영상 데이터셋 (5,000시간)
- 콘텐츠 유형: 세계 각국 요리 영상 (내레이션 포함-일부)
- 내레이션 언어: 영어
- 다장르 미디어 콘텐츠 데이터셋 (58,928시간)
- 장르: 역사, 과학, 자연, 스포츠, 문화, 엔터테인먼트 등
- 콘텐츠 형식: 다큐멘터리, 애니메이션, 비디오 캐스트 등
- 주석: 키워드 기반 장면/에피소드 단위 태깅
- 다국적 요리 영상 데이터셋 (5,000시간)
- 언어: 다국어 (영어, 일본어 등 총 12개 언어)
- 파일 포맷: MP4