본 데이터셋은 500명 이상의 전문 인력이 고정밀 센서 글러브를 착용하고 수집한 300만 건 이상의 조작(Manipulation) 궤적과 100TB급 규모를 자랑하는 대규모 멀티모달 데이터셋입니다. RGB-D 멀티뷰 비전, 다차원 촉각, 오디오, 텍스트가 완벽하게 동기화된 이 데이터는 특정 하드웨어에 종속되지 않는 ‘Robot-Agnostic’ 특성을 지녀, 수집된 5지(finger) 모션을 4지 로봇 등 다양한 형태의 엔드 이펙터(End-effector)로 유연하게 리타겟팅할 수 있습니다. 이미 […]
피지컬 AI 데이터셋 (손가락 타입 양손, 양팔, 휴머노이드 로봇, manipulation task)
본 데이터셋은 인간의 손과 유사한 다관절 핸드(Multi-fingered Hand)가 장착된 양팔 휴머노이드를 활용하여 수집된 고난도 매니퓰레이션 데이터입니다. 단순 파지(Grasping)를 넘어, 도구 사용(Tool Use), 손안 조작(In-hand Manipulation), 비정형 물체 조작 등 높은 자유도(High-DoF)가 요구되는 정교한 태스크를 포함하고 있습니다. 인간의 섬세한 손기술을 로봇에 전이(Sim2Real / Human2Real)하고자 하는 연구에 최적화된 데이터셋입니다. 활용 사례 및 분야 본 데이터셋은 단순한 동작 […]
피지컬 AI 데이터셋 (그리퍼 타입 양손, 양팔, 휴머노이드 로봇, manipulation task)
본 데이터셋은 양팔 휴머노이드 로봇(Gripper 타입)을 활용한 다양한 조작(Manipulation) 작업을 고정밀 텔레오퍼레이션으로 수행하여 수집한 데이터입니다. 물체의 파지(Pick), 이동(Place), 정렬(Align) 등 정교한 조작이 필요한 시나리오를 포함하고 있으며, 영상, 로봇 관절값(Joint Position), 제어 명령(Control Command) 등 학습에 필요한 모든 멀티모달 데이터가 동기화되어 있습니다. 본 데이터셋은 로봇의 모방 학습(Imitation Learning) 및 행동 지능 개발을 위한 Ground Truth로 활용하기에 […]
백과사전 멀티미디어 데이터셋
국내 유일 & 최대 규모의 온라인 종합백과사전 콘텐츠로 76만 개 표제어와 다양한 멀티미디어 자료(사진 152만 장, 일러스트 8천 장, 영상 1.4만 건 등)를 보유하고 있습니다. 역사·인문·사회·과학·지리·문화 등 다양한 주제를 망라한 지식 콘텐츠로, 콘텐츠 제작에 각 분야의 전문 집필진이 참여하여 전문성과 정확성을 갖추고 있습니다. 초중고 교과 과정과 연계된 학습 콘텐츠를 각 연령의 문해력과 학습 목적에 맞게 […]
국내 의료 문서·영상 대규모 데이터셋
이 데이터셋은 진단서, 소견서, 검사결과지, 판독지 등 다양한 형태의 의료 문서 데이터와 MRI, X-ray 등의 의료 영상 데이터로 구성된 고품질 의료 AI 학습용 데이터셋입니다. 총 약 20,000건 이상의 의료 데이터와 5,000건 규모의 영상 데이터(DICOM 포맷)를 포함하고 있으며, 성별·연령대·질환별로 폭넓게 분포되어 있어, 질환 예측, 환자 상태 추적, 영상 기반 진단 AI 모델 개발 등에 최적화되어 있습니다. 또한, 특정 개인 단위로 기록이 정리되어 있어 동일 환자의 질환 진행 추적 및 장기적 의료 기록 분석이 가능합니다. 매월 약 1,000건의 신규 데이터가 지속적으로 추가되어, 확장 가능한 의료 데이터셋을 제공합니다.
AI 모델 성능 향상을 위한 전문지식 데이터(STEM/도서/의료)
AI 모델은 학습 데이터에 담긴 정보를 바탕으로 예측하고 판단합니다. 전문 데이터는 해당 분야의 깊이 있는 지식과 패턴을 포함하고 있어, 모델이 더 정확하고 신뢰성 있는 결과를 내도록 돕습니다. 예를 들어, 의료 AI 모델은 수많은 일반 이미지보다 암 조직 슬라이드 같은 전문 데이터를 통해 질병을 더 정확하게 진단할 수 있습니다. 그러나 전문 데이터는 그 자체로 희소하기도 하며, […]
다장르 미디어 콘텐츠 영상 데이터셋
이 데이터셋은 총 63,928시간 분량의 고품질 영상으로 구성된 대규모 멀티도메인·다국어 미디어 학습 자료입니다.
표정·자세 기반 생체정보 영상 데이터셋
이 데이터셋은 실제 인물 100명을 대상으로 수집된 전신 자세, 표정, 의상 등 생체 정보를 포함한 2,586개의 원본 비디오 데이터와, 다양한 얼굴 각도에서 촬영된 180도 셀피 영상 807개로 구성되어 있습니다. 모든 영상은 전처리 없이 자연스러운 환경에서 촬영되었으며, 감정 표현, 신체 움직임, 의상 및 배경의 다양성이 반영되어 있어, 얼굴·자세 인식, 행동 분석, 신원 확인 등 영상 기반 인식 AI 모델 개발에 최적화된 고품질 멀티모달 학습 자료입니다.
STEM 분야 인터넷 강의 데이터셋
이 데이터셋은 자격증, 공무원 시험 대비, 대학 전공 과목, 프로그래밍 등 STEM(과학, 기술, 공학, 수학) 분야를 포괄하는 1,769종의 온라인 강의 데이터를 포함하고 있습니다. 각 강의는 평균 34편의 동영상으로 구성되어 있으며, 총 60,519편의 강의 영상으로 구성된 대규모 교육 콘텐츠입니다. 다양한 학습 목적(입시, 자격 취득, 실무 역량 강화 등)에 따라 세분화된 커리큘럼으로 구성되어 있어, 교육 AI 모델 개발, 콘텐츠 분석, 학습 추천 시스템 등 다양한 응용 분야에서 활용이 가능합니다.
마케팅 비디오 및 소비자 리뷰 데이터셋
550시간 분량의 마케팅 비디오 데이터셋으로, 다양한 제작자가 제공하는 제품 리뷰가 포함되어 있습니다. 물, 운동화, 맥주 브랜드 등 다양한 제품에 대한 소비자 리뷰를 다루고 있으며, 감정 분석과 시장 트렌드 분석에 적합합니다.










