EgoStation, GoPro 1인칭 조작 영상 & 머리 움직임(6DoF) 데이터셋

GoPro를 머리에 쓰고 촬영한 1인칭(사람 시점) 손 조작 영상에, 여러 정보를 결합한 로봇 학습용 데이터셋입니다.
각 영상에는 다음이 함께 들어 있습니다:

머리가 공간에서 어떻게 움직였는지 (6DoF 궤적, SLAM 기술로 복원)
양손 손가락 위치 (한 손당 21개 점, 총 42개 키포인트)
깊이 정보 (물체가 카메라에서 얼마나 떨어져 있는지)

모든 영상은 로봇 AI 업계 표준인 LeRobot 포맷으로 정리되어, 로봇 모방학습에 바로 사용할 수 있습니다.

로봇이 사람 동작을 따라 배우는 모방학습 (조작 정책 학습)
VLA(영상-언어-행동) 모델 학습
카메라/손 위치를 3D 공간에서 추정하는 연구
1인칭 영상 이해 (egocentric video understanding)

구분	상세 내용
데이터 수	현재 파일럿 단계, 본격 수집 시 확장 예정
데이터 타입	동영상 + 시계열 6DoF 궤적 + 손 키포인트 + (depth)
수집 방식	직접 수집 : GoPro HERO9을 머리에 장착하고 촬영
언어	해당 없음
파일 포맷	‘원본 영상: MP4 (H.264 / HEVC) 머리 움직임 궤적: TUM 포맷 (.tum, 시간 + 위치 좌표 + 회전값) 손 키포인트: JSON (양손 각 21개 점, 3차원 좌표) 깊이 정보: MP4 (영상 위에 깊이를 입힌 형태) 학습용 통합 파일: Parquet (LeRobot v2.1, snappy 압축)
메타데이터	촬영 정보: 카메라 모델(HERO9), 해상도(1080p 30fps), 시야각 모드(wide), 마커 사용 여부 및 크기 인덱스 정보: 에피소드 번호, 작업 번호, 프레임 번호, 타임스탬프 작업 정보: 작업 설명문 LeRobot 메타파일: info.json / episodes.jsonl / tasks.jsonl
통계정보	각 데이터 항목(상태값·동작값)의 평균·표준편차·최소 최대값 세션별 품질 평가 지표(qa_metrics)
업데이트 주기	주간/월간(협의 가능)