채팅 모더레이션 데이터셋

27M 메시지가 포함된 이 데이터셋은 콘텐츠 창작자와 팬들 간의 소통하는 내용을 다룹니다. 구독 기반 콘텐츠 창작 공간에서의 대화 데이터를 통해 콘텐츠 모더레이션의 역학을 탐구할 수 있습니다. 이 데이터셋은 개인 식별 정보(PII)가 제외된 실시간 영어 데이터를 제공하며, 다양한 대화 주제를 포함하고 있습니다.

활용 사례

  • 소통에 대한 통찰력 제공
    구독 기반 콘텐츠 창작 공간에서 콘텐츠 창작자와 개별 팬들 간에 교환된 2,700만 개의 메시지로 구성된 전문화된 1:1 채팅 데이터셋을 통해 인간의 소통에 대한 깊은 통찰을 얻을 수 있습니다. 이 데이터셋은 콘텐츠 소개, 참여, 플러팅, 콘텐츠 경계 준수, 업셀링, 제안적 상호작용, 맞춤형 요청, 협상, 고객 긴장/공격성, 심지어 만남 등의 다양한 대화 주제를 다룹니다. 

활용 분야

  • 콘텐츠 모더레이션 및 규정 준수
    AI 모델을 훈련시켜 온라인 대화에서 부적절하거나 규정을 준수하지 않는 콘텐츠를 탐지하고 표시할 수 있습니다. 커뮤니티 가이드라인과 규정을 준수하는 안전하고 규정에 맞는 환경을 보장할 수 있습니다.  
  • 언어 이해 및 맥락 분석
    LLM을 개발하여 구독 기반 콘텐츠 창작 공간 내에서의 대화 주제, 예를 들어 플러팅, 콘텐츠 경계 준수, 고객 긴장 등을 이해할 수 있습니다. 이를 통해 더 정확한 맥락 분석과 콘텐츠 모더레이션 관련 사용자 메시지 해석을 할 수 있습니다.  
  • 행동 분석 및 팬 세분화
    채팅 데이터를 분석하여 팬들 간의 행동 패턴과 선호도를 식별하고, 이를 바탕으로 콘텐츠 창작자가 타겟 콘텐츠나 프로모션을 맞춤화할 수 있습니다.

데이터셋 스펙

  • Type: 텍스트  
  • 데이터 분류: 2,700만 메시지 / 1억 2800만 토큰  
  • 언어 : 영어
  • 종류: 민감한 콘텐츠  
  • 클래스 포함: 콘텐츠, 고객, 창작자  
  • 파일 포맷: TXT 

샘플데이터 요청

샘플데이터 요청
개인정보 수집 및 이용 동의(필수)
개인정보 수집 및 이용 동의(선택)
광고성 정보 수신 동의(선택)