뉴스 빅데이터

뉴스 빅데이터는 20년간 600여 매체에서 수집된 약 7억 건의 데이터를 기반으로 구성된 대규모 데이터셋입니다. 이 데이터셋은 인터넷 신문, 지방일간지, 경제일간지, 종합일간지 등 다양한 매체에서 수집된 고품질 뉴스 콘텐츠로 구성되어 있으며, 원권리자(언론사)로부터 데이터 판매 등에 필요한 모든 권리를 합법적으로 취득한 데이터만을 포함하고 있습니다.

활용 사례 및 분야

  • 생성형 AI 개발
    • 방대한 뉴스 콘텐츠를 활용하여 최신 정보를 반영한 대규모 언어 모델 학습이 가능합니다. 특히 한국어에 특화된 LLM개발에 필수적인 고품질 한국어 데이터를 제공하여 더욱 정확하고 자연스러운 텍스트 생성 능력을 갖춘 AI 모델 구축에 활용할 수 있습니다.
  • 맞춤형 AI 서비스 개발
    • 기업 내부 업무용 또는 고객 서비스용으로 특화된 AI모델을 개발할 수 있습니다. 다양한 매체와 시간대의 뉴스 데이터를 활용하여 특정 도메인에 특화된 AI 서비스를 구축할 수 있으며, 기업의 필요에 따라 데이터를 커스텀 구성할 수 있습니다.
  • 정보 분석 시스템
    • 뉴스 데이터를 활용하여 금융, 정치, 경제, 사회 등 다양한 분야의 트렌드 분석이 가능한 시스템 개발에 활용할 수 있습니다. 5년 또는 10년 단위의 누적 데이터를 통해 장기적인 트렌드 분석과 예측이 가능합니다.

데이터셋 스펙

  • 데이터 타입: 텍스트
  • 데이터 분량: 7억 건 이상
  • 데이터 소스: 국내외 3,000여 개 언론사(신문, 잡지, 방송, 통신사, 인터넷 매체 등)
  • 언어: 한국어
  • 파일 포맷: JSON, JSONL, XML 등
  • 메타데이터: 매체명, 발행일자, 발행시간, 기사 카테고리, 기사 제목, 기사 본문, 기사 온라인 주소(URL)


샘플데이터 요청

샘플데이터 요청
개인정보 수집 및 이용 동의(필수)
개인정보 수집 및 이용 동의(선택)
광고성 정보 수신 동의(선택)