한국어 금융결제(PG/결제대행) 도메인 Instruction Tuning 데이터셋
한국 PG/결제대행 업계의 CS·운영·리스크 대응 시나리오를 다루는 sLLM Fine-tuning용 Instruction-Output 페어 데이터셋입니다.
8개 핵심 라우트 카테고리인 결제승인 / 환불정산 / 본인인증 / 이상거래탐지 / 분쟁대응 / API연동 / 규제대응 / 시스템장애 계열로 구조화되어 있으며, 각 샘플은 INPUT_BRIEF(상황 브리프)와 OUTPUT_PROMPT(라우팅 결과 + 우선순위 + 컴플라이언스) 쌍으로 구성됩니다.
표면 키워드만으로 라우팅하지 않고, 금액·민감도·감독기관 노출 여부 등 다중 신호를 반영한 hard negative 및 cross-route 판단 샘플을 명시적으로 포함합니다. 전자금융거래법, 금융소비자보호법, 특정금융정보법, 개인정보보호법, 여신전문금융업법 등 국내 금융 관련 법령에 기반한 컴플라이언스 문구를 라우트별로 매핑합니다.
※본 데이터셋은 자체 보유 시스템 「AGI40 Routing Governance Engine v1.2」(한국저작권위원회 등록 C-2026-010143)을 통해 생성되었습니다.
주요 활용 분야
- 금융결제(PG사, 간편결제, 카드사) CS 자동 분류 sLLM 파인튜닝
- 금융권 온프레미스/망분리 환경용 도메인 특화 sLLM 학습
- 결제 관련 민원·분쟁·차지백 대응 어시스턴트 개발
- 결정론적 라우팅 및 감사 가능성 확보가 필요한 고위험 금융 AI
활용 예시
- PG사 CS 1차 분류 자동화 (고객 문의 → 8개 카테고리 자동 분배)
- 이상거래(FDS) 오탐 vs 실제 차단 사례 학습 데이터
- 차지백 증빙 제출 기한 관리 어시스턴트
- 민원 대응 시 컴플라이언스 준수 자동 검증
잠재 수요
- PG·결제대행사, 간편결제 사업자, 카드사, 금융 SaaS, 금융 AI 스타트업, 한국어 금융 특화 LLM 연구기관
데이터셋 스펙
| 구분 | 상세 내용 |
| 데이터 수 | ■ 제공 샘플 큐레이션 샘플 30건 (8개 라우트 카테고리 균형 분포) Hard negative 샘플 28건 (93%) — 경계 판단/오분류 방지 신호 포함 Cross-route 판단 샘플 10건 (33%) — 표면 키워드를 넘는 라우팅 사례 영향 금액 명시 30건 (100%), 실제 형식 로그 스니펫 20건 (67%) 컴플라이언스 문구 9종 라우트별 매핑 ■ 본 공급 단위 1,000건 / 10,000건 / 50,000건 / 100,000건 단위 협의 가능 ■ 보유 도메인 금융결제(본 데이터셋) 외 19개 도메인 라우팅 체계 보유 (의료, 법률, 공공/민원, 여행, 자동차, 보험, 통신, 이커머스, 카드, 제조, 물류, 부동산, 교육, HR, 에너지, 게임, 음식, 증권, IT) 도메인별 성숙도 상이, 추가 데이터셋 제작은 별도 협의 |
| 데이터 타입 | 텍스트, 이미지, 동영상 등 |
| 수집 방식 | 직접 설계·생성 (자체 보유 IP, 저작권 등록 완료) 외부 데이터 수집/스크래핑 없음 개인정보·실거래 데이터 미포함 (시나리오 기반 합성) |
| 언어 | 한국어 |
| 파일 포맷 | JSON (Instruction Tuning 표준 포맷) / JSONL·CSV 변환 가능 |
| 메타데이터 | ■ 각 샘플별 포함 필드 주 라우트 (8개 카테고리 중 1) 우선순위 (최우선 / 긴급 / 주의 / 보통) 관련 컴플라이언스 조항 사건번호 (FIN-XXXXXX, 합성 ID) 영향 범위 / 금액 / 시간 구조화 필드 Hard negative 신호 (해당 샘플) 경계 판단 근거 신호 |
| 통계 정보 | ■ 평가 결과 (홀드아웃 10,000건 평가셋) 주 라우트 정확도: 97.15% (9,715 / 10,000) 보조 라우트 정확도: 100.0% (10,000 / 10,000) 형식 준수율: 98.8% (9,880 / 10,000) 완전 일치율(라우트+우선순위+컴플라이언스 전체): 96.1% (9,610 / 10,000) ■ 평가 환경 평가 모델: 자체 학습 3B 한국어 sLLM (LoRA 어댑터 적용) 평가 방식: 모델 직접 추론(ask_model) 후 라벨 비교 학습 Loss: 약 0.145 수렴 평가 리포트(eval_report.json) 별도 제공 가능 (mismatch 케이스 분석 포함) ※ 1.5B / 7B 등 다른 모델 사이즈는 미실험. 검토 필요 시 별도 협의. |
| 업데이트 주기 | 분기별 업데이트 협의 가능 금융 규제 변경 사항 반영 추가 도메인/커스텀 데이터셋 제작은 별도 협의 |
