Fingerprint - Factagora

사후가 아닌 게재 시점에 삽입

가능한 한 빨리, 이상적으로는 게재 또는 배포 시점에, 콘텐츠에 워터마크를 삽입하세요. 콘텐츠가 이미 유통된 뒤 삽입하면 출처 증명의 유효 구간이 줄어듭니다.

{
  "content": "...",
  "content_type": "news",
  "metadata": {
    "published_at": "2024-03-15T09:00:00Z",
    "source_id": "article_98765"
  }
}

fingerprint_id를 항상 저장

/embed가 반환하는 fingerprint_id는 조회와 탐지의 키입니다. 내부 문서 레코드와 함께 저장하세요.

{
  "internal_id": "article_98765",
  "fingerprint_id": "fp_l1p8OPCwGhvu"
}

원본이 아닌 watermarked_content 배포

응답의 watermarked_content에는 보이지 않는 zero-width 유니코드 문자가 포함되어 있습니다. 원본 대신 이 버전을 배포하세요, 시각적으로는 동일하지만 탐지를 가능하게 하는 암호학적 워터마크를 담고 있습니다.

올바른 content_type 선택

점수 가중치는 콘텐츠 유형별로 자동 조정됩니다. 올바른 유형을 선택하면 탐지 정확도가 향상됩니다:

콘텐츠 유형	Entity 가중치	Time 가중치	Causal 가중치	적합한 용도
`news` (기본)	0.5	0.2	0.3	뉴스 기사, 보도 자료
`legal`	0.3	0.1	0.6	법률 문서, 계약, 법원 제출 자료
`report`	0.4	0.3	0.3	연구 보고서, 분석, 백서
`internal`	0.5	0.2	0.3	내부 메모, 커뮤니케이션

특수 케이스에는 커스텀 가중치 사용

탐지 시나리오가 일반적이지 않은 경우 기본 가중치를 재정의하세요. 예를 들어 인과 구조와 무관하게 같은 엔티티가 나타나는지만 관심이 있다면:

{
  "content": "...",
  "weights": { "entity": 0.8, "time": 0.1, "causal": 0.1 }
}

가중치의 합은 1.0이어야 합니다. 사용된 가중치는 감사 가능성을 위해 meta.weights에 반향됩니다.

filters로 탐지 범위 좁히기

후보 집합을 줄이고 탐지 속도를 높이려면 filters를 전달하세요:

{
  "content": "...",
  "filters": {
    "author_id": "journalist_042",
    "date_from": "2024-01-01",
    "date_to": "2024-12-31",
    "content_type": "news"
  }
}

두 가지 탐지 레이어 이해

탐지는 두 가지 독립적인 검사를 실행합니다, 두 신호를 함께 사용하세요:

레이어	작동 방식	증명하는 것
Watermark	보이지 않는 zero-width 비트를 추출해 저장된 시드와 상관관계 계산	거의 확실한 출처, 정확히 워터마크가 적용된 콘텐츠가 사용됨
TKG Jaccard	단어 수준 퍼지 매칭으로 엔티티, 타임라인, 논증 체인을 비교	의미론적 유사성, 완전히 재작성되어도 같은 이야기

각 매치의 watermark_match와 watermark_correlation을 확인하면 워터마크 레이어가 발화했는지 알 수 있습니다. meta.watermark_detected 필드는 입력에서 워터마크가 발견되었는지 여부를 알려줍니다.

신뢰도 점수의 신중한 해석

점수 범위	해석	권장 조치
0.8 – 1.0	강한 매치	높은 신뢰도, 자동화에 안전
0.5 – 0.8	부분적 매치	조치 전 `overlap` 목록 검토
0.3 – 0.5	약한 신호	우연한 중복일 가능성 큼
0.3 미만	필터링됨	반환되지 않음 (기본 `min_score` 미만)

watermark_match: true일 때는 TKG 점수와 무관하게 거의 확실한 매치입니다.

overlap 목록으로 매치 감사

모든 매치에는 overlap.entities, overlap.timeseries, overlap.relations, 쿼리와 후보 사이에 공유된 구체적인 항목들, 가 포함됩니다. 두 글이 왜 매치되었는지 설명할 때 활용하세요, 매치되었다는 사실만 전달하지 마세요.

{
  "overlap": {
    "entities": ["bank of korea", "interest rate"],
    "timeseries": ["2024-03-15"],
    "relations": ["bank of korea|raises|interest rate"]
  }
}

재점수 산정에는 fingerprint_id 사용

이미 삽입한 콘텐츠를 레지스트리와 다시 비교(예: 주기적으로 새 매치 확인)하려면, 콘텐츠 대신 fingerprint_id를 직접 전달하세요:

{
  "fingerprint_id": "fp_l1p8OPCwGhvu"
}

콘텐츠 추출을 건너뛰고 저장된 TKG 스냅샷을 사용하므로 더 빠르고 멱등적입니다.

다른 Factagora API와 결합

워크플로	API	목적
내 콘텐츠가 재사용되었나?	Fingerprint Detect	출처 추적
정확하게 재사용되었나?	Fingerprint Detect + Fact Checker	왜곡 탐지
이야기에서 무엇이 바뀌었나?	Fingerprint Detect + Causality Graph	내러티브 변화 추적

​사후가 아닌 게재 시점에 삽입

​fingerprint_id를 항상 저장

​원본이 아닌 watermarked_content 배포

​올바른 content_type 선택

​특수 케이스에는 커스텀 가중치 사용

​filters로 탐지 범위 좁히기

​두 가지 탐지 레이어 이해

​신뢰도 점수의 신중한 해석

​overlap 목록으로 매치 감사

​재점수 산정에는 fingerprint_id 사용

​다른 Factagora API와 결합