Zing은 다음 세 가지 구성요소를 사용하여 문서 점수를 계산합니다

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 읽기2분
  • Zing 검색 엔진은 문서에서 검색어의 빈도, 순서 및 가중치를 기준으로 문서 점수를 계산합니다.

    문서 점수

    검색 쿼리에 대한 문서 점수의 구성요소는 다음과 같습니다.
    • 빈도: 검색어가 문서에 나타나는 빈도입니다.
    • Sequence: 검색어가 검색 쿼리와 동일한 순서로 표시되는 빈도입니다.
    • 가중치: 검색어가 나타나는 소스 필드의 가중치입니다.
    그림 1. 샘플 문서 점수 계산
    샘플 검색 쿼리와 문서에 대한 빈도와 시퀀스 점수를 보여주는 그래픽입니다.

    주파수 포인트

    Zing은 검색어가 문서의 아무 곳에나 나타날 때마다 1점을 부여합니다. 예를 들어, 분산 데이터베이스 서버를 검색할 때 분산 3회, 데이터베이스 5회, 서버 17회를 포함하는 문서는 25개의 빈도 지점을 갖습니다.

    문서에서 더 자주 나타나지만 문서 집합 역 문서 빈도(IDF)로 검색어 점수 매기기에서는 덜 자주 나타나는 검색어의 검색 결과 점수를 높이려면 . TF-IDF가 활성화되면 용어 빈도 점수에 역 문서 빈도 점수를 곱하여 검색어 점수가 계산됩니다. TF-IDF를 활성화하면 덜 일반적인 검색어의 가중치가 증가하기 때문에 해당 테이블의 검색 결과가 관련성이 높을 수 있습니다. 예를 들어 분산 데이터베이스 서버를 검색할 때 분산 이라는 용어가 한 문서에서는 자주 나타나지만 전체 문서 집합에서는 덜 자주 나타나는 경우 서버 보다 높은 점수를 받을 수 있습니다.

    Zing은 검색어가 나타나는 필드의 ts_weight 속성 값에 따라 빈도 포인트에 승수를 적용합니다. 텍스트 검색 점수 가중치가 30(ts_weight=30)인 필드는 검색어를 포함할 때마다 30점을 추가합니다.

    시퀀스 포인트

    Zing은 검색어가 입력된 순서와 동일한 순서로 문서에 포함되어 있는 경우 문서에 더 많은 점수를 부여합니다. 순서대로 검색어가 많을수록 점수가 기하급수적으로 높아집니다. Zing은 시퀀스 포인트를 10^x로 부여하며, 여기서 x는 순서대로 나타나는 검색어의 수입니다.

    분산 데이터베이스 서버 검색 예제에서 Zing은 2개 용어 문자열 데이터베이스 서버를 포함할 때마다 문서 100(10^2) 시퀀스 포인트를 부여합니다. 마찬가지로, Zing은 3개의 문자열로 된 분산 데이터베이스 서버를 포함할 때마다 문서 1000(10^3) 시퀀스 포인트를 부여합니다.

    Zing은 시퀀스가 나타나는 필드의 ts_weight 속성 값을 기준으로 시퀀스 포인트에 승수를 적용합니다. 시퀀스 포인트는 계산(10^x * 필드 ts_weight 속성)을 사용합니다.

    필드 점수 가중치

    시스템은 기록 번호, 지식 짧은 설명 및 메타데이터, 작업 기록 번호 및 작업 짧은 설명의 기본 점수 가중치 지식 를 높입니다. 이러한 필드의 기본 ts_weight 속성은 다음과 같습니다.
    • kb_knowledge.number = 50
    • kb_knowledge.short_description = 10
    • kb_knowledge.meta = 10
    • task.number = 50
    • task.short_description = 10

    다른 모든 필드의 기본 ts_weight 속성은 1입니다. 가능한 최대 가중치 값은 255입니다.