Zing calcule les scores des documents à l’aide de trois composants

Rversion finale: Xanadu

Mis à jour 1 août 2024

2 minutes de lecture

Le moteur de recherche Zing calcule les scores des documents en fonction de la fréquence, de la séquence et du poids des termes recherchés dans le document.

Scores des documents

Les composants d’un score de document pour une requête de recherche sont les suivants :

Fréquence : fréquence à laquelle les termes recherchés apparaissent dans le document.
Séquence : fréquence à laquelle les termes recherchés apparaissent dans le même ordre que la requête de recherche.
Poids : pondération du champ source dans lequel les termes recherchés s’affichent.

Graphique montrant la fréquence et la séquence de notation pour l’exemple de requête de recherche et de document. — Figure 1. Exemple de calcul des scores d’un document

Points de fréquence

Zing attribue un point chaque fois qu’un terme de recherche apparaît n’importe où dans le document. Par exemple, lors de la recherche de serveur de base de données distribué, un document qui contient distribué trois fois, base de données cinq fois et serveur 17 fois aurait 25 points de fréquence.

Pour augmenter les scores des résultats de recherche des termes recherchés qui apparaissent plus souvent dans un document, mais moins fréquemment dans un ensemble de documents, vous pouvez .Score des termes de recherche par fréquence de document inversée (IDF) Lorsque TF-IDF est activé, les scores des termes de recherche sont calculés en multipliant le score de fréquence du terme par le score inverse de fréquence du document. Étant donné que l’activation de TF-IDF augmente le poids des termes de recherche moins courants, les résultats de recherche de cette table sont plus susceptibles d’être pertinents. Par exemple, lors de la recherche de serveur de base de données distribué, le terme distribué peut recevoir un score plus élevé que serveur s’il apparaît fréquemment dans un document, mais moins fréquemment dans l’ensemble de documents.

Zing applique un multiplicateur aux points de fréquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel le terme recherché apparaît. Un champ dont le poids de score de recherche de texte est de 30 (ts_weight=30) ajouterait 30 points pour chaque inclusion d’un terme de recherche.

Points de séquence

Zing attribue plus de points à un document lorsqu’il contient les termes recherchés dans le même ordre que celui dans lequel ils ont été saisis. Plus il y a de termes de recherche dans l’ordre, plus le score devient exponentiellement élevé. Zing attribue des points de séquence à 10^x, où x est le nombre de termes de recherche qui apparaissent dans l’ordre.

Dans l’exemple de recherche du serveur de base de données distribué, Zing attribue à un document 100 (10^2) points de séquence pour chaque fois qu’il inclut le serveur de base de données à chaîne à deux termes. De même, Zing attribue à un document 1000 (10^3) points de séquence chaque fois qu’il inclut le serveur de base de données distribué à chaîne de trois termes.

Zing applique un multiplicateur aux points de la séquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel la séquence apparaît. Les points de séquence utilisent le calcul (attribut de champ ts_weight 10^x *).

Poids de notation des champs

Le système augmente la pondération de notation par défaut des numéros d’enregistrement, Knowledge des brèves descriptions et métadonnées, des numéros d’enregistrement de tâche et des brèves descriptions de Knowledge tâches. Les attributs par défaut ts_weight de ces champs sont les suivants :

kb_knowledge.number = 50
kb_knowledge.short_description = 10
kb_knowledge.meta = 10
task.number = 50
task.short_description = 10

Tous les autres champs ont un attribut par défaut ts_weight de 1. La valeur de poids maximale possible est de 255.