Zing calcule les scores des documents à l’aide de trois composants
Le moteur de recherche Zing calcule les scores des documents en fonction de la fréquence, de la séquence et du poids des termes recherchés dans le document.
Scores des documents
- Fréquence : fréquence à laquelle les termes recherchés apparaissent dans le document.
- Séquence : fréquence à laquelle les termes recherchés apparaissent dans le même ordre que la requête de recherche.
- Poids : pondération du champ source dans lequel les termes recherchés s’affichent.
Points de fréquence
Zing attribue un point chaque fois qu’un terme de recherche apparaît n’importe où dans le document. Par exemple, lors de la recherche de serveur de base de données distribué, un document qui contient distribué trois fois, base de données cinq fois et serveur 17 fois aurait 25 points de fréquence.
Pour augmenter les scores des résultats de recherche des termes recherchés qui apparaissent plus souvent dans un document, mais moins fréquemment dans un ensemble de documents, vous pouvez .Score des termes de recherche par fréquence de document inversée (IDF) Lorsque TF-IDF est activé, les scores des termes de recherche sont calculés en multipliant le score de fréquence du terme par le score inverse de fréquence du document. Étant donné que l’activation de TF-IDF augmente le poids des termes de recherche moins courants, les résultats de recherche de cette table sont plus susceptibles d’être pertinents. Par exemple, lors de la recherche de serveur de base de données distribué, le terme distribué peut recevoir un score plus élevé que serveur s’il apparaît fréquemment dans un document, mais moins fréquemment dans l’ensemble de documents.
Zing applique un multiplicateur aux points de fréquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel le terme recherché apparaît. Un champ dont le poids de score de recherche de texte est de 30 (ts_weight=30) ajouterait 30 points pour chaque inclusion d’un terme de recherche.
Points de séquence
Zing attribue plus de points à un document lorsqu’il contient les termes recherchés dans le même ordre que celui dans lequel ils ont été saisis. Plus il y a de termes de recherche dans l’ordre, plus le score devient exponentiellement élevé. Zing attribue des points de séquence à 10^x, où x est le nombre de termes de recherche qui apparaissent dans l’ordre.
Dans l’exemple de recherche du serveur de base de données distribué, Zing attribue à un document 100 (10^2) points de séquence pour chaque fois qu’il inclut le serveur de base de données à chaîne à deux termes. De même, Zing attribue à un document 1000 (10^3) points de séquence chaque fois qu’il inclut le serveur de base de données distribué à chaîne de trois termes.
Zing applique un multiplicateur aux points de la séquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel la séquence apparaît. Les points de séquence utilisent le calcul (attribut de champ ts_weight 10^x *).
Poids de notation des champs
- kb_knowledge.number = 50
- kb_knowledge.short_description = 10
- kb_knowledge.meta = 10
- task.number = 50
- task.short_description = 10
Tous les autres champs ont un attribut par défaut ts_weight de 1. La valeur de poids maximale possible est de 255.