Normalisation du lemme et de l’Unicode

Rversion finale: Xanadu

Mis à jour 1 août 2024

2 minutes de lecture

Recherche IA normalise les mots fléchis et les glyphes Unicode pendant l’indexation et au moment de la requête de recherche. La normalisation améliore le rappel de recherche et permet aux utilisateurs de trouver du contenu avec des variantes de leurs termes de requête de recherche.

Les fonctionnalités de normalisation sont automatiquement activées et ne sont pas configurables.

Normalisation du lemme

De nombreuses langues incluent des formes fléchies de termes, telles que les noms pluriels ou les temps verbaux. Recherche IA Normalise les termes fléchis trouvés dans le contenu indexé et les requêtes de recherche. La normalisation permet une correspondance basée sur une forme racine, telle que le singulier pour un nom pluriel ou la forme de base pour un verbe conjugué. Cette forme racine est appelée lemme, et ce processus est appelé normalisation du lemme.

Par exemple, lorsqu’une notice source inclut le verbe conjugué vendre, Recherche IA développe le terme indexé pour inclure la forme lemme vendre en plus de vendre. Lorsqu’un utilisateur recherche la forme conjuguée au passé vendu, Recherche IA développe le terme de la requête de recherche pour inclure la forme lemme vendre et vendu. Étant donné que le terme indexé et le terme de la requête de recherche incluent des formulaires correspondants, la recherche de l’utilisateur renvoie l’enregistrement de vente en conséquence.

Recherche IA prend en charge la normalisation de lemme spécifique à la langue pour ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionnel.

Décomposition

En plus de normaliser les lemmes pour , allemand, coréen et suédois, Recherche IA indexe les mots composés et les mots qui les composent individuellement. Par exemple, lors de l’indexation d’un enregistrement allemand qui contient le mot composé Humanressourcen, Recherche IA indexe les termes composant Human et ressourcen en plus du terme composé.

Normalisation Unicode

Recherche IA effectue la normalisation Unicode sur les termes indexés et les termes de requête de recherche. Cette normalisation permet d’effectuer des recherches dans les glyphes Unicode alphabétiques à l’aide de leurs caractères équivalents les plus proches.

Par exemple, lors de l’indexation d’un enregistrement contenant le terme curriculum vitae, Recherche IA le terme est développé pour inclure également le formulaire CV non accentué. Cet enregistrement apparaît en tant que résultat de recherche lorsque les utilisateurs recherchent un CV ou un CV.

La normalisation Unicode inclut les étapes NFKD (décomposition de compatibilité) et NFKC (composition de compatibilité). Pour plus d’informations sur ces formes de normalisation, consultez l’Annexe #15 de la norme Unicode, https://www.unicode.org/reports/tr15/.

Interaction avec d’autres fonctions de recherche

Le tableau suivant décrit les interactions entre la normalisation et d’autres fonctionnalités de recherche.


Fonctionnalité	Interaction avec le lemme et la normalisation Unicode
Résultats Genius	Les termes de requête de recherche ajoutés par le lemme ou la normalisation Unicode ne peuvent pas déclencher de configurations de résultats Genius avec des conditions de déclenchement de terme.
Règles d'amélioration des résultats	Un terme de requête de recherche ajouté par le lemme ou la normalisation Unicode peut déclencher une règle d’amélioration des résultats s’il correspond au déclencheur de requête de la règle.
Mots vides	Si un terme de requête de recherche est défini comme un mot vide, Recherche IA supprimez ce terme sans le normaliser.
Synonymes	Si un terme de requête de recherche est défini comme un synonyme, Recherche IA cela ne le normalise pas.
Traitement des erreurs de frappe	Recherche IA effectue la normalisation du lemme et de l’Unicode sur les termes de requête de recherche corrigés automatiquement.