Prise en charge de l’internationalisation des Recherche IA

Xanadu Now Platform Administration

Release

xanadu

ft:locale

fr-FR

ft:publication_title

Xanadu Now Platform Administration

ft:clusterId

platadm

bundleId

platadm

workflow

Platform

Prise en charge de l’internationalisation des Recherche IA

Rversion finale: Xanadu

Mis à jour 1 août 2024

7 minutes de lecture

Recherche IA prend en charge l’indexation et la recherche dans toutes les langues offertes par le Now Platformfichier . Les fonctionnalités linguistiques de recherche sont prises en charge dans ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionnel.

La prise en charge de l’internationalisation est automatiquement activée et n’est pas configurable.

Pour afficher la liste complète des langages proposés en tant que modules d’extension Now Platform et pris en charge dans , reportez-vous à Recherche IAla section Activer une langue.

Remarque :

Après avoir activé un nouveau module d’extension de langue, vous devez réindexer tout le contenu source indexé que vous souhaitez rendre consultable dans la nouvelle langue. Pour en savoir plus sur la réindexation, reportez-vous à la section Effectuer un indexation complète de la table ou une réindexation pour une seule source indexée.

Les paramètres de langue déterminent comment Recherche IA sépare le texte du contenu indexé et les requêtes de recherche en termes individuels. Ce processus, appelé tokenisation, est géré différemment pour chaque langue prise en charge, à l’aide de paramètres spécifiques à la langue. Par exemple, la plupart des langues utilisent des espaces et de la ponctuation pour séparer les mots et les phrases, mais lors de la tokenisation de texte chinois ou japonais, Recherche IA elles utilisent plutôt l’interprétation contextuelle pour identifier correctement les sauts de mots et de phrases. Lors de la tokenisation du texte japonais, Recherche IA reconnaît également le nakaguro (point central) comme séparateur de mots.

Remarque :

Si vous avez indexé du contenu avant Portugais (Brésil), néerlandais, italien, japonais, coréen, portugais ou suédois août 2024, vous devez le réindexer pour bénéficier des nouvelles améliorations apportées à la tokenisation pour ces langues.

Comportement d’indexation dans les langues prises en charge

Lors de l’indexation du contenu et des métadonnées à partir d’un Now Platform enregistrement source ou d’un document externe, Recherche IA utilise des paramètres de tokenisation pour la langue de l’enregistrement ou du document, comme indiqué dans la table suivante.


Enregistrement ou document	Paramètres de tokenisation
Enregistrement source de la table Tâche [task] ou de l’une de ses tables enfants	Recherche IA Identifie la langue et utilise les paramètres de tokenisation de la langue détectée pour indexer le contenu et les métadonnées de l’enregistrement. Remarque : L’identification de la langue identifie ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionneluniquement . Le contenu dans d’autres langues est identifié et traité comme de l’anglais.
Enregistrement source à partir d’une table autre que Tâche	Recherche IA utilise les paramètres de tokenisation de la langue de l’enregistrement pour indexer son contenu et ses métadonnées. Si aucune langue n’est spécifiée pour l’enregistrement, le Now Platform traite comme étant dans la langue par défaut de l’instance. Dans une instance anglaise, par exemple, Recherche IA indexe les enregistrements sans langue spécifiée à l’aide des paramètres de tokenisation pour l’anglais.
Document externe	Recherche IA Identifie la langue et utilise les paramètres de tokenisation de la langue détectée pour indexer le contenu et les métadonnées du document. Remarque : L’identification de la langue identifie ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionneluniquement . Le contenu dans d’autres langues est identifié et traité comme de l’anglais.

Remarque :

Lors de l’indexation du contenu et des métadonnées, Recherche IA reconnaît les régions de texte incorporées dans le Japonais, chinois simplifié et chinois traditionnel texte dans d’autres langues. Ces régions de texte sont indexées avec les paramètres de tokenisation de langue appropriés, quelle que soit la langue du texte environnant. À titre d’exemple, supposons que vous indexiez un article de la base de connaissances en anglais qui comprend un paragraphe de chinois simplifié. Recherche IA indexe le contenu de ce paragraphe en chinois simplifié et le reste du contenu de l’enregistrement en anglais.

Comportement de la requête de recherche dans les langues prises en charge

Lors du traitement du texte de la requête de recherche, Recherche IA utilise les paramètres de tokenisation pour la langue de la session de Now Platform l’utilisateur actuel.

Remarque :

Recherche IA Reconnaît les Japonais, chinois simplifié et chinois traditionnel termes dans les requêtes de recherche. Ces termes sont traités avec les paramètres de tokenisation de langue appropriés, quelle que soit la langue de la session utilisateur. Par exemple, si un utilisateur d’une session utilisateur française recherche remplacement ordinateur 笔记本电脑, Recherche IA applique les paramètres chinois simplifié pour le terme 笔记本电脑 et les paramètres français pour les autres termes de recherche.

Recherche IA compare les termes de votre requête de recherche avec les termes du contenu indexé et des métadonnées, en renvoyant des résultats de recherche pour les enregistrements indexés ou les documents qui contiennent des correspondances. Lorsque vos termes de recherche sont dans la même langue que les termes indexés, Recherche IA traite les deux ensembles de termes avec les mêmes paramètres de tokenisation, produisant des correspondances et des résultats de recherche prévisibles. Si vos termes de recherche ne sont pas dans la même langue que les termes indexés, Recherche IA les processus des deux ensembles de termes avec des paramètres de tokenisation et des correspondances différents peuvent être imprévisibles.

Dépendance linguistique pour les fonctionnalités de recherche

Les fonctions de recherche suivantes dépendent de la langue et ne sont prises en charge que pour les langues répertoriées.

Tableau 1. Dépendance linguistique de la fonctionnalité de recherche
Fonctionnalité	Dépendance linguistique et langues prises en charge
Résultats Genius	Recherche IA n’évalue les configurations NLU de résultats Genius avec des déclencheurs que si le modèle lié NLU a la même langue que la requête de recherche. Langues prises en charge : anglais.
Identification de la langue et création de jetons	Pendant l’indexation, Recherche IA identifie les langues prises en charge dans les enregistrements de la table de tâches et les documents externes. Le traitement de texte pour le contenu indexé utilise les paramètres de tokenisation pour la langue identifiée. Langues prises en charge : ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionnel.
Normalisation du lemme et de l’Unicode	Recherche IA Effectue une normalisation du lemme spécifique à la langue pour les termes du contenu indexé et des requêtes de recherche. Langues prises en charge : ), français, japonais, chinois simplifié, chinois chinois traditionnel, coréen, espagnol, français (Canada), anglais, français (Canada), italien, japonais, portugais, suédois et chinois traditionnel. Remarque : Pour , allemand, coréen et suédois, Recherche IA effectue la décomposition des termes en plus de la normalisation du lemme. Recherche IA effectue la normalisation Unicode pour tous les termes du contenu indexé et des requêtes de recherche. Pour plus d’informations sur la normalisation des lemmes et des formes Unicode dans le contenu indexé et les requêtes de recherche, reportez-vous à la section Normalisation du lemme et de l’Unicode.
Règles d'amélioration des résultats	Recherche IA évalue uniquement l’activation des règles d’amélioration de résultat qui ont la même langue que la requête de recherche ou dont toutes les langues sont spécifiées. Langues prises en charge : toutes les langues activées dans votre instance. Pour obtenir la liste des langues que vous pouvez activer, reportez-vous à la section Activer une langue.
Mots vides	Recherche IA Ne prend en compte que les mots vides des dictionnaires qui ont la même langue que la requête de recherche. Langues prises en charge : toutes les langues activées dans votre instance. Pour obtenir la liste des langues que vous pouvez activer, reportez-vous à la section Activer une langue.
Synonymes	Recherche IA ne prend en compte que les synonymes contenus dans les dictionnaires dont la langue est identique à celle de la requête de recherche. Langues prises en charge : toutes les langues activées dans votre instance. Pour obtenir la liste des langues que vous pouvez activer, reportez-vous à la section Activer une langue.
Traitement des erreurs de frappe	Recherche IA Dérive une liste distincte de termes de correction automatique pour chaque langue prise en charge trouvée dans le contenu indexé de la source de recherche. La correction automatique remplace uniquement les termes de requête de recherche par des termes de la liste dont la langue est identique à celle de la requête de recherche. Langues prises en charge : Portugais (Brésil), Néerlandais, Anglais, Français (Canada), Français, Allemand, Italien, Portugais, Espagnol et Suédois. La gestion des fautes de frappe n’est pas prise en charge pour , coréen, chinois simplifié ou chinois traditionnel.