Créer un corpus de mots

  • Rversion finale: Washingtondc
  • Mis à jour 1 févr. 2024
  • 4 minutes de lecture
  • Créez une collection de mots et d’expressions qui fonctionne comme le vocabulaire utilisé par le système pour comparer vos enregistrements d’instance en fonction de leur similarité textuelle. Vous pouvez considérer le corpus de mots comme un dictionnaire que vous souhaitez que votre système d’apprentissage automatique comprenne.

    Avant de commencer

    Rôle requis : ml_admin ou admin

    Pourquoi et quand exécuter cette tâche

    Important :
    Avec cette version, les modèles de clustering et de similarité utilisent des Washington DC solutions de workflow. Ceux-ci sont pré-entraînés, de sorte qu’un corpus de mots n’est pas nécessaire pour vos nouvelles solutions. Lorsque vos solutions existantes avec un corpus de mots sont re-entraînées après la mise à niveau, elles deviennent des solutions de workflow et le champ Corpus de mots est supprimé du formulaire.

    Les informations suivantes sont fournies pour le contexte hérité.

    L’objectif principal d’un corpus de mots est de déduire des données textuelles pour l’entraînement de votre NLU modèle. Si vous utilisez un corpus de mots dans une solution, vous devez le spécifier pour la formation dans la phase de définition de solution d’une solution. Un corpus de mots formé peut être réutilisé entre les solutions et les options.

    Vous pouvez utiliser un corpus de mots pour comparer du texte d’enregistrement similaire dans une table ou dans plusieurs tables. Un corpus de mots peut également être utile dans d’autres scénarios, tels que le clustering, où vous regroupez des enregistrements similaires pour l’analyse, la réutilisation ou l’examen des données. Les éléments que vous ajoutez à votre corpus doivent être spécifiques à votre entreprise et à votre secteur d’activité afin que vous puissiez les réutiliser dans d’autres solutions de similarité ou de clustering et les appliquer à divers cas d’utilisation.

    Dans cet exemple de procédure, vous travaillez sur des enregistrements d’incidents et vous souhaitez localiser les articles de base de connaissances pertinents qui pourraient fournir des solutions à ces tickets d’incident. Votre objectif ici est de créer un corpus de mots que vous pouvez appliquer à une nouvelle solution de similarité qui compare les incidents actifs aux articles publiés de la base de connaissances.

    Procédure

    1. Accédez à la Tous > Intelligence prédictive > Corpus de mots.
    2. Dans le formulaire Corpus de mots, cliquez sur Nouveau.
    3. Configurez ces champs selon les conseils suivants.
      Champ Description
      Nom Un titre unique qui fait référence au contenu de votre corpus. Par exemple, dans ce cas d’utilisation, vous pouvez entrer un nom tel que Incidents actifs et Bases de connaissances publiées, car le nom indique les tables que votre corpus va explorer pour aider à créer votre solution.
      Actif Cochez cette case si vous créez plusieurs corpus de mots à la fois et que vous prévoyez de configurer leurs composants détaillés ultérieurement. Sinon, laissez-le vide, car vous pourrez le sélectionner dans une étape ultérieure.
    4. Cliquez sur Envoyer.
    5. Dans la vue de liste Corpus de mots, recherchez votre nouveau corpus de mots et cliquez sur sa valeur Nom pour ouvrir l’enregistrement.
    6. Dans la section Contenu du corpus de mots, cliquez sur Nouveau.
    7. Dans le formulaire Contenu du corpus de mots, configurez ces champs selon les instructions suivantes pour définir un composant de contenu pour votre corpus de mots.
      Champ Description
      Nom Saisissez un titre qui fait référence aux données que vous souhaitez ajouter à votre corpus, par exemple Incidents fermés au cours des 6 derniers mois.
      Table Sélectionnez la table qui contient les données que vous souhaitez inclure dans votre corpus de mots. Pour ce cas d’utilisation, sélectionnez Incident [incident].
      Remarque :
      Le nombre d’enregistrements par table pour la création de corpus de mots utilisé dans les solutions de similarité et de clustering est limité à 300 000.
      Filtre Sélectionnez les valeurs de condition de filtre suivantes : [Fermé] [n’est pas vide] et [Créé au cours des 6 derniers mois].
      Liste des champs Pour ce cas d’utilisation, sélectionnez Brève description, Description et Notes de résolution.
      Domaine Le système affiche automatiquement le groupe d’utilisateurs de votre corpus. Par exemple, dans ce cas d’utilisation, le groupe d’utilisateurs global est affiché. Vous pouvez également sélectionner d’autres groupes d’utilisateurs.
    8. Cliquez sur Envoyer.
    9. Dans la section Détails du corpus de mots, cliquez sur Nouveau.
    10. Configurez ces champs selon les instructions ci-dessous pour définir un deuxième composant de contenu pour votre corpus de mots.
      Champ Description
      Nom Saisissez un titre qui fait référence aux données que vous souhaitez comparer à votre premier composant de contenu, tel que Articles de la base de connaissances publiés.
      Table Sélectionnez la table qui contient les données que vous souhaitez comparer à votre premier composant de contenu. Pour ce cas d’utilisation, sélectionnez Base de connaissances [kb_knowledge].
      Remarque :
      Le nombre d’enregistrements par table pour la création de corpus de mots utilisé dans les solutions de similarité et de mise en grappe est limité à 300 000 enregistrements par table.
      Filtre Sélectionnez les valeurs de condition de filtre suivantes : [Workflow] [est] [publié].
      Liste des champs Sélectionnez Description brève et Corps de l’article.
    11. Cliquez sur Envoyer.

      Les composants du contenu de votre corpus de mots s’affichent sur le formulaire du corpus de mots.

      Cette image montre les deux composants de contenu que vous avez créés pour votre corpus de mots.
    12. Cliquez sur Mettre à jour.

    Résultats

    Le corpus de mots complété que vous avez créé apparaît sur le formulaire de corpus de mots.

    Lorsque vous cliquez sur Mettre à jour, le système valide l’ajout des composants pour terminer le processus de création du corpus.