Configurer les paramètres d’analyse pour un connecteur de contenu externe Webcrawler

  • Rversion finale: Australia
  • Mis à jour 12 mars 2026
  • 3 minutes de lecture
  • Spécifiez les pages et les sous-domaines que vous souhaitez que votre connecteur de contenu externe Webcrawler récupère à partir de la source Web spécifiée.

    Avant de commencer

    Un administrateur de connecteur doit déjà avoir créé le connecteur de contenu externe Webcrawler pour lequel vous souhaitez configurer les paramètres d’analyse. Pour en savoir plus sur cette procédure, reportez-vous à la section Créer un connecteur de contenu externe Webcrawler.

    Rôle requis : sn_ext_conn.xcc_admin

    Pourquoi et quand exécuter cette tâche

    Cette tâche est facultative. Par défaut, le connecteur de contenu externe Webcrawler explore toutes les pages et tous les sous-domaines à partir de son système source spécifié. Vous ne devez effectuer cette tâche que si vous souhaitez spécifier des filtres d’inclusion ou d’exclusion pour les sous-domaines à analyser ou les pages à récupérer lors de l’exécution d’analyses de contenu.

    Le contenu n’est récupéré à partir du système source que s’il passe avec succès tous vos filtres de réglage d’analyse configurés. Si un filtre de réglage d’analyse exclut un élément de contenu, le connecteur de contenu externe ne le récupère pas.

    Chaque connecteur Webcrawler peut récupérer jusqu’à 50 000 éléments (URL) de son système source lors de l’exécution d’analyses de contenu.
    Remarque :
    Il s’agit d’une exception à la limite générale d’analyse du contenu des dix millions (10 000 000) éléments.

    Procédure

    1. Accédez à la Tous > Connecteurs de contenu externe > Accueil de l'administrateur de contenu externe.
    2. Dans la liste Connecteurs, sélectionnez l’enregistrement du connecteur de contenu externe Webcrawler dont vous souhaitez modifier les paramètres.
    3. Dans l’onglet Paramètres de de l’éditeur de connecteur, sélectionnez Paramètres d’analyse.
    4. Facultatif : Pour charger les URL d’analyse de contenu à partir des plans du site du système source, sélectionnez l’option Utiliser le plan du site .
      Si vous sélectionnez cette option, les analyses de contenu pour le connecteur de contenu externe Webcrawler récupèrent le contenu et les liens à partir des URL trouvées dans les plans du site du système source qui incluent l’URL du point de départ spécifiée. Le connecteur lit les URL correspondantes de tous les plans du site référencés dans le fichier de robots.txt du système source et de tous les plans du site situés dans des emplacements de plan du site communs.

      Par exemple, supposons que vous sélectionniez l’option Utiliser le plan du site , puis que vous spécifiiez https://example.com/mysite comme URL de point de départ pour une analyse de contenu. Lorsque vous exécutez l’analyse du contenu, le connecteur Webcrawler récupère le contenu et les liens à partir des URL du plan du site qui incluent https://example.com/mysite. Dans ce cas, le connecteur récupère le contenu et les liens à partir des URL du plan du site https://example.com/mysite/a et https://example.com/mysite/b , mais ignore les URL du plan du site https://example.com/othersite/c et https://example.com/yoursite/d , car elles n’incluent pas l’URL du point de départ.

    5. Sélectionnez l’une des options de de contenu suivantes :
      • Pour explorer toutes les pages et tous les sous-domaines à partir du système source, sélectionnez Explorer tout le contenu.
      • Pour analyser uniquement un ensemble spécifié de pages et de sous-domaines à partir du système source, sélectionnez Inclure uniquement ces URL, puis utilisez le champ Ajouter une URL et le bouton Ajouter pour saisir des URL ou des expressions URL génériques pour les pages et les sous-domaines que vous souhaitez inclure dans l’analyse.

        Par exemple, vous pouvez saisir https://support.apple.com/ipad pour inclure uniquement le contenu pouvant faire l’objet d’une recherche à partir de la page ou du sous-domaine spécifié. Vous pouvez également saisir https://support.apple.com/ipad** pour inclure chaque page ou sous-domaine avec une URL qui correspond à l’expression générique spécifiée.

      • Pour tout analyser du système source, à l’exception d’un ensemble spécifié de pages et de sous-domaines, sélectionnez Exclure uniquement ces URL, puis utilisez le champ Ajouter une URL et le bouton Ajouter pour saisir des URL ou des expressions URL génériques pour les pages et sous-domaines que vous souhaitez exclure de l’analyse.

        Par exemple, vous pouvez saisir des https://knowledgebase.paloaltonetworks.com/KCSArticleDetail pour exclure le contenu pouvant faire l’objet d’une recherche de la page ou du sous-domaine spécifié. Vous pouvez également saisir https://knowledgebase.paloaltonetworks.com/KCSArticleDetail** pour exclure chaque page ou sous-domaine dont l’URL correspond à l’expression générique spécifiée.

      Remarque :
      Les expressions URL génériques peuvent inclure un préfixe d’URL suivi du suffixe ** . Elles correspondent à toutes les URL commençant par le préfixe spécifié.
    6. Sélectionnez Enregistrer et valider.

    Résultats

    Le connecteur de contenu externe Webcrawler est mis à jour avec vos paramètres d’analyse modifiés.

    Que faire ensuite

    Pour récupérer du contenu à partir de la source Web publique à l’aide de vos paramètres d’analyse modifiés, créez et exécutez une analyse de contenu unique pour votre connecteur de contenu externe Webcrawler. Pour en savoir plus sur la création et l’exécution d’analyses de contenu ponctuelles, reportez-vous à la section Créer une analyse de contenu pour un connecteur de contenu externe.