Web クローラー外部コンテンツコネクタのクロール設定の構成

  • リリースバージョン: Australia
  • 更新日 2026年03月12日
  • 所要時間:4分
  • WebCrawler 外部コンテンツコネクタが指定した Web ソースから取得するページとサブドメインを指定します。

    始める前に

    コネクタアドミンは、クロール設定を構成する Webcrawler 外部コンテンツコネクタを既に作成している必要があります。この手順の詳細については、「Webcrawler 外部コンテンツコネクタを作成」を参照してください。

    必要なロール:sn_ext_conn.xcc_admin

    このタスクについて

    このタスクはオプションです。デフォルトでは、Webcrawler 外部コンテンツコネクタは、指定されたソースシステムからすべてのページとサブドメインをクロールします。このタスクを実行する必要があるのは、コンテンツのクロールの実行時にクロールするサブドメインまたは取得するページの包含フィルターまたは除外フィルターを指定する場合のみです。

    コンテンツは、構成されたすべてのクロール設定フィルターに合格した場合にのみ、ソースシステムから取得されます。クロール設定フィルターでコンテンツアイテムが除外されている場合、外部コンテンツコネクタはコンテンツアイテムを取得しません。

    各 Webcrawler コネクタは、コンテンツクロールの実行時に、ソースシステムから最大 50,000 個のアイテム (URL) を取得できます。
    注:
    これは、 1,000 (10,000,000) アイテムの一般的なコンテンツクロール制限の例外です。

    手順

    1. 移動先 すべて > 外部コンテンツコネクタ > 外部コンテンツアドミンホーム.
    2. [コネクタ] リストで、設定を変更する Webcrawler 外部コンテンツコネクタのレコードを選択します。
    3. コネクタエディターの 設定] タブで、[ [クロール設定] を選択します。
    4. オプション: ソースシステムのサイトマップからコンテンツクロール URL を読み込むには、[ サイトマップを使用 ] オプションを選択します。
      このオプションを選択すると、Webcrawler 外部コンテンツコネクタのコンテンツクロールは、指定された開始点 URL を含むソースシステムのサイトマップで見つかった URL からコンテンツとリンクを取得します。コネクタは、ソースシステムの robots.txt ファイルで参照されているすべてのサイトマップと、共通のサイトマップの場所にあるすべてのサイトマップから、一致する URL を読み取ります。

      たとえば、[ サイトマップを使用 ] オプションを選択し、コンテンツクロールの開始点 URL として https://example.com/mysite を指定するとします。コンテンツクロールを実行すると、Webcrawler コネクタは、 https://example.com/mysite を含むサイトマップ URL からコンテンツとリンクを取得します。この場合、コネクタはサイトマップ URL https://example.com/mysite/ahttps://example.com/mysite/b からコンテンツとリンクを取得しますが、開始点 URL が含まれていないため、サイトマップ URL https://example.com/othersite/cと https://example.com/yoursite/d は無視します。

    5. 次のいずれかの コンテンツ オプションを選択します。
      • ソース システムからすべてのページとサブドメインをクロールするには、[ すべてのコンテンツをクロール] を選択します。
      • ソースシステムから指定されたページとサブドメインのセットのみをクロールするには、[ これらの URL のみを含める] を選択し、[ URL の追加 ] フィールドと [ 追加 ] ボタンを使用して、クロールに含めるページとサブドメインの URL またはワイルドカード URL 式 を入力します。

        たとえば、「 https://support.apple.com/ipad 」と入力すると、指定したページまたはサブドメインからの検索可能なコンテンツのみを含めることができます。または、「 https://support.apple.com/ipad** 」と入力すると、指定されたワイルドカード式に一致する URL を持つすべてのページまたはサブドメインを含めることができます。

      • ソースシステムから指定されたページとサブドメインのセットを除くすべてをクロールするには、[ これらの URL のみを除外する] を選択し、[ URL の追加 ] フィールドと [追加] ボタンを使用して、クロールから除外するページとサブドメインの URL またはワイルドカード URL 式 を入力します。

        たとえば、「 https://knowledgebase.paloaltonetworks.com/KCSArticleDetail 」と入力すると、指定したページまたはサブドメインから検索可能なコンテンツが除外されます。または、「 https://knowledgebase.paloaltonetworks.com/KCSArticleDetail** 」と入力して、指定されたワイルドカード式に一致する URL を持つすべてのページまたはサブドメインを除外することもできます。

      注:
      ワイルドカード URL 式には、URL プリフィックスの後に ** サフィックスを含めることができます。指定したプリフィックスで始まるすべての URL と一致します。
    6. [保存して検証] を選択します。

    タスクの結果

    Webcrawler 外部コンテンツコネクタが、変更したクロール設定で更新されます。

    次のタスク

    変更したクロール設定を使用してパブリック Web ソースからコンテンツを取得するには、Webcrawler 外部コンテンツコネクタの 1 回限りのコンテンツクロールを作成して実行します。1 回限りのコンテンツクロールの作成と実行については、「 外部コンテンツコネクタのコンテンツクロールの作成」を参照してください。