Webcrawler 외부 콘텐츠 커넥터에 대한 크롤링 설정 구성

  • 릴리스 버전: Australia
  • 업데이트 날짜 2026년 03월 12일
  • 소요 시간: 3분
  • Webcrawler 외부 콘텐츠 커넥터가 지정된 웹 소스에서 검색할 페이지와 하위 도메인을 지정합니다.

    시작하기 전에

    롤링 설정을 구성하려는 커넥터 관리자가 Webcrawler 외부 콘텐츠 커넥터를 이미 생성한 상태여야 합니다. 이 절차에 대한 자세한 내용은 다음 문서를 참조하십시오 Webcrawler 외부 콘텐츠 커넥터 생성.

    필요한 역할: sn_ext_conn.xcc_admin

    이 태스크 정보

    이 작업은 선택 사항입니다. 기본적으로 Webcrawler 외부 콘텐츠 커넥터는 지정된 소스 시스템에서 모든 페이지와 하위 도메인을 크롤링합니다. 콘텐츠 크롤링을 실행할 때 크롤링할 하위 도메인 또는 검색할 페이지에 대한 포함 또는 제외 필터를 지정하려는 경우에만 이 작업을 수행해야 합니다.

    콘텐츠는 구성된 모든 크롤링 설정 필터를 통과하는 경우에만 소스 시스템에서 검색됩니다. 크롤링 설정 필터에서 콘텐츠 항목을 제외하는 경우 외부 콘텐츠 커넥터는 해당 콘텐츠를 검색하지 않습니다.

    각 Webcrawler 커넥터는 콘텐츠 크롤링을 실행할 때 소스 시스템에서 최대 50,000개의 항목(URL)을 검색할 수 있습니다.
    주:
    이는 항목의 , 10,000,000) 일반 컨텐츠 크롤링 제한에 대한 예외입니다.

    프로시저

    1. 다음으로 이동 모두 > 외부 콘텐츠 커넥터 > 외부 콘텐츠 관리자 홈.
    2. 커넥터 목록에서 설정을 수정할 Webcrawler 외부 콘텐츠 커넥터에 대한 레코드를 선택합니다.
    3. 커넥터 편집기의 설정 탭에서 선택합니다.
    4. 옵션: 소스 시스템의 사이트맵에서 콘텐츠 크롤링 URL을 로드하려면 사이트 맵 사용 옵션을 선택합니다.
      이 옵션을 선택하면 Webcrawler 외부 콘텐츠 커넥터에 대한 콘텐츠 크롤링이 지정된 시작점 URL을 포함하는 소스 시스템의 사이트 맵에 있는 URL에서 콘텐츠와 링크를 검색합니다. 커넥터는 소스 시스템의 robots.txt 파일에서 참조하는 모든 사이트맵과 공통 사이트맵 위치에 있는 모든 사이트맵에서 일치하는 URL을 읽습니다.

      예를 들어, 사이트맵 사용 옵션을 선택한 다음 https://example.com/mysite 를 콘텐츠 크롤링의 시작점 URL로 지정한다고 가정해 보겠습니다. 콘텐츠 크롤링을 실행하면 Webcrawler 커넥터가 https://example.com/mysite 포함된 사이트맵 URL에서 콘텐츠와 링크를 검색합니다. 이 경우 커넥터는 https://example.com/mysite/ahttps://example.com/mysite/b 사이트맵 URL에서 콘텐츠와 링크를 검색하지만 시작점 URL이 포함되지 않으므로 https://example.com/othersite/chttps://example.com/yoursite/d 사이트맵 URL을 무시합니다.

    5. 다음 컨텐 츠 옵션 중 하나를 선택합니다.
      • 원본 시스템에서 모든 페이지와 하위 도메인을 크롤링하려면 모든 콘텐츠 크롤링을 선택합니다.
      • 소스 시스템에서 지정된 페이지 및 하위 도메인 집합만 크롤링하려면 이러한 URL만 포함을 선택한 다음 URL 추가 필드와 추가 버튼을 사용하여 크롤링에 포함할 페이지 및 하위 도메인에 대한 URL 또는 와일드카드 URL 표현식 을 입력합니다.

        예를 들어, 지정된 페이지 또는 하위 도메인에서 검색 가능한 컨텐츠만 포함하려면 https://support.apple.com/ipad 를 입력할 수 있습니다. 또는 https://support.apple.com/ipad** 를 입력하여 지정된 와일드카드 표현식과 일치하는 URL이 있는 모든 페이지 또는 하위 도메인을 포함할 수 있습니다.

      • 소스 시스템에서 지정된 페이지 및 하위 도메인 집합을 제외한 모든 항목을 크롤링하려면 이러한 URL만 제외를 선택한 다음 URL 추가 필드와 추가 단추를 사용하여 크롤링에서 제외할 페이지 및 하위 도메인에 대한 URL 또는 와일드카드 URL 표현식 을 입력합니다.

        예를 들어 https://knowledgebase.paloaltonetworks.com/KCSArticleDetail 를 입력하여 지정된 페이지 또는 하위 도메인에서 검색 가능한 컨텐츠를 제외할 수 있습니다. 또는 https://knowledgebase.paloaltonetworks.com/KCSArticleDetail** 를 입력하여 지정된 와일드카드 표현식과 일치하는 URL이 있는 모든 페이지 또는 하위 도메인을 제외할 수도 있습니다.

      주:
      와일드카드 URL 표현식에는 URL 프리픽스와 ** 서픽스가 포함될 수 있습니다. 지정된 프리픽스로 시작하는 모든 URL과 일치합니다.
    6. 저장 및 확인을 선택합니다.

    결과

    Webcrawler 외부 콘텐츠 커넥터가 수정된 크롤링 설정으로 업데이트됩니다.

    다음에 수행할 작업

    수정된 크롤링 설정을 사용하여 공개 웹 원본에서 콘텐츠를 검색하려면 Webcrawler 외부 콘텐츠 커넥터에 대한 일회성 콘텐츠 크롤링을 만들고 실행합니다. 일회성 컨텐츠 크롤링을 만들고 실행하는 방법에 대한 자세한 내용은 을 참조하십시오 외부 콘텐츠 커넥터용 콘텐츠 크롤링 생성.