시작 ServiceNow 상태 로그 분석 하기(HLA)

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 소요 시간: 3분
  • ServiceNow 상태 로그 분석 는 IT 문제가 사용자에게 영향을 미치기 전에 문제를 예측합니다. 이 애플리케이션은 컴퓨터 생성 로그 데이터를 실시간으로 수집, 분석 및 상호 연관시켜 문제를 더 빨리 해결할 수 있도록 도와줍니다. 예외 또는 정상 동작에서 벗어난 편차를 발견하여 문제 발생의 가능성을 경고합니다.

    상태 로그 분석MID 서버를 통해 로그를 수신 및 처리하여 이벤트를 ServiceNow 이벤트 관리 애플리케이션에 전송합니다.

    상태 로그 분석가 처리할 수 있는 데이터

    상태 로그 분석는 모든 종류의 머신 생성 텍스트 로그 데이터를 처리할 수 있습니다. 애플리케이션, 인프라 및 네트워크 로그 및 기타 유형의 텍스트 로그 데이터를 처리할 수 있습니다. 구성 관리 데이터베이스(CMDB)는 고품질 이벤트 및 경보 생성에 도움이 될 수 있지만 필수는 아닙니다.
    주:
    • 상태 로그 분석은 UTF-8 로그만 지원합니다. 애플리케이션은 바이너리 로그를 지원하지 않습니다.
    • 영어 이외의 언어로 로그를 보내는 경우 추가 구성이 필요할 수 있습니다.

    아키텍처

    상태 로그 분석는 엔드포인트나 SplunkElasticsearch와 같은 데이터 레이크에서 ServiceNow 인스턴스로 스트리밍하는 로그를 수집합니다. 인스턴스는 MID 서버 커넥터 인스턴스를 통해 로그를 수신합니다. 상태 로그 분석는 자율 머신 러닝(ML) 모델을 사용하여 로그 데이터 안의 예외를 식별하고 분류합니다. 그런 다음 예외를 그룹화하고 추가 알고리즘을 적용하여 문제의 근본 원인을 식별하는 데 도움을 줍니다.

    다음 그림은 Rsyslog, Splunk, Filebeat 및 Elasticsearch를 사용한 설정을 보여줍니다.

    그림 1. 상태 로그 분석 아키텍처
    상태 로그 분석 아키텍처.

    워크플로우

    상태 로그 분석는 로그 데이터를 자동으로 수집하고 처리합니다. 운영자가 분석할 수 있는 데이터를 논리적으로 구조화하고 이벤트 관리에 표시되는 의미 있는 경보 및 제안을 생성합니다.

    다음 다이어그램은 상태 로그 분석가 데이터를 수집하고 이벤트나 경보를 이벤트 관리로 전송하기까지의 워크플로우를 보여줍니다.

    그림 2. 상태 로그 분석 워크플로우
    상태 로그 분석 워크플로우: 수집 - 구조화 - 보강 - 분석 - ML 및 AI - 이벤트 관리 내 경보
    수집
    이 단계에서는 시스템 환경을 상태 로그 분석에 연결합니다. 서버와 엔드포인트 또는 로그 리포지토리에서 직접 로그를 스트리밍할 수 있습니다. 안내 설정 옵션을 선택하면 다음과 같은 공통 데이터 소스에 대한 데이터 입력 커넥터를 만드는 데 도움이 됩니다.
    • Rsyslog
    • Beats
    • Splunk
    • Elasticsearch
    • MID 서버
    • TCP
    구조화
    이 단계에서는 로그 데이터를 구조화하고 이를 구성요소라는 논리적 사일로에 자동 매핑합니다. 데이터 구조화는 자동 또는 수동으로 수행할 수 있습니다.
    시스템은 수신 로그 메시지에서 메시지, 타임스탬프, 호스트, 심각도 및 외부 ID와 같은 속성을 추출하여 로그 데이터를 자동으로 구조화합니다. "property-name" 및 "value is IP."와 같은 명시적 값, 그리고 길이, 영어 단어 수, 편차와 같은 의미 값을 추출합니다.
    자동 매핑은 로그 샘플과 메타데이터를 적절한 태그에 자동으로 할당합니다. 시스템은 데이터를 스트림하는 소스를 분석하여 로그 라인을 매핑합니다. 매핑은 에이전트 힌트 및 공통 전송 헤더 필드를 기반으로 합니다.
    보강
    이 단계에서는 로그 메시지의 변수 부분 식별을 처리합니다.
    그림 3. 상태 로그 분석 워크플로우 - 보강
    상태 로그 분석 워크플로우 - 보강.
    또한 키워드 및 컨텍스트 속성을 식별합니다. 이미지에 보이는 "WARN"와 "Failed"이 추적할 키워드입니다. "User", "source IP" 및 "port"는 컨텍스트 속성입니다.
    분석
    이 단계에서는 각 로그 라인이 인덱싱됩니다. 상태 로그 분석는 내부 로그 메시지에서 속성을 추출하여 시스템의 예상 동작 모델을 구축하는 데 기여합니다. 예외 동작은 이 예측 동작에서 벗어난 동작입니다. 이벤트와 해당 이벤트의 가장 중요한 속성을 검색하여 수동으로 분류할 수 있습니다.
    머신 러닝(ML) 및 인공 지능(AI)
    상태 로그 분석는 고급 자율 머신 러닝 알고리즘을 사용하여 로그 안의 패턴을 검색하고 고유한 데이터 동작을 학습합니다. 그런 다음 데이터 서명을 기반으로 동적 임계치를 실시간으로 설정하여 문제가 처음 발생할 때 이를 탐지합니다. 시스템이 일반 패턴의 편차를 탐지하면 이벤트 관리에 이벤트를 전송합니다.
    이벤트 관리 내 경보
    상태 로그 분석이벤트 관리에 이벤트를 전송합니다. 이벤트 관리에서 상태 로그 분석 경보가 모든 경보 목록에 표시됩니다. 운영자는 이 목록을 통해 이벤트의 경보 및 상태 로그 분석 경보 유형을 한 곳에서 확인할 수 있습니다.