メトリックインテリジェンスの詳細

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:3分
  • メトリックインテリジェンス を使用したメトリクスデータの分析と例外の特定の詳細について説明します。

    メトリックインテリジェンスの概要

    メトリックインテリジェンス は、潜在的なサービス停止を特定して回避するのに役立ちます。メトリックインテリジェンス は、過去のメトリクスデータに基づいて、イベントがキャプチャしない可能性がある CI の例外動作を示します。

    メトリックインテリジェンスユーザー

    表 : 1. ユーザー
    ユーザー 説明
    イベント管理 ユーザー

    [evt_mgmt_user]

    アラートとその基になるメトリクスを表示できます。
    イベント管理 アドミニストレーター

    [evt_mgmt_admin]

    すべてのメトリクスの定義とコネクター設定を構成できます。
    オペレーター

    [evt_mgmt_operator]

    すべてのメトリクスの定義とコネクタ設定を表示できます。

    メトリックインテリジェンス のワークフロー

    次の図は、メトリックインテリジェンスアプリケーション内のレイアウトとデータフローを示しています。

    図 : 1. メトリックインテリジェンスパイプライン
    メトリックインテリジェンスのワークフローを概説するインフォグラフィック
    1. データ収集:エージェント、サードパーティコネクタ、およびカスタムコネクタ (REST) は、サーバーとインフラストラクチャコンポーネントからパフォーマンスデータを収集します。エージェントによって収集されたデータは WebSocket を介して MID サーバー に渡され、サードパーティおよびカスタムコネクタによって収集されたデータはコネクタを介して MID サーバー に渡されます。
    2. データの正規化:生データは、メトリックベースで読みやすいようにノーマライザーによってフォーマットされます。
    3. データのグループ化:データはバッチャーによってグループ化され、インスタンス (Glide) の REST API に送信されます。
    4. Clotho TSDB へのデータ転送:REST API はデータを処理し、Clotho TSDB に送信します。
    5. モデルの作成:トレーナー/学習者ジョブが実行され、受信したデータに基づいてモデルが作成されます。たとえば、ジョブは、通常の CPU 使用率のしきい値が 60% であることを学習する場合があります。その日のデータと過去のデータに基づいて、毎日新しいモデルが作成されます (ほとんどのモデルは過去 14 日間のデータを収集します)。
    6. 時系列モデルキャッシュ DB へのモデルデータ転送:データは、インスタンス (Glide) を介して MID サーバー 上の時系列モデルキャッシュ DB に送信されます。モデル キャッシュには、「通常の」モデルの限度が格納されます。
    7. 例外検出:正常の範囲外のデータは MID サーバー によって検出され、例外スコアとしてレンダリングされます。例外はインスタンスに保存され、 サービスオペレーションワークスペースに表示されます。異常検知はリアルタイムに行われるため、お客様はすぐに異常に気づくことができます。

    メトリックインテリジェンス のメリット

    メリット 機能 ユーザー
    自動構成を活用して、イベントと測定基準を自動収集することで、システムの健全性、パフォーマンス、および可用性を監視します。 エージェントクライアントコレクターモニタリング NOCオペレーター、 イベント管理 アドミニストレーター
    最も意味のある異常のみを昇格させることで、ノイズを低減します。

    異常アラートの表示

    メトリクスルールの作成

    イベント管理 アドミニストレーター
    AI ベースの異常検出では、教師なし機械学習による異常パターン検出 (ユーザーの介入なし)、または確定的アラートルールの設定 (静的しきい値を手動で設定) して異常を検出します。 ヘルスログアナリティクス でのアラートの生成方法 イベント管理 アドミニストレーター
    生のメトリクスデータを可視化することで、オープンアラートとインシデントの解決時間を短縮します。 メトリックエクスプローラー NOCオペレーター、 イベント管理 アドミニストレーター