メトリックインテリジェンスの詳細
メトリックインテリジェンス を使用したメトリクスデータの分析と例外の特定の詳細について説明します。
メトリックインテリジェンスの概要
メトリックインテリジェンス は、潜在的なサービス停止を特定して回避するのに役立ちます。メトリックインテリジェンス は、過去のメトリクスデータに基づいて、イベントがキャプチャしない可能性がある CI の例外動作を示します。
メトリックインテリジェンスユーザー
| ユーザー | 説明 |
|---|---|
| イベント管理 ユーザー [evt_mgmt_user] |
アラートとその基になるメトリクスを表示できます。 |
| イベント管理 アドミニストレーター [evt_mgmt_admin] |
すべてのメトリクスの定義とコネクター設定を構成できます。 |
| オペレーター [evt_mgmt_operator] |
すべてのメトリクスの定義とコネクタ設定を表示できます。 |
メトリックインテリジェンス のワークフロー
次の図は、メトリックインテリジェンスアプリケーション内のレイアウトとデータフローを示しています。
- データ収集:エージェント、サードパーティコネクタ、およびカスタムコネクタ (REST) は、サーバーとインフラストラクチャコンポーネントからパフォーマンスデータを収集します。エージェントによって収集されたデータは WebSocket を介して MID サーバー に渡され、サードパーティおよびカスタムコネクタによって収集されたデータはコネクタを介して MID サーバー に渡されます。
- データの正規化:生データは、メトリックベースで読みやすいようにノーマライザーによってフォーマットされます。
- データのグループ化:データはバッチャーによってグループ化され、インスタンス (Glide) の REST API に送信されます。
- Clotho TSDB へのデータ転送:REST API はデータを処理し、Clotho TSDB に送信します。
- モデルの作成:トレーナー/学習者ジョブが実行され、受信したデータに基づいてモデルが作成されます。たとえば、ジョブは、通常の CPU 使用率のしきい値が 60% であることを学習する場合があります。その日のデータと過去のデータに基づいて、毎日新しいモデルが作成されます (ほとんどのモデルは過去 14 日間のデータを収集します)。
- 時系列モデルキャッシュ DB へのモデルデータ転送:データは、インスタンス (Glide) を介して MID サーバー 上の時系列モデルキャッシュ DB に送信されます。モデル キャッシュには、「通常の」モデルの限度が格納されます。
- 例外検出:正常の範囲外のデータは MID サーバー によって検出され、例外スコアとしてレンダリングされます。例外はインスタンスに保存され、 サービスオペレーションワークスペースに表示されます。異常検知はリアルタイムに行われるため、お客様はすぐに異常に気づくことができます。
メトリックインテリジェンス のメリット
| メリット | 機能 | ユーザー |
|---|---|---|
| 自動構成を活用して、イベントと測定基準を自動収集することで、システムの健全性、パフォーマンス、および可用性を監視します。 | エージェントクライアントコレクターモニタリング | NOCオペレーター、 イベント管理 アドミニストレーター |
| 最も意味のある異常のみを昇格させることで、ノイズを低減します。 | イベント管理 アドミニストレーター | |
| AI ベースの異常検出では、教師なし機械学習による異常パターン検出 (ユーザーの介入なし)、または確定的アラートルールの設定 (静的しきい値を手動で設定) して異常を検出します。 | ヘルスログアナリティクス でのアラートの生成方法 | イベント管理 アドミニストレーター |
| 生のメトリクスデータを可視化することで、オープンアラートとインシデントの解決時間を短縮します。 | メトリックエクスプローラー | NOCオペレーター、 イベント管理 アドミニストレーター |
次に探索する内容
メトリックインテリジェンス の構成と使用の詳細については、以下を参照してください。