Regroupement d’alertes et cas d’utilisation

  • Rversion finale: Yokohama
  • Mis à jour 30 janv. 2025
  • 7 minutes de lecture
  • Les méthodes de regroupement d’alertes vont des approches définies par l’utilisateur, telles que manuelles, basées sur des règles et des grappes de balises, aux algorithmes avancés et affinables, notamment le regroupement automatique, CMDB, basé sur le texte, l’analyse de journaux et le regroupement basé sur le trafic réseau.

    Tableau 1. Types de groupes d’alertes et cas d’utilisation
    Type Description Cas d'utilisation
    Regroupement de l’analyse de journaux Les alertes sont regroupées en fonction de l’analyse des données du journal. Cela implique de corréler les entrées de journal pour identifier les incidents et les problèmes associés. En exploitant les modèles et les séquences de journal, cette méthode peut détecter des problèmes complexes en plusieurs étapes dans l’ensemble de l’environnement informatique.

    Une société de jeux en ligne améliore la stabilité du serveur en mettant en œuvre une analyse proactive des journaux. Ils surveillent les journaux des serveurs de jeux en temps réel et utilisent des outils d’analyse pour détecter les modèles d’erreurs qui se produisent avant les plantages.

    Par exemple, l’analyse révèle que certains modèles d’erreur apparaissent environ 30 minutes avant les pannes de serveur. En configurant des alertes automatisées pour ces modèles, l’entreprise peut initier des actions de correction, telles que le redémarrage des services ou la réallocation des ressources, avant qu’un incident ne se produise. Cette approche proactive permet d’éviter les perturbations, de minimiser les temps d’arrêt et d’améliorer l’expérience de jeu en résolvant les problèmes avant qu’ils n’affectent les joueurs.

    Regroupement basé sur des règles Les alertes sont regroupées en fonction de règles et de critères prédéfinis définis par les utilisateurs. Ces règles peuvent inclure des conditions spécifiques, telles que des seuils ou des types d’événements. Cette méthode est efficace pour des modèles cohérents et reproductibles, mais nécessite la maintenance des règles.

    Dans un centre de données gérant un site Web de commerce électronique, le regroupement d’alertes basé sur des règles permet de gérer un trafic élevé lors d’événements tels que les ventes flash. Les alertes sur les problèmes de serveur, telles qu’une utilisation élevée du processeur, sont désignées comme alertes parentes. Ces alertes parentes sont liées à des alertes enfants qui signalent des problèmes connexes, tels que des requêtes de base de données lentes.

    Les règles garantissent que les alertes liées au serveur sont regroupées avec leurs symptômes, ce qui permet à l’équipe informatique d’identifier et de résoudre rapidement les problèmes de surcharge du serveur. Cette approche améliore l’efficacité de la résolution des problèmes et minimise les temps d’arrêt.

    Regroupement automatisé

    Des algorithmes avancés identifient et regroupent automatiquement les alertes connexes en fonction des modèles et des similitudes des données d’alerte. Cette méthode exploite l’apprentissage machine et l’IA pour s’adapter aux problèmes nouveaux et inconnus, offrant une gestion proactive des alertes.

    Gestion des événements Regroupe les alertes similaires, mais pas nécessairement identiques, en fonction de la proximité dans le temps de la dernière génération d’événement. Les alertes avec le même CI et le même identificateur de modèle sont regroupées.

    Le regroupement automatique d’alertes comprend les composants suivants.
    • Apprenant d’agrégation d’alertes (Apprenant d’agrégation d’alertes d’Analyse de services : quotidien) : cette tâche hors connexion s’exécute quotidiennement pour traiter les alertes passées et effectuer des analyses statistiques pour créer des schémas d’alerte. Pour plus de détails, voir Configurer le regroupement d’alertes basé sur des modèles.
    • Tâche d’agrégation d’alertes en temps réel (alertes de groupe Analyse de services utilisant la RCA/agrégation d’alertes) : cette tâche s’exécute chaque minute pour générer des groupes d’agrégation d’alertes basés sur les modèles d’alerte, les relations CMDB, la similarité du texte, les balises de mise en grappe d’alertes définies par l’utilisateur et la connexion du trafic réseau entre les processus.

    Une grande institution financière utilise l’apprentissage automatique pour gérer les alertes provenant de nombreux serveurs et applications. Le système analyse les données d’alerte historiques pour reconnaître des modèles, tels que les pannes de serveur de base de données souvent accompagnées d’erreurs de connexion client. Il regroupe ensuite automatiquement les alertes connexes. Par exemple, lorsqu’une nouvelle alerte de défaillance du serveur de base de données est détectée, elle est regroupée avec les alertes d’erreur de connexion précédentes.

    Ce regroupement automatisé aide les équipes informatiques et de sécurité à identifier et à résoudre rapidement les problèmes, ce qui améliore les temps de réponse et réduit les temps d’arrêt.

    Regroupement basé sur CMDB Les alertes sont regroupées en fonction des relations des éléments de configuration (CI) et des dépendances de la Base de données de gestion des configurations (CMDB). Cette approche garantit que les alertes liées à des composants ou à des services d’infrastructure spécifiques sont regroupées, ce qui permet une gestion des alertes contextuelle. Une entreprise de télécommunications utilise les données CMDB pour gérer les alertes liées à son infrastructure réseau. Les alertes relatives à un routeur réseau spécifique et à ses appareils connectés sont regroupées en fonction de leurs relations CMDB, ce qui permet à l’équipe réseau de voir tous les problèmes associés et de traiter efficacement la cause première.
    Regroupement basé sur du texte Les alertes sont regroupées en analysant le contenu textuel des alertes pour identifier les similitudes et les problèmes connexes. Les techniques de traitement du langage naturel (NLP) sont utilisées pour trouver des points communs dans la description des alertes, le nom de la mesure et la classe CI, ce qui rend cette méthode efficace pour les données non structurées.

    Dans une organisation qui utilise Zoom Rooms pour des réunions virtuelles, l’équipe informatique reçoit de nombreuses alertes lorsque le serveur Zoom Room subit une panne. Chaque alerte peut indiquer qu’une salle Zoom différente est en panne, comme la salle Zoom n° 10 est en panne, la salle Zoom n° 11 est en panne, et ainsi de suite, la seule différence étant le numéro de la salle.

    Pour les organisations disposant d’une CMDB, ces alertes peuvent être regroupées à l’aide de relations CMDB, car le système peut corréler les alertes en fonction de l’impact du serveur sur toutes les salles Zoom associées. Toutefois, pour les organisations sans CMDB, le regroupement basé sur du texte peut être utilisé. Le système applique le traitement du langage naturel pour regrouper les alertes avec des descriptions similaires, ce qui aide l’équipe informatique à identifier rapidement que plusieurs salles Zoom sont affectées par le même problème de serveur sous-jacent. Cette approche permet à l’équipe informatique de s’attaquer efficacement à la cause première du problème, en réduisant les temps d’arrêt et en améliorant les temps de réponse.

    Regroupement de grappes de balises Les alertes sont classées et regroupées à l’aide de balises ou d’étiquettes représentant des attributs communs, tels que l’application, le type de serveur ou l’emplacement géographique. Cette méthode permet un regroupement flexible et dynamique basé sur des stratégies de balisage évolutives.

    Une organisation sans CMDB gère un serveur Linux qui exécute divers services. L’équipe informatique utilise un champ Nœud dans chaque alerte pour identifier le serveur et regroupe tous les événements associés aux services sur le même serveur en fonction de cette valeur de nœud. Par exemple, ils regroupent les alertes telles que l’utilisation du processeur inactive du service A et l’utilisation élevée du processeur du service B s’ils partagent la même valeur de nœud.

    Cette approche aide l’équipe informatique à résoudre plus efficacement les problèmes liés aux serveurs. En regroupant les alertes pour le même nœud, la même application ou la même adresse IP, l’équipe rationalise ses efforts de réponse et résout les problèmes plus efficacement, même sans CMDB.

    Regroupement manuel Les utilisateurs sélectionnent et regroupent manuellement les alertes connexes en fonction de leur expertise et de leur compréhension du système. Cette approche permet un contrôle précis, mais peut prendre du temps et manquer des corrélations automatisées. Un administrateur système reçoit plusieurs alertes concernant différents services défaillants sur un seul serveur. L’administrateur regroupe manuellement ces alertes, en reconnaissant qu’elles sont toutes liées à une seule défaillance matérielle sur ce serveur, et donne la priorité à la résolution du problème matériel pour restaurer tous les services.
    Le regroupement manuel et basé sur des règles diffère du regroupement basé sur un algorithme principalement par la façon dont l’alerte parente est choisie. Dans le regroupement manuel, basé sur des règles ou d’analyse de journaux, l’une des alertes réelles est désignée comme alerte parente. Dans les modes Automatique, CMDB, Texte, Grappe de balises et Trafic réseau, une alerte virtuelle, représentant l’alerte la plus ancienne et la plus grave du groupe, est créée en tant qu’alerte parente.
    Remarque :
    Dans les environnements séparés par domaine, les groupes d’alertes sont créés uniquement pour les alertes situées au sein d’un même domaine.

    Pour plus d’informations sur les travaux planifiés et les paramètres, reportez-vous à .Travaux planifiés et paramètres pour le regroupement d’alertes Pour en savoir plus sur les différents types de regroupement, reportez-vous à la section Types de regroupement d’alertes et méthodes de création.