Warnungsgruppierung und Anwendungsfälle

Yokohama IT Operations Management

Release

yokohama

ft:locale

de-DE

ft:publication_title

Yokohama IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

Warnungsgruppierung und Anwendungsfälle

Freigeben Version: Yokohama

Aktualisiert 30. Januar 2025

5 Minuten Lesedauer

Die Methoden zur Gruppierung von Warnungen reichen von anwenderdefinierten Ansätzen (manuell, regelbasiert und Tag-Cluster) bis zu erweiterten, gut abstimmbaren Algorithmen (automatisch, CMDB, textbasiert, Log Analytics und Netzwerkdatenverkehr).

Tabelle : 1. Warnungsgruppierungstypen und Anwendungsfälle
Typ	Beschreibung	Anwendungsfall
Log Analytics-Gruppierung	Warnungen werden basierend auf der Analyse der Protokolldaten gruppiert. Dies beinhaltet die Korrelation von Protokolleinträgen, um zugehörige Incidents und Probleme zu identifizieren. Durch die Nutzung von Protokollmustern und -sequenzen kann diese Methode komplexe Probleme mit mehreren Schritten in der gesamten IT-Umgebung erkennen.	Ein Online-Gaming-Unternehmen verbessert die Serverstabilität durch die Implementierung proaktiver Protokollanalysen. Sie überwachen Protokolle von Spielservern in Echtzeit und verwenden Analysetools, um Fehlermuster zu erkennen, die vor Abfällen auftreten. Die Analyse zeigt beispielsweise, dass bestimmte Fehlermuster etwa 30 Minuten vor einem Serverabsturz auftreten. Durch die Einrichtung automatisierter Warnungen für diese Muster kann das Unternehmen Korrekturmaßnahmen initiieren, z. B. den Neustart von Services oder die Neuzuteilung von Ressourcen, bevor ein Absturz auftritt. Dieser proaktive Ansatz verhindert Unterbrechungen, minimiert Ausfallzeiten und verbessert die Spielerfahrung, indem Probleme behoben werden, bevor sie sich auf die Akteure auswirken.
Regelbasierte Gruppierung	Warnungen werden nach vordefinierten Regeln und Kriterien gruppiert, die von Anwendern festgelegt wurden. Diese Regeln können bestimmte Bedingungen enthalten, z. B. Schwellenwerte oder Ereignistypen. Diese Methode ist effektiv für konsistente und wiederholbare Muster, erfordert jedoch die Wartung der Regeln.	In einem Rechenzentrum, in dem eine E-Commerce-Website verwaltet wird, hilft eine regelbasierte Warnungsgruppierung bei der Bewältigung von hohem Datenverkehr bei Ereignissen wie Flash-Sales. Warnungen zu Serverproblemen (z. B. hohe CPU-Auslastung) werden als übergeordnete Warnungen bezeichnet. Diese übergeordneten Warnungen sind mit untergeordneten Warnungen verknüpft, die zugehörige Probleme melden, z. B. langsame Datenbankabfragen. Die Regeln stellen sicher, dass serverbezogene Warnungen mit ihren Symptomen gruppiert werden, damit das IT-Team Probleme mit der Serverüberlastung schnell erkennen und beheben kann. Dieser Ansatz verbessert die Effizienz der Problemlösung und minimiert Ausfallzeiten.
Automatisierte Gruppierung	Hochentwickelte Algorithmen identifizieren und gruppieren zugehörige Warnungen automatisch auf Grundlage von Mustern und Ähnlichkeiten in den Warnungsdaten. Diese Methode nutzt maschinelles Lernen und KI, um sich an neue und unbekannte Probleme anzupassen und ein proaktives Warnungsmanagement zu ermöglichen. Ereignismanagement gruppiert Warnungen, die ähnlich, aber nicht unbedingt identisch sind, basierend auf der zeitlichen Nähe zur letzten Ereignisgenerierung. Warnungen mit demselben CI und demselben Musterbezeichner werden in einer Gruppe zusammengefasst. Die automatische Warnungsgruppierung besteht aus den folgenden Komponenten. Warnungszusammenfassung – Lerner (Service Analytics Warnungszusammenfassung – Lerner – Täglich): Dieser Offline-Auftrag wird täglich ausgeführt, um vergangene Warnungen zu verarbeiten und statistische Analysen durchzuführen, um Warnungsmuster zu erstellen. Details finden Sie unter Konfigurieren Sie die musterbasierte Warnungsgruppierung. Echtzeitwarnungszusammenfassungsauftrag (Service Analytics-Gruppenwarnungen mit RCA/Warnungszusammenfassung): Dieser Auftrag wird jede Minute ausgeführt, um Warnungszusammenfassungsgruppen basierend auf Warnungsmustern, CMDB-Beziehungen, Textähnlichkeit, anwenderdefinierten Warnungs-Clustering-Tags und Netzwerkdatenverkehrsverbindung zu generieren zwischen Prozessen.	Ein großes Finanzinstitut verwendet maschinelles Lernen, um Warnungen von zahlreichen Servern und Anwendungen zu verwalten. Das System analysiert historische Warnungsdaten, um Muster zu erkennen, z. B. Datenbankserverausfälle, die häufig von Clientverbindungsfehlern begleitet werden. Dann werden zugehörige Warnungen automatisch gruppiert. Wenn beispielsweise eine neue Datenbankserverfehlerwarnung erkannt wird, wird sie mit vorherigen Verbindungsfehlerwarnungen gruppiert. Diese automatisierte Gruppierung hilft den IT- und Sicherheitsteams, Probleme schnell zu erkennen und zu beheben, die Antwortzeiten zu verbessern und die Ausfallzeiten zu reduzieren.
CMDB-basierte Gruppierung	Warnungen werden basierend auf Configuration Item (CI)-Beziehungen und Abhängigkeiten von der Configuration Management Database (CMDB) gruppiert. Dieser Ansatz stellt sicher, dass Warnungen, die sich auf bestimmte Infrastrukturkomponenten oder Services beziehen, gruppiert werden, was eine kontextbezogene Warnungsverwaltung ermöglicht.	Ein Telekommunikationsunternehmen verwendet CMDB-Daten, um Warnungen im Zusammenhang mit seiner Netzwerkinfrastruktur zu verwalten. Warnungen, die sich auf einen bestimmten Netzwerkrouter und die zugehörigen Geräte beziehen, werden auf Grundlage ihrer CMDB-Beziehungen gruppiert, sodass das Netzwerkteam alle zugehörigen Probleme erkennen und die Ursache effizient beheben kann.
Textbasierte Gruppierung	Warnungen werden gruppiert, indem der Textinhalt der Warnungen analysiert wird, um Ähnlichkeiten und zugehörige Probleme zu identifizieren. NLP-Techniken (Natural Language Processing) werden verwendet, um Gemeinsamkeiten in der Warnungsbeschreibung, dem Metriknamen und der CI-Klasse zu finden. Dadurch ist diese Methode für unstrukturierte Daten effektiv.	In einer Organisation, die Zoom-Räume für virtuelle Besprechungen verwendet, erhält das IT-Team zahlreiche Warnungen, wenn der Zoom-Raum-Server ausfällt. Jede Warnung kann darauf hinweisen, dass ein anderer Zoom-Raum ausgefallen ist, z. B. Zoom-Raum Nr. 10 ist ausgefallen, Zoom-Raum Nr. 11 ist ausgefallen usw., wobei der einzige Unterschied in der Raumnummer besteht. Bei Organisationen mit einer CMDB können diese Warnungen mithilfe von CMDB-Beziehungen gruppiert werden, da das System die Warnungen basierend auf der Auswirkung des Servers auf alle zugehörigen Zoom-Räume korrelieren kann. Für Organisationen ohne CMDB kann jedoch die textbasierte Gruppierung verwendet werden. Das System wendet die Verarbeitung natürlicher Sprache auf Gruppenwarnungen mit ähnlichen Beschreibungen an, damit das IT-Team schnell erkennen kann, dass mehrere Zoom-Räume von demselben zugrunde liegenden Serverproblem betroffen sind. Dieser Ansatz ermöglicht es dem IT-Team, die Ursache des Problems effizient zu beheben, Ausfallzeiten zu reduzieren und die Antwortzeiten zu verbessern.
Tag-Clustergruppierung	Warnungen werden mithilfe von Tags oder Bezeichnungen kategorisiert und gruppiert, die allgemeine Attribute wie Anwendung, Servertyp oder geografischer Standort darstellen. Diese Methode ermöglicht eine flexible und dynamische Gruppierung basierend auf sich entwickelnden Tagging-Strategien.	Eine Organisation ohne CMDB verwaltet einen Linux-Server, auf dem verschiedene Services ausgeführt werden. Das IT-Team verwendet in jeder Warnung ein Knotenfeld, um den Server zu identifizieren, und gruppiert alle Ereignisse, die sich auf Services auf demselben Server beziehen, basierend auf diesem Knotenwert. Beispielsweise gruppieren sie Warnungen wie „Service A ausgefallen“ und „Service B – hohe CPU-Auslastung“, wenn sie denselben Knotenwert verwenden. Dieser Ansatz hilft dem IT-Team, serverbezogene Probleme effizienter zu beheben. Durch das Clustering von Warnungen für denselben Knoten, dieselbe Anwendung oder dieselbe IP-Adresse optimiert das Team seine Antwortmaßnahmen und löst Probleme effektiver, auch ohne CMDB.
Manuelle Gruppierung	Benutzer wählen und gruppieren zugehörige Warnungen manuell, je nach Fachwissen und Verständnis des Systems. Dieser Ansatz ermöglicht eine präzise Steuerung, kann jedoch zeitaufwändig sein und automatisierte Korrelationen fehlen.	Ein Systemadministrator erhält mehrere Warnungen zu verschiedenen Services, die auf einem einzelnen Server fehlschlagen. Der Administrator gruppiert diese Warnungen manuell und erkennt, dass sie alle auf einen einzelnen Hardwarefehler auf diesem Server zurückzuführen sind. Er priorisiert die Behebung des Hardwareproblems, um alle Services wiederherzustellen.

Die manuelle und regelbasierte Gruppierung von Warnungen unterscheidet sich von der auf Algorithmen basierenden Gruppierung hauptsächlich dadurch, wie die übergeordnete Warnung ausgewählt wird. Bei manueller, regelbasierter oder Log Analytics-Gruppierung wird eine der echten Warnungen als übergeordnete Warnung festgelegt. In den Modi „Automatisch“, „CMDB“, „Textbasiert“, „Tag-Cluster“ und „ Netzwerkverkehrwird eine virtuelle Warnung, die die älteste und schwerwiegendste Warnung in der Gruppe darstellt, als übergeordnete Warnung erstellt.

Hinweis:

In domänengetrennten Umgebungen werden Warnmeldungsgruppen nur für Warnungen innerhalb derselben Domäne erstellt.

Informationen zu geplanten Aufgaben und Parametern finden Sie unter Geplante Aufgaben und Parameter für die Gruppierung von Warnungen. Ausführliche Informationen zu den verschiedenen Gruppierungstypen finden Sie unter Warnungsgruppierungstypen und -erstellungsmethoden.