Utiliser les mesures de fiabilité
Utilisez les SRM mesures de fiabilité pour définir les indicateurs de niveau de service (SLI), les objectifs de niveau de service (SLO) et les politiques de budget d’erreur afin de suivre l’intégrité de votre service et de prendre les mesures nécessaires.
Workflow de haut niveau
- SRM exploite les intégrations pour l'agrégation des signaux.
- Les indicateurs de fiabilité contenant des SLI et des SLO sont créés pour le service dans SRM.
- Lorsqu'une alerte reconnue est générée pour un service, les valeurs de l'infraction cumulative et du budget d'erreur sont mises à jour pour les indicateurs de fiabilité dans SRM.
- Une politique de budget d'erreur est créée pour que le service déclenche des actions telles que la création d'un incident ou l'envoi d'e-mails, afin de corriger les problèmes de service. Les budgets d'erreur sont limités par catégorie.
Les principales fonctionnalités des mesures SRM sont les suivantes :
- Agrégation des signaux de SLI
- Création d'objectifs de niveau de service basés sur la durée et le nombre
- Calcul de budgets d'erreur (EB)
- Politiques de budget d'erreur
- Visualisation des budgets d'erreur
Accédez au pour afficher toutes les données critiques associées aux mesures de fiabilité et de budget d’erreur. Consultez Utiliser les services SRM pour plus d'informations.
Remarque :
Les scores ne sont visibles que lorsque des SLI, des SLO et des budgets d’erreur ont été créés et qu’ils sont affectés. Pour plus d'informations, consultez la rubrique Créer des politiques de SLO, de SLI et de budget d’erreur.
Onglet Mesures de fiabilité
Accédez au pour afficher les objectifs de niveau de service (SLO) d’un service.
Remarque :
La mise à jour du SLO change son état et entraîne la mise hors service de cet enregistrement de SLO et la création d'une nouvelle copie à des fins de surveillance précise.
Mesures de fiabilité
Les objectifs de niveau de service affichent les détails suivants :
- Objectif de niveau de service : nom du SLO. Le SLO est une valeur cible, c’est-à-dire l’objectif que votre équipe doit atteindre pour respecter votre accord sur les niveaux de service (SLA).
- Type de SLI : les chiffres réels sur les performances de votre service. Les types de SLI sont les suivants :
- Disponibilité : pourcentage de temps pendant lequel votre service est disponible. On parle aussi de temps d'activité. La disponibilité est la mesure de base de la fiabilité. (Par défaut).
- Erreurs : mesure la fréquence de vos erreurs de service.
- Latence : temps nécessaire pour traiter une demande. Le temps réel écoulé.
- Saturation : mesure la « plénitude » de votre système, en mettant l’accent sur les ressources les plus limitées.
- Période de conformité : Durée définie du SLO.
- Mois : la durée considérée est le mois actuel. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise entre le 1er janvier et le 31 janvier.
- Rolling 7 days (Période de 7 jours) : la durée considérée est de 7 jours à partir de la date actuelle.
- Rolling 30 days (Période de 30 jours) : la durée considérée est de 30 jours à partir de la date actuelle. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise à partir du 25 décembre.
- Rolling 90 days (Période de 90 jours) : la durée considérée est de 90 jours à partir de la date actuelle. Par exemple, si la date actuelle est le 26 janvier, la durée considérée est comprise à partir du 25 octobre.
- État : État du SLO. Les choix possibles sont les suivants :
- Brouillon : le SLO n'est pas encore en cours d'exécution dans votre instance. Vous pouvez ajouter de nouveaux SLI ou mettre à jour les SLI existants et supprimer le SLO.
- En cours d'exécution : le SLO est actif dans votre instance. Vous pouvez modifier, mettre hors service ou supprimer le SLO.Remarque :Si vous modifiez un SLO à l'état En cours d'exécution, il est mis hors service et une nouvelle copie est créée.
- Mis hors service : le SLO n'est plus en cours d'exécution dans votre instance. Vous pouvez le réactiver.
- Objectif (%) : pourcentage de performance du SLI souhaité.
- Nombre limite d’occurrences : nombre d’infractions de limite qui se sont produites. (Utilisé par les types de SLO Nombre.)
- Indicateur de niveau de service : nombres réels sur les performances de votre service. Des faits mesurables qui indiquent si vous répondez aux attentes des clients.
- Budget d’erreur : budget d’erreur que vous pouvez dépenser. Lors de la création d’un SLO, le budget d’erreur est calculé en fonction de la période de conformité et de l’objectif (%).
- Budget d’erreur restant : budget d’erreur restant.
- Occurrences d'infractions restantes : nombre d'infractions restantes avant que la limite ne soit atteinte.
Remarque :
Les enregistrements de l'historique des objectifs de niveau de service [sn_sow_srm_slo_history] et de la mesure de l'indicateur de niveau de service [sn_sow_srm_sli_metric] sont archivés au bout d'un an et détruits cinq ans plus tard. Cela permet d'améliorer les performances et de conserver les données sur la longévité. Aucune requête n'est exécutée sur les tables archivées.