Le développement de logiciels peut être ardu, mais prendre de l'avance sur le workflow de triage des erreurs peut s'avérer encore plus difficile. Quand il s'agit du temps de disponibilité, de fiabilité et, au bout du compte, d'éviter la perte éventuelle de revenus, chaque seconde compte vraiment lors de la résolution des problèmes impactant les clients. 

Pour accélérer la résolution des problèmes, il vous faut des données riches et contextualisées au sein d'une expérience unifiée qui vous permettent de prioriser et solutionner rapidement les erreurs les plus importantes. La toute dernière mise à jour d'Errors Inbox de New Relic vous apporte le contexte nécessaire pour accélérer les workflows de résolution des erreurs et vous aide à réduire le temps moyen de résolution (MTTR) en vous permettant de vous concentrer sur la résolution des erreurs qui impactent vos clients.

Utilisateurs impactés + alertes = meilleure priorisation des erreurs

Les toutes dernières améliorations apportées à Errors Inbox vous permettent de déterminer le niveau d'importance des différents groupes d'erreurs. Vous pouvez désormais voir le nombre d'utilisateurs touchés par un groupe d'erreurs et créer des alertes en fonction de cette métrique. Vous pouvez ensuite vous concentrer sur les erreurs représentant le plus fort RSI.

Vous pouvez générer les alertes New Relic en fonction du nombre d'utilisateurs impactés par les erreurs. Consultez notre didacticiel simple pour bien démarrer avec le paramétrage des alertes en fonction de l'impact sur les utilisateurs.

Trouvez la cause des erreurs plus rapidement grâce aux traces 

Les applications modernes sont composées de multiples composants ou services qui rendent difficile l'identification des causes profondes d'un problème. Cela est particulièrement compliqué si vous n'avez pas les informations suffisantes pour comprendre comment les différents services interagissent sur l'ensemble du système. Vous voulez peut-être aussi déchiffrer certains messages d'erreur afin d'identifier les endroits où il y a eu un plantage, ou changer d'outils pour comprendre pourquoi un problème qui s'est produit a compromis les performances de l'application.

Vous pouvez désormais accéder au tracing distribué directement depuis Errors Inbox, ce qui vous permet d'obtenir des informations détaillées et d'analyser les erreurs dans une seule et même vue.

Sélectionnez une erreur pour afficher les traces de corrélation et obtenir un aperçu de toute la requête et un résumé de sa durée, ainsi que le nombre de spans et les erreurs qui se sont produites.

Sélectionnez Explore pour obtenir de plus amples détails sur le contexte.

Vous pouvez ensuite ouvrir une vue plus granulaire de la requête avec les détails sur la trace et une représentation visuelle de tous les spans enregistrés. Utilisez cette visualisation pour rapidement identifier l'endroit où le problème a commencé et vous consacrer à le résoudre plus vite. 

Une collaboration contextualisée au niveau de l'entité avec Slack

Vous avez peut‑être lu l'article sur notre intégration à Slack. Nous l'avons poussé plus loin et elle prend maintenant en charge les notifications Slack jusqu'au niveau de l'entité, ce qui permet une meilleure collaboration entre vos équipes. 

Cette amélioration à l'intégration envoie des notifications à la boîte d'arrivée désignée, spécifique à un service ou une application. Vous pouvez désormais vous concentrer davantage et collaborer sur les applications qui appartiennent à votre équipe. 

Pour de plus amples détails sur la connexion d'Errors Inbox avec Slack, regardez cette vidéo :

Ou suivez ces étapes : 

  1. Si l'application New Relic n'est pas installée dans votre espace de travail Slack, installez-là d'abord.
  2. Ouvrez l'une de vos Errors Inbox New Relic et sélectionnez l'icône représentant une cloche dans le coin supérieur droit pour ouvrir les paramètres de notification.
  3. Si le bouton Slack est désactivé, sélectionnez-le pour l'activer.
  4. Si aucun espace de travail n'est disponible, sélectionnez le bouton + pour activer Slack.
  5. Après votre authentification, vous pourrez sélectionner un workspace et un canal spécifique auxquels envoyer les notifications.
  6. Sélectionnez Test pour vérifier que les messages sont envoyés au bon canal.

Paramétrage des alertes selon l'impact sur les utilisateurs

Pour vraiment tirer parti de cette fonctionnalité, vous devrez tout d'abord vérifier que vous envoyez les données d'impact des utilisateurs vers New Relic. Vous pourrez ensuite configurer l'alerte en déterminant :

  • Les entités produisant des erreurs qui doivent être monitorées et activer les alertes
  • Le signal d'alerte le plus important important pour votre cas d'utilisation
  • Le seuil qui apportera immédiatement des informations précieuses à votre organisation

Voici un didacticiel rapide avec trois étapes de base :

1. Déterminez l'identifiant entity.guid d'un service d'alerte.

En règle générale, vous pouvez créer des alertes en fonction de n'importe quel signal NRQL. Pour ce didacticiel, vous créerez une alerte sur les entités produisant des erreurs qui impactent les clients. Si l'entité pour laquelle vous voulez recevoir des alertes est un service APM, sélectionnez APM & services dans le menu de navigation, puis sélectionnez le service pour lequel vous voulez recevoir des alertes. Trouvez l'identifiant entity.guid du service en sélectionnant See metadata and manage tags, comme indiqué dans cette capture d'écran :

 

Copiez ensuite l'identifiant entity.guid, comme illustré dans cet exemple : 

Les entités existent sur tous les workloads et sources produisant des erreurs, ce ne sont pas les seuls endroits où vous pourrez les trouver.

Pour de plus amples informations, consultez notre documentation sur ce qu'est une entité et comment en trouver une.

2. Créez une requête pour obtenir le nombre d'utilisateurs impactés.

Pour créer une requête NRQL qui renvoie les utilisateurs impactés, déterminez d'abord les services que vous voulez inclure dans vos alertes et obtenez leurs identifiants entity.guid.

Lorsque vous avez déterminé les identifiants entity.guid, ouvrez le développeur de requêtes et insérez cette chaîne NRQL : 

SELECT uniqueCount(newrelic.error.group.user_impact) FROM Metric WHERE metricName='newrelic.error.group.userImpact' AND entity.guid in(entity.guid1, entity.guid2, …) FACET error.group.guid TIMESERIES

Remplacez entity.guid avec les identifiants GUID des services pour lesquels vous voulez recevoir des alertes.

Cette requête renvoie le nombre d'utilisateurs uniques impactés par le groupe d'erreurs produit par les services pour les identifiants entity.guid que vous avez fournis. Vous devez ensuite définir l'alerte à déclencher en fonction du nombre d'utilisateurs uniques impactés au-delà d'un certain seuil. 

La représentation graphique de ces données dans le développeur de requête vous permet d'ajuster la chaîne de requête, si vous le souhaitez.

Quand vous avez la chaîne qui produit le signal pour lequel vous voulez recevoir une alerte, sélectionnez Create alert. Une fenêtre apparaît où vous pouvez configurer la condition de votre alerte NRQL.

3. Créez une alerte NRQL en fonction de la métrique sur les utilisateurs impactés

Pour créer une alerte en fonction du nombre d'utilisateurs impactés sur vos services instrumentés, vous devez d'abord créer une condition d’alerte NRQL. Voici comment le faire.

Sélectionnez Alert conditions (Policies) et définissez les seuils qui déclenchent la condition. Les violations de la condition sont en surbrillance et vous aident à déterminer les meilleurs seuils pour votre cas d'utilisation particulier. Le seuil idéal varie en fonction du cas d'utilisation, mais une bonne valeur de départ sera la plus petite valeur et la durée de violation la plus courte qui ne déclenchera pas d'alerte.

L'ajustement de la fenêtre d'agrégation peut également réduire les bruits inutiles et produire plus d'alertes exploitables :

Si la fenêtre est trop brève, un petit seuil peut entraîner une fausse alarme en raison de quelques erreurs passagères, mais un seuil trop important peut rater un flux modéré mais constant d'utilisateurs impactés. Pour plus d'informations, consultez notre documentation sur la durée de la fenêtre.

Vous êtes maintenant prêt à effectuer l'enregistrement. Faites défiler ou réduisez les sections de configuration des alertes et sélectionnez Save condition.

La règle d'alerte est créée et activée avec les paramètres par défaut. Pour de plus amples informations, consultez notre documentation sur les règles


Remarque : la chaîne NRQL utilisée a plusieurs facettes en fonction du groupe d'erreurs. Cela signifie que si un groupe d'erreurs dépasse la valeur seuil de la durée de violation, elle déclenchera une alerte. Pour votre cas d'utilisation , il vaudra peut-être mieux mesurer le nombre total d'utilisateurs impactés plutôt que de vous limiter au nombre total d'utilisateurs impactés pour chaque groupe d'erreurs. Dans ce cas, vous pouvez retirer la clause FACET. Voici un exemple de requête :

SELECT uniqueCount(newrelic.error.group.user_impact) FROM Metric WHERE metricName='newrelic.error.group.user_impact' AND entity.guid in(entityGuid1, entityGuid2, …)

Notez aussi qu'il n'est pas nécessaire que les entités que vous utilisez dans une condition d’alerte soient du même type.