Dashboard de Confiabilidade

A idéia desta Dashboard é equilibrar a visualização por números das 3 camadas de um produto. O ideal é ter uma Dashboard por serviço.

Golden Signals (Sinais Dourados)

O SRE Book do Google consolidou 4 métricas básicas na camada de infraestrutura que um time precisa acompanhar:

No livro SRE traduzido pela ElvenWorks, o capítulo 6 monitorando sistemas distribuídos, tem um descritivo de cada métrica na seção “Os quatro sinais de ouro”.

DORA Metrics

O Instituto DORA, adquirido pelo Google, desenvolveu uma pesquisa acadêmica sobre o que leva um time a atingir a excelência e ser considerado de alta performance e mantém um Quiz para as equipes que desejam se auto avaliarem dentro da tese.

A tese demonstrou estatisticamente 4 métricas cruciais relacionadas com times de alta performance:

  1. Lead Time For Change, o tempo médio de entrega para alterações é o tempo médio que leva desde o código ser confirmado até o código ser liberado para produção. Algumas organizações começam a rastrear o tempo desde o primeiro commit do código do projeto, enquanto outras o medem a partir da fusão do código com o branch principal.
  2. Deployment Frequency, a frequência de implantação é simplesmente o ritmo pelo qual uma organização lança com sucesso o software para produção. Essa métrica suporta a proposição de valor fundamental da metodologia ágil, de que o objetivo de uma organização moderna de entrega de software é entregar software continuamente para maximizar o valor para o usuário final.;
  3. Change Fail Rate, a taxa de falha de alteração é a porcentagem de alterações de código que levam a falhas na produção. É o código que precisa ser corrigido ou chamado de volta depois de implantado.;
  4. Mean Time To Recovery, o tempo médio de reparo é uma medida da capacidade de manutenção de um item, que basicamente informa o tempo médio necessário para reparar um item ou sistema específico e retorná-lo ao status normal de funcionamento. Isso inclui o tempo de notificação, o diagnóstico e o tempo gasto no reparo real, além de outras atividades necessárias para que o item possa ser usado novamente;

A segunda camada desta Dahboard é baseada no DORA atualizado, a quinta métrica, Availability (disponibilidade), foi adicionada recente no modelo.

Métrica North Star (Estrela do Norte)

A terceira camada é para medir a eficiência sobre a operação dos serviços do produto, aqui existe uma nova disciplina chamada Product Analytics que cobre a metodologia do que é importante no acompanhamento, para a Dashboard indicamos o Framework North Star.

O modelo aqui seguido é relativamente simplificado, uma métrica sobre a execução do serviço mais importante da aplicação ou aquele serviço que precisa de uma atenção especial, principalmente para a construção de um bom Plano de Confiabilidade sobre o serviço.

Correlacionar o sucesso do produto com resultado da empresa é sempre muito difícil e necessita uma análise de contexto.

A proposta da Dashboard de Confiabilidade é correlacionar as camadas de infra, delivery e um serviço crítico para apoiar o time de produto e evidenciar quando não atende, quando degrada e principalmente se está tudo ok para o cliente.

O importante do número é demonstrar o volume em percentual e totais, uma indicação se está piorando ou melhorando ao longo de uma faixa de tempo e ser correlacionado com as outras 3 camadas pela aplicação que entrega os números.


Publicado

em

por

Tags:

Comentários

2 respostas para “Dashboard de Confiabilidade”

  1. […] (Observabilidade): O time de produto possue Dashboard de Confiabilidade para cada serviço, além de um plano de visualização do MELT (métricas, eventos, logs e traces) […]

  2. […] O plano sai com com Backlog de todas as atividades referentes a observabilidade e entrega do produto, o principal artefato em observabilidade defendido pelo ProdOps é a Dashboard de Confiabilidade. […]

Deixe um comentário