SLA não é um contrato jurídico. É bússola de confiabilidade.
Medir Uptime não basta, no ProdOps e no ODD (Observability Driven Design), indicadores existem para direcionar evolução, não para preencher relatórios. Quando falamos de SLA, estamos falando aqui sobre toda a cultura, que envolve SLO, SLI e Error Budget.
SLA do jeito novo (e porque não falha)
Um dos principais problemas que o ProdOps busca resolver é o antigo atrito no alinhamento entre TI e Negócio. Durante anos, as empresas trataram confiabilidade como responsabilidade exclusiva da área técnica, enquanto o negócio ficava apenas cobrando resultados. Esse modelo criou uma divisão artificial, em que cada lado falava uma língua diferente.
A mudança começa quando entendemos que SLA não é um contrato de cobrança entre áreas, mas sim um compromisso conjunto de produto. Muitas organizações já perceberam que transformar o SLA em um acordo explícito e transparente dentro da cultura SRE gera enormes benefícios:
- O negócio passa a enxergar o SLA como garantia de valor entregue ao cliente, e não como jargão técnico.
- A TI deixa de medir sucesso apenas por uptime, e passa a relacionar indicadores técnicos com impacto direto no usuário.
- O diálogo entre times fica menos baseado em cobranças e mais baseado em decisões compartilhadas: lançar uma nova funcionalidade agora ou investir em resiliência?
No ProdOps, esse alinhamento vai além: o SLA se torna a bússola que guia tanto evolução de produto quanto confiabilidade operacional. E quando conectamos isso à prática de Observability Driven Design (ODD), o compromisso deixa de ser abstrato e passa a ser observável e mensurável em produção, com métricas, SLOs e error budgets claros.
No fim, o que antes era motivo de conflito (TI defendendo estabilidade e negócio cobrando velocidade) se transforma em métrica compartilhada de sucesso.
SLA como contrato entre TI e negócio
A maioria dos profissionais, especialmente os técnicos, tende a seguir as definições de SLA presentes nas documentações das grandes clouds (AWS, GCP e Azure). Embora úteis como referência operacional, essas definições raramente são aplicadas de forma integrada ao negócio, criando um viés limitado que impede a maximização do verdadeiro potencial desse modelo de gestão.
Vejamos um resumo do que se prega no mercado:
Microsoft Azure (definições em documentações e certificações)
- Conceito geral: O SLA é um compromisso formal da Microsoft com o cliente sobre disponibilidade e desempenho do serviço, geralmente expresso como percentual de uptime (como 99,9%).
- Componentes comuns:
- Percentual de disponibilidade.
- Créditos de serviço como compensação caso o SLA não seja cumprido.
- Impacto de configurações e níveis de serviço sobre a garantia .
- Termos técnicos em certificações (como AZ-900):
- SLA é definido como um acordo contratual de nível de serviço entre provedor e cliente, que pode gerar consequências financeiras caso não seja atendido. Documentação Oficial.
- Pergunta exemplo (AZ-900): “O que é garantido em um SLA do Azure?” — resposta correta: uptime (disponibilidade) .
Amazon Web Services (AWS)
- Definição: SLA é um contrato entre fornecedor e cliente, que estabelece níveis de serviço com métricas como uptime, tempo de resposta, e prevê ações (como créditos ou descontos) se os níveis não forem cumpridos. Documentação Oficial.
- Aspecto geral: Centrado em disponibilidade, medido com “Monthly Uptime Percentage”, com créditos de serviço como compensação.
Google Cloud Platform (GCP)
- Visão geral do SLA: Também define um compromisso formal de uptime mensal (SLO), com a possibilidade de créditos financeiros quando não cumprido. Documentação Oficial e capítulo específico do SRE Book (livro que definiu e contextualizou o papel do SRE e a cultura envolvida).
- Distinção importante: GCP enfatiza a diferença entre SLO (objetivo interno de confiabilidade) e SLA (compromisso contratual, com compensação financeira) .
A maioria dos profissionais, especialmente os técnicos, tende a seguir as definições de SLA presentes nas documentações das grandes clouds (AWS, GCP e Azure). Por exemplo, nas certificações da AWS — como o AWS Certified Cloud Practitioner (CLF-C02) — espera-se conhecimento de termos fundamentais da nuvem, incluindo Service Level Agreement (SLA) e conceitos relacionados (SLO, MTTR), conforme o guia oficial do exame; em níveis mais avançados, como o AWS Certified Solutions Architect (SAA-C03), o conteúdo explora o Well-Architected Framework e práticas de confiabilidade que implicam definição e desenho de SLAs/SLOs para arquiteturas de produção. Essas referências são valiosas como base operacional, mas quando aplicadas isoladamente — sem vincular o SLA a métricas de negócio e à prática de Observability Driven Design — acabam gerando um viés que limita a capacidade de usar esse modelo de gestão para tomar decisões reais de produto e operação.
ODD como prática para materializar SLA
Muitas equipes ainda têm dificuldade em contextualizar o que é SLA e distinguir claramente de SLO e SLI — e isso é completamente natural, pois a confusão surge principalmente na prática diária. Uma dica (como gatilho) que costumo dar para evitar misturar os conceitos é pensar assim: SLA é quase sempre um compromisso binário — ou você cumpre o percentual ou absoluto acordado, ou não cumpre. Quando você percebe que está tentando medir algo de forma gradual, com números específicos e contínuos, provavelmente está se confundindo: nesse caso, o que você está definindo é mais um SLO ou um SLI, que são métricas de desempenho usadas para monitoramento interno, e não o contrato formal de serviço.
Definição simplificada:
Conceito | O que é | Métrica típica | Como pensar | Exemplo |
---|---|---|---|---|
SLA (Service Level Agreement) | Compromisso formal com o cliente | Percentual ou absoluto | Binário: cumpre ou não cumpre | “99,9% de uptime por mês” |
SLO (Service Level Objective) | Objetivo de confiabilidade interno | Percentual, tempo, contagem | Meta interna que guia decisões | “95% dos pedidos processados em ≤ 2s” |
SLI (Service Level Indicator) | Métrica concreta que mede desempenho | Métrica real observável | Indica se SLO/SLA estão sendo cumpridos | “Latência média do endpoint de checkout = 1,8s” |
Gancho para não confundir:
SLI = métrica real → mostra se você está dentro do objetivo.
SLO = objetivo interno → define metas graduais.
SLA = contrato → cumpre ou não cumpre.
North Star com o negócio
O framework North Star pode ser extremamente útil para guiar a definição de SLOs dentro de uma abordagem de ProdOps ou Observability Driven Design. Ao identificar a métrica central que reflete o valor entregue ao usuário — a chamada North Star Metric — é possível derivar objetivos de confiabilidade diretamente alinhados com o impacto de negócio.
Um segundo gatilho que costumo utilizar é extrair o SLA a partir de SLOs previamente definidos em conjunto com o negócio. Essa abordagem torna mais fácil identificar janelas de atuação sobre indicadores específicos, permitindo que os SLOs guiem a criação de contratos de serviço mais realistas e acionáveis, ao invés de começar por um SLA de alto nível genérico.
Por exemplo, em uma plataforma de grupos de compra de um e-commerce, podemos provocar o time de negócio a refletir sobre quais pontos da jornada são realmente críticos, priorizando o mais importante primeiro. Dessa forma, eles conseguem definir expectativas concretas, como ser notificados sempre que houver uma inconsistência relevante — mesmo que o problema ainda esteja sendo investigado — garantindo que saibam que o time técnico capturou a situação e está atuando sobre o problema, transformando indicadores em compromissos reais de operação.
Extraindo o SLO de uma Event Storming
Durante o mapeamento de eventos em uma sessão de Event Storming, é extremamente valioso provocar o time de negócio a escolher qual evento é mais crítico e em que situação e janela de tempo ele deveria ser medido. Esse exercício não apenas prioriza o que realmente importa para o usuário, mas também fornece uma visão clara de como transformar essas prioridades em SLOs concretos. A partir daí, já é possível desenhar dashboards e métricas alinhadas, que guiarão o time de desenvolvimento na implementação do serviço, garantindo que cada decisão técnica esteja diretamente conectada aos objetivos de negócio e aos compromissos de confiabilidade previamente acordados.
Vejamos como é simples:
Passo 1
Durante a sessão de Event Storming, alguns eventos de domínio naturalmente se destacam por sua importância. Esse é o momento ideal para afunilar prioridades e, pelo menos, identificar um SLO inicial que capture o que realmente importa para o negócio. Mesmo que ainda não se tenha todos os detalhes, esse ponto de partida permite começar a monitorar e guiar a implementação, garantindo que as decisões técnicas estejam alinhadas com os objetivos críticos do produto.

Passo 2
Durante o mapeamento dos eventos e na definição de como cada evento será medido, é importante também separar os contextos e domínios. Isso ajuda a limitar o escopo de atuação do time de negócio, incentivando-os a pensar dentro de uma “caixa” com fronteiras bem definidas, evitando confusão ou sobreposição de responsabilidades. Com essa organização, fica mais fácil derivar SLOs claros e acionáveis, alinhados a cada domínio específico, e criar métricas que realmente reflitam o impacto no negócio.

Passo 3
Uma abordagem prática para prototipar SLOs e dashboards é utilizar ferramentas como o DataDog, líder de mercado segundo o Gartner, mesmo antes de haver implementação real de uma nova feature ou negócio. Durante esse protótipo, é possível simular a ingestão de dados via API, criando métricas e eventos fictícios que reproduzam o comportamento esperado. Dessa forma, o time consegue visualizar e validar dashboards, SLOs e SLIs, testar alertas e definir prioridades com o negócio, sem depender de código pronto ou produção ativa, acelerando o alinhamento entre times de produto e operação.

Esse passo pode ser realizado após a sessão de Event Storming, mas se for possível fazê-lo durante as discussões, ele enriquece ainda mais a sessão e fortalece o trabalho de Observability Driven Design (ODD). A ideia de sair da sessão com uma North Star — aqui entendida praticamente como um SLO inicial — serve para engajar os times e criar uma conexão concreta com a mentalidade SRE, que não se limita a observar métricas, mas também a agir e intervir proativamente. Essa prática transforma discussões conceituais em compromissos tangíveis, alinhando produto, operação e confiabilidade desde o início do desenvolvimento.
Passo 4 e complementar
A partir desse ponto, é possível extrair diversos SLIs que garantam o monitoramento e acionamento corretos, cobrindo o SLO definido. Além disso, permite mapear todo o ecossistema envolvido, identificando dependências e áreas críticas que precisam ser observadas e protegidas, mesmo quando múltiplos serviços e times estão envolvidos, garantindo que o compromisso de confiabilidade seja efetivamente cumprido.
No DataDog o SLI é chamado de Monitor:

Extraindo o SLA a partir do SLO
A partir desse SLO, podemos derivar um SLA que faça sentido como compromisso formal com o negócio ou com os usuários. Uma sugestão:
SLO: Criação e visibilidade de grupos de compra coletiva com janela de 7 dias, target de 99,9%.
SLA derivado:
“O serviço garante que 99,9% dos grupos de compra criados e visíveis estarão disponíveis e acessíveis para os usuários durante a janela de 7 dias. Caso o indicador fique abaixo do target, o time compromete-se a investigar a inconsistência, notificar o negócio e tomar ações corretivas, garantindo que as falhas sejam tratadas proativamente.”
💡 Observações:
- O SLA transforma o objetivo interno do SLO em um compromisso de serviço visível para o negócio.
- Ele deve incluir ações concretas caso o SLO não seja cumprido (ex.: alertas, investigação, correção).
- Mantém alinhamento entre expectativa do usuário/negócio e operação técnica.
No contexto de ProdOps e Observability Driven Design (ODD), a definição de SLA, SLO e SLI deixa de ser apenas um conceito técnico e passa a ser um compromisso de produto concreto, alinhado ao negócio e guiando decisões de operação e desenvolvimento. Sessões de Event Storming ajudam a identificar os eventos críticos do domínio, permitindo derivar SLOs iniciais e visualizar a North Star do produto, criando conexão entre times de produto, negócio e operação. A partir desses SLOs, é possível extrair diversos SLIs para monitoramento efetivo, prototipar dashboards e simular alertas mesmo antes da implementação real, garantindo que o ecossistema envolvido esteja coberto e que o time possa agir proativamente. Essa abordagem transforma métricas em decisões acionáveis, promovendo alinhamento, engajamento e confiabilidade desde as primeiras etapas do desenvolvimento.