SRE

Postmortem de TI: guia completo + template gratuito

Todo sistema de produção vai falhar em algum momento. A questão não é se vai acontecer, mas o que a organização faz depois que acontece. Times que tratam incidentes como eventos isolados a serem resolvidos e esquecidos tendem a ver os mesmos tipos de falha se repetirem. Times que constroem aprendizado sistemático a partir de incidentes evoluem continuamente.

O postmortem é o mecanismo que torna esse aprendizado sistemático possível. É um processo estruturado de análise conduzido após um incidente significativo, com o objetivo de entender o que aconteceu, por que aconteceu e o que o time pode fazer para evitar que aconteça de novo — ou para detectar e responder mais rápido quando acontecer.

Este guia explica o que é postmortem, como conduzir um de forma eficaz, o que inclui um template completo, e qual é a relação com as práticas de SRE e as métricas DORA.

 

O que é postmortem?

Postmortem (também chamado de post-mortem ou, em contextos mais recentes, de “incident review” ou “learning review”) é uma análise estruturada realizada após um incidente de TI com o objetivo de identificar causas raiz, documentar o impacto e definir ações de melhoria para evitar recorrência.

O termo vem da medicina — literalmente “após a morte” — e foi adaptado pela engenharia de software para descrever o processo de examinar o “corpo” de um incidente: o que falhou, como se propagou e o que o time fez para resolver.

A característica mais importante de um postmortem eficaz não é técnica: é cultural. O Google, que popularizou a prática através do livro SRE Book, estabeleceu o princípio do postmortem sem culpa (blameless postmortem). O objetivo é entender os fatores sistêmicos que permitiram que o incidente ocorresse, não identificar quem cometeu o erro. Times que conduzem postmortems punitivos observam que as pessoas param de reportar problemas e de documentar erros honestos — destruindo exatamente o aprendizado que o processo deveria gerar.

 

Quando conduzir um postmortem?

Nem todo incidente justifica um postmortem completo. O critério de ativação deve ser definido com antecedência pelo time para evitar tanto a sobrecarga de documentar eventos triviais quanto o risco de deixar incidentes significativos sem análise.

Os gatilhos mais comuns para ativar um postmortem são: violação de SLO (o incidente consumiu uma parcela significativa do error budget), impacto em usuários acima de um threshold definido (por exemplo, mais de 5% dos usuários afetados por mais de 5 minutos), necessidade de escalonamento fora do time de plantão, qualquer incidente que envolva perda de dados ou degradação de segurança, e incidentes que o time considerou “quase críticos” mesmo sem impacto real — os chamados near-misses.

 

Como conduzir um postmortem eficaz

Um postmortem bem conduzido segue uma sequência de etapas que transforma a narrativa do incidente em aprendizado acionável.

 

1. Construir a linha do tempo do incidente

A primeira etapa é reconstruir cronologicamente o que aconteceu, com timestamps precisos. A linha do tempo deve cobrir: quando o problema começou (mesmo que antes de ser detectado), quando foi detectado, quando foi escalado, quais ações de mitigação foram tomadas e quando cada uma surtiu efeito, e quando o serviço foi restaurado.

A linha do tempo deve ser construída coletivamente pelo time, usando logs, dados de métricas e traces. Memória individual é pouco confiável em situações de pressão — os dados de telemetria são a fonte de verdade.

 

2. Identificar a causa raiz — e as causas contribuintes

A análise de causa raiz em um postmortem vai além de identificar “o que quebrou”. Sistemas distribuídos raramente falham por uma única razão — há uma cadeia de fatores que tornaram possível o impacto.

A técnica dos “5 Porquês” é um ponto de partida útil: a cada resposta sobre o que causou o problema, pergunte “por quê” novamente. O objetivo é chegar nas falhas sistêmicas — processos ausentes, cobertura de testes insuficiente, falta de observabilidade — em vez de parar em “o engenheiro X fez Y”.

 

3. Avaliar o impacto com precisão

O impacto deve ser documentado de forma objetiva: quantos usuários foram afetados, por quanto tempo, qual foi o impacto em métricas de negócio (transações perdidas, receita afetada, tickets de suporte gerados) e quanto do error budget foi consumido pelo incidente.

Dados precisos de impacto são necessários para priorizar as ações de melhoria e para comunicar o ocorrido ao negócio de forma objetiva.

 

4. Definir ações de melhoria com dono e prazo

A parte mais importante — e mais frequentemente negligenciada — do postmortem são as action items. Cada ação de melhoria identificada deve ter: descrição clara do que precisa ser feito, dono (uma pessoa específica, não um time), prazo realista e critério de conclusão verificável.

Ações sem dono e sem prazo não se tornam realidade. Times maduros rastreiam os action items dos postmortems no backlog de engenharia com a mesma prioridade que features de produto.

 

Template de postmortem

Um postmortem completo deve conter as seguintes seções:

Título e metadata: nome do incidente, data, duração, severidade, times envolvidos e autor do documento.

Resumo executivo: 3 a 5 linhas descrevendo o que aconteceu, o impacto e a causa raiz principal. Deve ser compreensível por alguém sem contexto técnico.

Linha do tempo: tabela cronológica com timestamps, eventos e ações tomadas.

Causa raiz e causas contribuintes: análise dos fatores que tornaram possível o incidente, usando os 5 Porquês ou diagrama de Ishikawa.

Impacto: usuários afetados, duração, impacto em SLO/error budget e impacto em negócio.

O que funcionou bem: seção explícita para registrar o que o time fez corretamente — detecção rápida, comunicação eficaz, rollback bem executado. Reforça comportamentos positivos.

O que pode melhorar: gaps identificados no processo, na observabilidade, na cobertura de alertas ou nos runbooks.

Action items: tabela com ação, dono, prazo e status.

 

Postmortem e as métricas DORA

O postmortem conecta diretamente com duas das métricas DORA mais impactantes.

O Failed Deployment Recovery Time (MTTR) mede quanto tempo o time leva para restaurar o serviço após uma falha. Postmortems bem conduzidos identificam os gargalos na resposta a incidentes — ausência de runbooks, alertas que chegam tarde, falta de acesso a ferramentas de diagnóstico — e geram action items que reduzem o MTTR nos incidentes seguintes.

A Change Failure Rate mede a proporção de deploys que causam degradação. Postmortems de incidentes causados por deploys identificam padrões recorrentes no pipeline de entrega — testes insuficientes, ausência de feature flags, falta de rollback automatizado — que, quando corrigidos, reduzem diretamente a Change Failure Rate.

Times que conduzem postmortems consistentemente e implementam seus action items observam melhora mensurável nas métricas DORA ao longo de 2 a 4 trimestres.

 
Observabilidade

 

Conclusão

O postmortem é uma das práticas mais valiosas de engenharia de confiabilidade — e uma das mais subestimadas. Quando conduzido de forma consistente e sem culpa, ele transforma cada incidente em aprendizado que fortalece o sistema e o time.

Os elementos críticos para um postmortem eficaz são: linha do tempo baseada em dados de telemetria, análise de causa raiz que vai além do erro imediato, impacto quantificado e — mais importante — action items com dono e prazo rastreados no backlog. A referência canônica do tema é o capítulo sobre cultura de postmortem do Google SRE Book, disponível gratuitamente online.

Para estruturar sua prática de postmortem e resposta a incidentes, fale com nossos especialistas.

 

Perguntas Frequentes

O que é postmortem em TI?
Postmortem é um processo estruturado de análise conduzido após um incidente significativo de TI. Seu objetivo é entender o que aconteceu, identificar as causas raiz e definir ações de melhoria para evitar recorrência. A característica mais importante de um postmortem eficaz é a cultura sem culpa (blameless): o foco é em fatores sistêmicos, não em responsabilizar indivíduos.
Quando devo fazer um postmortem?
Os gatilhos mais comuns são: violação de SLO ou consumo significativo de error budget, impacto em usuários acima de um threshold definido, necessidade de escalonamento fora do time de plantão, incidentes com risco de perda de dados ou segurança, e near-misses relevantes. O critério de ativação deve ser definido pelo time com antecedência para garantir consistência.
O que deve ter em um postmortem?
Um postmortem completo inclui: resumo executivo (impacto e causa raiz em 3 a 5 linhas), linha do tempo cronológica com timestamps, análise de causa raiz e causas contribuintes, impacto quantificado (usuários, duração, SLO), o que funcionou bem, o que pode melhorar e — mais importante — action items com dono, prazo e critério de conclusão verificável.
Qual a diferença entre postmortem e RCA (Root Cause Analysis)?
RCA (Root Cause Analysis) é uma técnica de análise focada em identificar a causa raiz de um problema. O postmortem é um processo mais amplo que inclui a RCA como componente, mas também abrange a linha do tempo do incidente, o impacto quantificado, o que funcionou bem e — fundamentalmente — as ações de melhoria com responsáveis e prazos. O postmortem é o processo; a RCA é uma das ferramentas usadas dentro dele.
O que é blameless postmortem?
Blameless postmortem é a abordagem em que o foco da análise é nos fatores sistêmicos que permitiram o incidente, não em identificar e responsabilizar indivíduos. Popularizado pelo Google SRE, o princípio reconhece que engenheiros tomam decisões com as informações disponíveis no momento. Times que adotam postmortems punitivos observam que as pessoas param de reportar problemas e de documentar erros honestos, destruindo o aprendizado organizacional.

Trabalho há mais de 15 anos no mercado B2B de tecnologia e hoje atuo como Gerente de Marketing da OpServices e Líder em Projetos de Governança para Inteligência Artificial.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *