SRE

Post Mortem: Guia, Template e Métricas SRE

Q: O que é um post mortem em TI?

Post mortem em TI é a análise estruturada conduzida depois de um incidente significativo, com o objetivo de entender o que aconteceu, por que aconteceu e o que mudar para evitar recorrência. O processo combina linha do tempo cronológica, investigação de causa raiz, quantificação de impacto e definição de action items com dono e prazo. Em equipes maduras de SRE, o post mortem é o mecanismo que transforma cada falha em aprendizado sistêmico documentado e reaproveitado pela operação.

Q: Como fazer um post mortem de incidente?

Para fazer um post mortem de incidente, siga quatro etapas. Primeiro, reconstrua a linha do tempo com timestamps de detecção, escalonamento e mitigação. Em seguida, investigue a causa raiz e as causas contribuintes usando técnicas como 5 Porquês e Ishikawa. Depois, quantifique o impacto em usuários, requisições, error budget consumido e receita. Por fim, defina action items com dono, prazo e critério de conclusão verificável, e registre o documento em um repositório interno acessível a todo o time.

Q: O que é blameless post mortem?

Blameless post mortem é a análise sem culpa, popularizada pelo Google SRE Book. O foco está em fatores sistêmicos que permitiram o incidente, não em identificar quem cometeu o erro. Quando um operador roda um comando que derruba a produção, a pergunta correta é por que era possível rodar esse comando sem revisão automatizada. Times que adotam essa cultura aumentam o reporte honesto de erros e geram ações estruturais que reduzem recorrência. Times com cultura punitiva observam o oposto: pessoas escondem problemas e o aprendizado some.

Q: Qual a diferença entre post mortem e RCA?

RCA significa root cause analysis e foca em encontrar a causa raiz técnica, frequentemente em um único componente. Post mortem é um conceito mais amplo que inclui o RCA, mas adiciona timeline cronológica, quantificação de impacto, lições do que funcionou bem, action items rastreáveis e cultura blameless. Em ambientes distribuídos modernos, o post mortem reconhece que falhas resultam de múltiplas causas contribuintes interagindo, enquanto o RCA puro tende a apontar uma causa única. Por isso, o post mortem é o formato preferido em equipes de SRE.

Q: Quando devo conduzir um post mortem?

Conduza um post mortem completo sempre que houver violação de SLO com consumo significativo de error budget, impacto em usuários acima do seu threshold definido, escalonamento fora do plantão, risco de perda de dados ou degradação de segurança. Near-misses considerados graves pela equipe também justificam um post mortem leve. Não exija o relatório completo para todo incidente: criar fadiga devalua o processo. Defina níveis de severidade SEV1 a SEV4 e conecte cada nível ao tipo de análise exigida para manter o equilíbrio entre cobertura e custo operacional.

janeiro 26, 2026 Pedro Tebaldi

Toda equipe de operações em algum momento percebe a mesma armadilha: incidentes se repetem, lições viram apresentações esquecidas e o time fica preso em um ciclo reativo. O post mortem nasceu para quebrar esse ciclo. Vale destacar que ele não é só um relatório formal — é o mecanismo cultural que transforma cada incidente em aprendizado sistêmico mensurável.

Este guia foi reescrito em 2026 com a visão moderna de SRE praticada em equipes brasileiras. Você vai encontrar gatilhos ligados a SLO, um roteiro passo a passo da reunião, um template editável e a conexão direta com as métricas DORA. No final, um checklist e uma seção de perguntas frequentes encerram o material.

Em resumo, se a sua operação ainda trata incidente como caso isolado, o post mortem corretamente conduzido reduz MTTR, baixa a taxa de recorrência e devolve previsibilidade para times de plantão. Vamos passar pelos sete eixos que diferenciam um post mortem efetivo de um relatório burocrático.

O que é Post Mortem?

Post mortem é a análise estruturada conduzida depois de um incidente significativo, com o objetivo de entender o que aconteceu, por que aconteceu e o que mudar para evitar recorrência. Ou seja, é um exercício de causa raiz somado a um plano de ação rastreável. O nome vem do latim e significa “depois da morte” — uma metáfora médica que se popularizou em engenharia.

A prática ganhou tração quando o Google publicou o capítulo de cultura de post mortem na publicação clássica do Google SRE, codificando o princípio do análise sem culpa. A partir daí, o post mortem deixou de ser ferramenta exclusiva de aviação e indústria para se tornar uma engrenagem central do guia completo de Site Reliability Engineering.

Por isso, hoje, o post mortem ocupa três funções simultâneas em uma operação madura: documentar a memória institucional, transformar dor em melhoria e proteger a confiabilidade contratada com o cliente. Em síntese, sem ele, o conhecimento fica preso em quem viveu o incidente.

Quando conduzir um post mortem: gatilhos baseados em SLO e impacto

Nem todo incidente exige post mortem completo. Exigir um relatório a cada falha cria fadiga e devaluação do processo. Por outro lado, deixar passar incidentes relevantes apaga o sinal de aprendizado. A solução é definir gatilhos objetivos, idealmente acoplados aos seus indicadores de confiabilidade.

Os gatilhos mais usados combinam consumo de error budget, duração da falha, escopo de usuários afetados e severidade percebida. Vale dizer que cada empresa calibra esses limites de acordo com criticidade. A tabela abaixo mostra um modelo de severidade que conecta cada nível ao tipo de análise exigida.

Severidade	Error budget consumido	Análise exigida
SEV1Indisponibilidade total	≥ 50%	Post mortem completo
SEV2Degradação severa	20% a 50%	Post mortem completo
SEV3Impacto parcial	5% a 20%	Post mortem leve
SEV4Near-miss / desvio	< 5%	Registro com lições

Além desses critérios quantitativos, considere gatilhos qualitativos. Por exemplo: incidentes que exigiram escalonamento fora do plantão, falhas com risco de perda de dados, eventos que violaram compromissos de SLA com cliente externo e quase-incidentes considerados graves pela equipe. Em última análise, o gatilho confirma que o aprendizado vale o esforço da reunião.

Cultura blameless: o pré-requisito que faz o post mortem funcionar

A característica mais importante de um post mortem eficaz é a cultura sem culpa. O foco está em fatores sistêmicos, não em responsabilizar pessoas. Por exemplo, se um engenheiro rodou um comando errado em produção, a pergunta não é “por que ele errou”, mas sim “por que era possível rodar esse comando sem revisão automatizada”. Dessa forma, o sistema é o réu, não o operador.

Times que conduzem post mortems punitivos observam um padrão previsível: as pessoas param de reportar problemas e param de documentar erros honestos. Como resultado, o aprendizado que o processo deveria gerar simplesmente desaparece. O blameless protege a operação contra esse efeito.

Vale ressaltar a diferença entre post mortem e RCA. O RCA tradicional foca em encontrar a causa raiz mecanicamente, frequentemente em um único componente. O post mortem moderno, principalmente em ambientes distribuídos, reconhece que como sistemas complexos falham envolve múltiplas causas contribuintes interagindo. Por conseguinte, o relatório precisa narrar a cadeia de eventos e os fatores de contexto, não só apontar um culpado técnico.

Como conduzir um post mortem passo a passo

Um post mortem bem conduzido segue um roteiro repetível. A reunião costuma ter timebox entre 90 minutos e 3 horas, com facilitador, scribe e participantes que viveram o incidente. Em seguida, o documento é fechado, revisado e publicado no repositório interno de aprendizados. As quatro etapas críticas estão detalhadas a seguir.

Construir a linha do tempo do incidente

A primeira etapa é reconstruir cronologicamente o que aconteceu, com timestamps precisos. A linha do tempo deve cobrir quando o problema começou, quando foi detectado, quando foi escalado e quais ações de mitigação produziram efeito. Dados brutos vêm de logs, métricas e traces — em outras palavras, dos pilares de observabilidade que sustentam o diagnóstico.

Antes de tudo, exporte os artefatos de telemetria do período do incidente para uma planilha auxiliar. Em seguida, o facilitador escreve a timeline em ordem, marcando cada evento como detecção, decisão ou ação. Esse rigor temporal expõe gargalos de detecção que viram input direto para melhorias de monitoramento.

Investigar a causa raiz com os 5 Porquês

Depois da timeline pronta, a equipe escava a cadeia causal. A técnica dos 5 Porquês é um ponto de partida útil: a cada resposta sobre o que causou o problema, pergunte “por quê” novamente. A cada iteração, a investigação se aprofunda das camadas técnicas para as camadas processuais e organizacionais. Posteriormente, a equipe consolida causas contribuintes em um diagrama de Ishikawa.

Cabe ressaltar que a técnica é subjetiva. Não tem nada de errado em usá-la para levantar as primeiras hipóteses, mas valide cada conclusão com evidências de telemetria. Times maduros combinam 5 Porquês com análise de pull requests, mudanças de configuração e correlações entre alertas. Assim, a hipótese vira diagnóstico.

Avaliar e quantificar o impacto

Impacto sem número é fraco. Por isso, o post mortem precisa quantificar quantos usuários foram afetados, qual percentual de requisições falhou, quanto da janela de erro foi consumida e quanto de receita ou contrato ficou em risco. Outro ponto importante: registre como o time soube, ou seja, qual foi o sinal que disparou a detecção e como ele se compara aos quatro sinais de ouro de SRE.

A consequência prática é direta: quando o impacto está quantificado, a priorização das ações vira óbvia. Por exemplo, uma ação que evita 90% do risco residual sobe imediatamente no backlog. Sem o número, todas as ações parecem urgentes — e nenhuma fica pronta.

Definir action items com dono e prazo

A última etapa fecha o ciclo. Cada lição vira um action item com três campos obrigatórios: dono, prazo e critério de conclusão verificável. Action items vagos como “melhorar monitoramento” não saem do papel. Comparativamente, “adicionar alerta para latência P99 superior a 500 ms na rota /checkout, dono Maria, prazo 2 sprints” gera resultado mensurável.

Por fim, registre o link do issue ou ticket onde a ação será rastreada. Em seguida, revise o backlog de ações de post mortems anteriores no mesmo encontro — itens não concluídos contam como dívida operacional e precisam ser repriorizados ou abandonados explicitamente.

Template de post mortem: estrutura, campos e checklist

Um template editável reduz fricção e padroniza a leitura. Você pode partir de um modelo próprio ou adaptar uma das opções da coleção pública de modelos do dastergon no GitHub, que reúne formatos consagrados do SRE Book, Azure e Elastic. As seções essenciais estão descritas abaixo.

Seção	Conteúdo / Como preencher	Por que importa
Cabeçalho	ID, data, severidade, autores, status do documento	Garante rastreabilidade e busca futura
Resumo executivo	3 a 5 linhas com impacto, causa e ações principais	Permite leitura rápida por liderança
Linha do tempo	Eventos com `timestamps` em UTC e fuso local	Expõe lacunas de detecção e resposta
Causa raiz e contribuintes	Análise técnica, processual e organizacional	Evita diagnóstico raso ou unicausal
Impacto quantificado	Usuários, requisições, receita, `SLO` consumido	Justifica priorização das ações
O que funcionou bem	Boas decisões e respostas eficazes	Reforça práticas a manter
Action items	Tabela com ação, dono, prazo, ticket vinculado	Transforma aprendizado em melhoria real

Inclua um checklist final no template para validar a qualidade do documento antes da publicação. Itens recomendados: cada action item tem dono e prazo, a timeline cobre detecção e mitigação, o impacto está quantificado, a linguagem é blameless e há link para os artefatos de telemetria do incidente.

Métricas que mostram se o seu post mortem funciona

Post mortem sem métrica vira ritual. Para saber se o seu programa está dando resultado, conecte os documentos a indicadores objetivos. Dois conjuntos se destacam: as métricas operacionais clássicas e o framework DORA.

No lado operacional, acompanhe MTTD (tempo até detecção), MTTR (tempo até recuperação) e taxa de recorrência por categoria de causa. Adicionalmente, monitore o consumo do error budget mês a mês e a aderência ao SLO definido para cada serviço crítico. Quando o SLO degrada de forma consistente, o post mortem é o instrumento que diagnostica a tendência.

Já a pesquisa do programa DORA oferece quatro métricas que revelam a saúde do seu ciclo de entrega: lead time, deployment frequency, change failure rate e MTTR. Em particular, change failure rate caindo é evidência direta de que action items de post mortem geraram impacto. Por isso, vincule cada PR de remediação ao número do post mortem que o originou — assim, fica fácil somar a economia de incidentes evitados.

Erros comuns que esvaziam um post mortem

Alguns padrões repetitivos transformam um bom processo em teatro corporativo. Identifique e corrija cada um deles antes que viram cultura.

O primeiro erro é o post mortem virar relatório burocrático que ninguém lê. A causa quase sempre é falta de patrocínio: se a liderança não cobra leitura e priorização, o documento morre na primeira página. Em contrapartida, equipes que abrem a sprint review com a leitura do post mortem mais recente mantêm o processo vivo.

Outro erro frequente são as ações genéricas tipo “documentar melhor” ou “treinar a equipe”. Ações sem critério de conclusão verificável não saem do backlog. Substitua por entregáveis específicos com prazo curto. Da mesma forma, evite o post mortem que culpa fornecedor terceirizado sem investigar quais salvaguardas internas faltaram — esse é o sintoma clássico do antipadrão “vendor finger-pointing”.

Por fim, cuidado com a falta de follow-up. Marque o status de cada action item em revisões mensais. Quando a operação atinge maturidade, o backlog de ações pendentes encolhe, a recorrência de incidentes cai e a equipe começa a confiar de verdade no processo.

SRE & Confiabilidade

Transformamos operações reativas em engenharia de confiabilidade (SRE).

Implementamos SLIs, SLOs e Error Budgets para reduzir o MTTR e eliminar a fadiga de alertas das suas equipes de operação.

Fale com um Especialista →

Conclusão

O post mortem moderno é mais do que um relatório: é o ciclo que conecta detecção, resposta, aprendizado e melhoria contínua. Quando a sua operação adota gatilhos objetivos, cultura blameless, técnica de causa raiz e action items rastreáveis, cada incidente passa a render dois resultados — a mitigação imediata e a redução estrutural de risco no longo prazo.

Em síntese, comece pequeno. Escolha um incidente recente, aplique o template apresentado neste guia, defina três action items com dono e prazo e marque a primeira revisão para a próxima sprint. Em seguida, repita o ciclo até que o processo fique natural na rotina do time.

Se a sua equipe quer estruturar um programa completo de confiabilidade — com SLOs definidos, observabilidade integrada e consultoria de SRE dedicada — a OpServices apoia desde a definição dos indicadores até o ferramental de produção. Fale com um especialista e descubra como transformar incidentes em vantagem operacional duradoura.

Perguntas Frequentes

O que é um post mortem em TI?

Post mortem em TI é a análise estruturada conduzida depois de um incidente significativo, com o objetivo de entender o que aconteceu, por que aconteceu e o que mudar para evitar recorrência. O processo combina linha do tempo cronológica, investigação de causa raiz, quantificação de impacto e definição de action items com dono e prazo. Em equipes maduras de SRE, o post mortem é o mecanismo que transforma cada falha em aprendizado sistêmico documentado e reaproveitado pela operação.

Como fazer um post mortem de incidente?

Para fazer um post mortem de incidente, siga quatro etapas. Primeiro, reconstrua a linha do tempo com timestamps de detecção, escalonamento e mitigação. Em seguida, investigue a causa raiz e as causas contribuintes usando técnicas como 5 Porquês e Ishikawa. Depois, quantifique o impacto em usuários, requisições, error budget consumido e receita. Por fim, defina action items com dono, prazo e critério de conclusão verificável, e registre o documento em um repositório interno acessível a todo o time.

O que é blameless post mortem?

Blameless post mortem é a análise sem culpa, popularizada pelo Google SRE Book. O foco está em fatores sistêmicos que permitiram o incidente, não em identificar quem cometeu o erro. Quando um operador roda um comando que derruba a produção, a pergunta correta é por que era possível rodar esse comando sem revisão automatizada. Times que adotam essa cultura aumentam o reporte honesto de erros e geram ações estruturais que reduzem recorrência. Times com cultura punitiva observam o oposto: pessoas escondem problemas e o aprendizado some.

Qual a diferença entre post mortem e RCA?

RCA significa root cause analysis e foca em encontrar a causa raiz técnica, frequentemente em um único componente. Post mortem é um conceito mais amplo que inclui o RCA, mas adiciona timeline cronológica, quantificação de impacto, lições do que funcionou bem, action items rastreáveis e cultura blameless. Em ambientes distribuídos modernos, o post mortem reconhece que falhas resultam de múltiplas causas contribuintes interagindo, enquanto o RCA puro tende a apontar uma causa única. Por isso, o post mortem é o formato preferido em equipes de SRE.

Quando devo conduzir um post mortem?

Conduza um post mortem completo sempre que houver violação de SLO com consumo significativo de error budget, impacto em usuários acima do seu threshold definido, escalonamento fora do plantão, risco de perda de dados ou degradação de segurança. Near-misses considerados graves pela equipe também justificam um post mortem leve. Não exija o relatório completo para todo incidente: criar fadiga devalua o processo. Defina níveis de severidade SEV1 a SEV4 e conecte cada nível ao tipo de análise exigida para manter o equilíbrio entre cobertura e custo operacional.

Pedro Tebaldi

Trabalho há mais de 15 anos no mercado B2B de tecnologia e hoje atuo como Gerente de Marketing da OpServices e Líder em Projetos de Governança para Inteligência Artificial.

Post Mortem: Guia, Template e Métricas SRE

O que é Post Mortem?

Quando conduzir um post mortem: gatilhos baseados em SLO e impacto

Cultura blameless: o pré-requisito que faz o post mortem funcionar

Como conduzir um post mortem passo a passo

Construir a linha do tempo do incidente

Investigar a causa raiz com os 5 Porquês

Avaliar e quantificar o impacto

Definir action items com dono e prazo

Template de post mortem: estrutura, campos e checklist

Métricas que mostram se o seu post mortem funciona

Erros comuns que esvaziam um post mortem

Transformamos operações reativas em engenharia de confiabilidade (SRE).

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais

Vamos conversar?

Post Mortem: Guia, Template e Métricas SRE

O que é Post Mortem?

Quando conduzir um post mortem: gatilhos baseados em SLO e impacto

Cultura blameless: o pré-requisito que faz o post mortem funcionar

Como conduzir um post mortem passo a passo

Construir a linha do tempo do incidente

Investigar a causa raiz com os 5 Porquês

Avaliar e quantificar o impacto

Definir action items com dono e prazo

Template de post mortem: estrutura, campos e checklist

Métricas que mostram se o seu post mortem funciona

Erros comuns que esvaziam um post mortem

Transformamos operações reativas em engenharia de confiabilidade (SRE).

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais