Menu
Contato Comercial
Por: Aldry Rocha em 09.05.2022

O que é Postmortem?

Sabemos que todos os sistemas e aplicativos estão sujeitos a falhas e incidentes pelos mais variados motivos. Quando isso ocorre, o problema é corrigido e tudo volta ao normal, mas é importante ter um processo formalizado de registro, onde se deixe documentado o aprendizado com o incidente. Uma das atividades da prática de SRE (Site Reliability Engineering) é garantir que esses incidentes não venham a acontecer de novo. Essa atividade é conhecida como Postmortem e é desenvolvida pelo profissional de engenharia de confiabilidade.

Quer saber mais sobre como funciona essa prática de documentação das falhas? Então vamos lá!

 

O que é Postmortem?

Pode ser descrito como uma espécie de “autópsia”, onde é registrado a descrição do que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raizes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir.

Como principais objetivos dessa prática, podemos citar: garantir que o incidente seja documentado, que todas as causas raízes sejam entendidas e que ações preventivas realmente eficazes sejam implementadas para reduzir a chance e/ou impacto de futuras recorrências.

Vale destacar que muitos profissionais ainda consideram o processo de escrever postmortems como uma punição. Ao contrário disso, o postmortem é uma oportunidade para aprendizado coletivo entre todos os colaboradores da empresa. O custo do processo postmortem é inerente ao esforço, por isso é deliberada a escolha de quando escrevê-lo.

É escolha das equipes internas quando considerar um postmortem, mas os gatilhos mais comuns são:

  • Tempo de inatividade visível que atinge o usuário final ou além de um tempo que já tinha sido pré-determinado;
  • Perda de dados de qualquer tipo;
  • Intervenção de engenheiros de plantão (redirecionamento de tráfego, etc.);
  • Tempo de resolução acima do limite estipulado;
  • Falha na monitoração (o que geralmente acarreta em uma descoberta manual de incidentes).

É importante definir quais são os critérios antes que os incidentes ocorram, para que seja comum a todos quando é necessário a realização do postmortem.

 

Melhores práticas para a cultura de Postmortem

Além de conhecer a técnica para estruturar o relatório de postmortem, é importante conhecer algumas boas práticas para que ele seja efetivo dentro das empresas.

 

1 – Evitar encontrar culpados

Às vezes pode ser difícil escrever as autópsias sem “culpar” alguém, pois o formato no qual ele é escrito identifica de forma clara quais ações que causaram o incidente. Ao remover a culpa, as pessoas se sentem mais confiantes para escalar os problemas sem medo. Ter um ambiente onde se aponte e julgue os culpados faz com que se crie uma cultura de varrer o problema para debaixo do tapete, o que traz riscos para a organização.

 

2 – Postmortems devem ser revisados

Deve-se garantir que os rascunhos sejam revisados e também incentivar que haja sessões regulares de revisão das autópsias. Nessas reuniões é importante que se encerre quaisquer discussões e comentários em andamento, anotar ideias e finalizar o estado do postmortem. Quando os envolvidos estiverem satisfeitos com a documentação e os itens de ação, ela deve ser adicionada a um repositório de incidentes históricos da equipe. Com o compartilhamento torna-se mais fácil encontrar e aprender com os erros do passado.

 

3 – Pedir feedback sobre a eficácia do postmortem

É importante resolver os problemas na medida em que eles surgem e também realizar pesquisas regulares com a equipe sobre o processo de postmortem, se ele está apoiando os objetivos e como esse processo pode ser melhorado.

 

Como escrever um relatório

É importante que o relatório seja escrito de forma simples e objetiva, além de responder às perguntas básicas em caso de falha de serviço. Ele é dividido em cinco partes que incluem: resumo do problema, linha do tempo, análise da causa raiz, resolução e recuperação e medidas preventivas que devem ser executadas para que o problema não ocorra futuramente. A seguir você verá como funciona a estrutura básica deste relatório.

 

1 – Resumo do problema

Deve ser breve, cerca de 5 linhas. Contendo a lista de duração junto com os horários de início e término (incluindo o fuso horário utilizado), quais foram os impactos e fechamento com qual foi a causa raiz.

 

2 – Cronograma

Deve ser listado o fuso horário, qual foi o tempo de duração da interrupção e quando ela começou. Qual o momento em que a equipe foi notificada, quais ações e eventos ocorreram e quando o serviço foi restaurado novamente.

 

3 – Causa raiz

Explicar de maneira detalhada e realista a descrição da causa raiz evento.

 

4 – Resolução e recuperação

Relatar de forma detalhada as ações tomadas e seus respectivos horários.

 

5 – Medidas corretivas e preventivas

Listar com detalhes como evitar que aconteça novamente e o que pode ser aprimorado no processo da próxima vez.

👉 Você pode acompanhar exemplos de relatório do próprio google clicando aqui e aqui.

 

 
O postmortem é uma atividade muito importante dentro do contexto das atividades de SRE e tem o intuito buscar aumentar a confiabilidade dos sistemas para que os incidentes ou não ocorram novamente ou sejam rapidamente restaurados para evitar impacto no usuário final.

Caso queira saber mais sobre como aplicar na sua empresa os conceitos mais modernos de SRE (Site Reliability Engineering), como postmortem, SLOs, SLIs e Error Budget, entre em contato com nossos especialistas para garantir a estabilidade das suas aplicações.

Compartilhe:

ESCRITO POR

Aldry Rocha

Marketing de conteúdo e desenvolvedora web na OpServices há 4 anos. Apaixonada por tecnologia e o mundo do desenvolvimento pessoal, sempre lendo ou escrevendo sobre eles.

Posts Relacionados

ASSINE NOSSA NEWSLETTER E RECEBA
NOSSOS MELHORES CONTEÚDOS!

ASSINE NOSSA NEWSLETTER!

Entre para nossa lista e receba conteúdos exclusivos