Apagar incêndios é uma habilidade necessária em TI, mas evitar que o incêndio comece é a verdadeira engenharia. Em muitas organizações, as equipes de operações celebram a redução do MTTR (Tempo Médio de Recuperação), mas ignoram a frequência com que os mesmos incidentes se repetem. A Análise de Causa Raiz de Incidentes (RCA – Root […]
O que é MTTD (Mean Time to Detect)?
Na cronologia de um desastre de TI, a ignorância é o período mais caro. O MTTD (Mean Time to Detect), ou Tempo Médio de Detecção, é a métrica que quantifica essa ignorância. Ele mede o intervalo de tempo entre o momento em que um problema técnico começa a ocorrer e o momento em que o […]
Failover: O Guia para Alta Disponibilidade e Recuperação de Desastres
Em arquiteturas de missão crítica, a esperança não é uma estratégia válida. O Failover é o mecanismo de engenharia definitivo que separa uma interrupção catastrófica de um mero “soluço” operacional imperceptível para o usuário final. Quando um servidor primário, um link de rede ou um banco de dados colapsa, a capacidade de transferir a carga […]
Tolerância a Falhas: Guia para Arquiteturas Resilientes
A premissa fundamental da engenharia de sistemas distribuídos moderna é pessimista, mas realista: tudo vai falhar. Discos rígidos corrompem dados, redes sofrem latência, deploys introduzem bugs e provedores de nuvem têm interrupções. A Tolerância a Falhas não é sobre construir sistemas indestrutíveis, mas sobre projetar arquiteturas que continuem operando — mesmo que de forma degradada […]
Guia Definitivo da Monitoração Sintética
No cenário atual de aplicações distribuídas e microsserviços, há uma regra de ouro para a engenharia de confiabilidade: o seu cliente nunca deve ser o seu sistema de monitoramento. Se você descobre que o checkout do seu e-commerce parou de funcionar através de um ticket de suporte aberto por um usuário frustrado ou, pior, por […]
Entendendo os conceitos de RED e USE
No mundo da Engenharia de Confiabilidade do Site (SRE) e da administração de sistemas, a quantidade de dados disponíveis pode ser esmagadora. Com a explosão de microsserviços e a complexidade da nuvem, um engenheiro pode facilmente se afogar em milhares de métricas sem saber exatamente para onde olhar quando um incidente ocorre. É comum encontrar […]
Os 4 sinais de ouro do SRE
Sabemos que na era digital o foco é sempre proporcionar uma boa experiência para os usuários de aplicações e sistemas. Ir cada vez mais a fundo nos status das aplicações, servidores e todas as variáveis envolvidas no seu funcionamento é o que garantirá que os indicadores vitais para uma boa experiência, estejam de acordo com […]
O que é Postmortem?
Sabemos que todos os sistemas e aplicativos estão sujeitos a falhas e incidentes pelos mais variados motivos. Quando isso ocorre, o problema é corrigido e tudo volta ao normal, mas é importante ter um processo formalizado de registro, onde se deixe documentado o aprendizado com o incidente. Uma das atividades da prática de SRE (Site […]
O que é Critical User Journey?
Ao acessar um aplicativo mobile, um sistema web ou site de compras online, como usuários queremos ter a melhor experiência possível, rápido acesso e fácil navegação. Mapear quais as ações são mais críticas para o usuário e, por consequência, devem ter um bom funcionamento com métricas próprias para acompanhamento, são atividades essenciais para a confiabilidade […]
O que é Error budget?
Desenvolver aplicações ou manter a alta disponibilidade dos sistemas é sempre um desafio. Contar com um desenvolvimento ágil e ter um fluxo constante de liberação de releases com novas funcionalidades sempre pode conter erros. Por mais que se utilize uma série de procedimentos de testes, os novos códigos podem acabar trazendo novos bugs que precisam […]









