Monitorar tudo é monitorar nada. A proliferação de métricas em sistemas distribuídos criou um paradoxo: quanto mais dados, mais difícil identificar o que realmente importa quando algo falha. O Google resolveu esse problema com uma estrutura elegante e universalmente adotada. Os 4 sinais de ouro do SRE — Latência, Tráfego, Erros e Saturação — são […]
O que é Postmortem?
Sabemos que todos os sistemas e aplicativos estão sujeitos a falhas e incidentes pelos mais variados motivos. Quando isso ocorre, o problema é corrigido e tudo volta ao normal, mas é importante ter um processo formalizado de registro, onde se deixe documentado o aprendizado com o incidente. Uma das atividades da prática de SRE (Site […]
O que é Critical User Journey?
Ao acessar um aplicativo mobile, um sistema web ou site de compras online, como usuários queremos ter a melhor experiência possível, rápido acesso e fácil navegação. Mapear quais as ações são mais críticas para o usuário e, por consequência, devem ter um bom funcionamento com métricas próprias para acompanhamento, são atividades essenciais para a confiabilidade […]
O que é Error budget?
Desenvolver aplicações ou manter a alta disponibilidade dos sistemas é sempre um desafio. Contar com um desenvolvimento ágil e ter um fluxo constante de liberação de releases com novas funcionalidades sempre pode conter erros. Por mais que se utilize uma série de procedimentos de testes, os novos códigos podem acabar trazendo novos bugs que precisam […]
O que são SLIs?
Sabemos que cada vez mais os softwares têm se tornado complexos e demandam mais qualidade e disponibilidade para seus usuários. Para entregar uma aplicação ou site com qualidade é necessário saber quais são os fatores que o levam a ser considerado um bom software, quais os comportamentos esperados e como eles devem ser medidos. Para […]
Como implementar SLOs
O nível de complexidade dos sites, apps e infraestruturas em nuvem têm aumentado exponencialmente a cada ano. Manter toda essa estrutura com alta disponibilidade e alta performance é uma tarefa cada vez mais complexa, porém essencial. Nesse contexto, o SRE (Site Reliability Engineer) é o profissional responsável por garantir a confiabilidade do ambiente. Para que […]
Site Reliability Engineering: conheça o conceito de SRE
Devido ao aumento da complexidade dos sites, aplicativos e infraestruturas em nuvem, ter cuidado com a arquitetura e o desenvolvimento é apenas uma pequena parte de todo o universo por trás de um sistema. Após o lançamento de um app, é necessário atualizar, implementar novas funcionalidades e corrigir possíveis bugs. E é aí que deve […]






