No cenário atual de aplicações distribuídas e microsserviços, há uma regra de ouro para a engenharia de confiabilidade: o seu cliente nunca deve ser o seu sistema de monitoramento. Se você descobre que o checkout do seu e-commerce parou de funcionar através de um ticket de suporte aberto por um usuário frustrado ou, pior, por […]
Entendendo os conceitos de RED e USE
No mundo da Engenharia de Confiabilidade do Site (SRE) e da administração de sistemas, a quantidade de dados disponíveis pode ser esmagadora. Com a explosão de microsserviços e a complexidade da nuvem, um engenheiro pode facilmente se afogar em milhares de métricas sem saber exatamente para onde olhar quando um incidente ocorre. É comum encontrar […]
Os 4 sinais de ouro do SRE
Sabemos que na era digital o foco é sempre proporcionar uma boa experiência para os usuários de aplicações e sistemas. Ir cada vez mais a fundo nos status das aplicações, servidores e todas as variáveis envolvidas no seu funcionamento é o que garantirá que os indicadores vitais para uma boa experiência, estejam de acordo com […]
O que é Postmortem?
Sabemos que todos os sistemas e aplicativos estão sujeitos a falhas e incidentes pelos mais variados motivos. Quando isso ocorre, o problema é corrigido e tudo volta ao normal, mas é importante ter um processo formalizado de registro, onde se deixe documentado o aprendizado com o incidente. Uma das atividades da prática de SRE (Site […]
O que é Critical User Journey?
Ao acessar um aplicativo mobile, um sistema web ou site de compras online, como usuários queremos ter a melhor experiência possível, rápido acesso e fácil navegação. Mapear quais as ações são mais críticas para o usuário e, por consequência, devem ter um bom funcionamento com métricas próprias para acompanhamento, são atividades essenciais para a confiabilidade […]
O que é Error budget?
Desenvolver aplicações ou manter a alta disponibilidade dos sistemas é sempre um desafio. Contar com um desenvolvimento ágil e ter um fluxo constante de liberação de releases com novas funcionalidades sempre pode conter erros. Por mais que se utilize uma série de procedimentos de testes, os novos códigos podem acabar trazendo novos bugs que precisam […]
O que são SLIs?
Sabemos que cada vez mais os softwares têm se tornado complexos e demandam mais qualidade e disponibilidade para seus usuários. Para entregar uma aplicação ou site com qualidade é necessário saber quais são os fatores que o levam a ser considerado um bom software, quais os comportamentos esperados e como eles devem ser medidos. Para […]
Como implementar SLOs
O nível de complexidade dos sites, apps e infraestruturas em nuvem têm aumentado exponencialmente a cada ano. Manter toda essa estrutura com alta disponibilidade e alta performance é uma tarefa cada vez mais complexa, porém essencial. Nesse contexto, o SRE (Site Reliability Engineer) é o profissional responsável por garantir a confiabilidade do ambiente. Para que […]
Site Reliability Engineering: conheça o conceito de SRE
Devido ao aumento da complexidade dos sites, aplicativos e infraestruturas em nuvem, ter cuidado com a arquitetura e o desenvolvimento é apenas uma pequena parte de todo o universo por trás de um sistema. Após o lançamento de um app, é necessário atualizar, implementar novas funcionalidades e corrigir possíveis bugs. E é aí que deve […]







