Menu
Contato Comercial

    Conheça o conceito de SRE: Site Reliability Engineering

    Por: Aldry Rocha em 18.11.2021

    Devido ao aumento da complexidade dos sites, apps e infraestruturas em nuvem, ter cuidado com a arquitetura e o desenvolvimento é apenas uma pequena parte de todo o universo por trás de um sistema. Após o lançamento é necessário atualizar, implementar novas funcionalidades e corrigir possíveis bugs. E é aí que deve entrar em cena um profissional que entenda de infraestrutura e operações. Há um novo termo que está surgindo no mercado para denominar o profissional que atua na engenharia de confiabilidade do ambiente, o Site Reliability Engineer (SRE).

    Ainda não conhece o conceito da engenharia de confiabilidade de sites (SRE)? Então, fique com a gente e entenda quais as principais funções do profissional que atua nesta área e como ele pode agregar valor à sua empresa.

     

    Como surgiu o Site Reliability Engineering

    O termo Site Reliability Engineering nasceu em 2003, por meio de Ben Treynor Sloos, hoje atual vice-presidente de engenharia da Google nos EUA. O SRE nasceu no momento em que Ben teve que comandar uma equipe de operações com 7 engenheiros de software e desenvolveu uma metodologia de gerenciamento de operação para todo o serviço dentro da plataforma do Google, fazendo uso de recursos eficientes e foco na confiabilidade do usuário.

    A partir daí, a confiabilidade do sistema passou a ser o fator mais importante de um projeto e do gerenciamento do time, o impacto é tão positivo que empresas como Amazon, Netflix e LinkedIn também passaram a adotar o conceito de SRE.

     

    O que faz um SRE?

    A função de um Site Reliability Engineer é aprimorar o design e a operação dos sistemas, assegurando que todos os serviços online operem de forma contínua, confiável e ágil. A confiabilidade (reliability) é o foco principal, pois agrega métricas e operações de TI.

    Como principal skill profissional de um SRE se destaca a habilidade de identificar quais processos devem ser facilitados e otimizados, trazendo assim maior auto suficiência e desempenho possível ao software, removendo do sistema trabalhos manuais e repetitivos.

    De acordo com as recomendações do próprio Google, os engenheiros de confiabilidade devem dividir seu tempo entre tarefas operacionais e projetos. Nesse sentido, 50% do tempo deve ser trabalhando nas operações e os outros 50% em tarefas de desenvolvimento, como na criação de funcionalidades novas, automações e escalonamento do sistema.

    Os times SRE do Google, seguem alguns princípios básicos como abraçar o risco, seguir Objetivos de Nível de Serviço (SLO), eliminar possíveis trabalhos repetitivos, monitorar sistemas distribuídos, automação, engenharia de lançamento e simplicidade.

     

    SRE e DevOps

    Assim como o DevOps, o SRE tem o foco na cultura e nos relacionamentos, tendo como objetivo aproximar equipes de operação e desenvolvimento com o intuito de acelerar a entrega de serviços. O engenheiro de confiabilidade combina habilidades da equipe de desenvolvimento com as de operação, pois suas responsabilidades são relativas às duas áreas. A SRE pode vir a ajudar equipes de DevOps, quando esta estiver sobrecarregada com tarefas operacionais.

    Enquanto o SRE é direcionado ao desenvolvimento e entrega de melhorias e novas funcionalidades nos sistemas, assim como a mitigação de erros e bugs, o DevOps é uma cultura que conta com práticas que visam melhorar constantemente a entrega da qualidade do produto.

     

    Guidelines do Google para sistemas de monitoramento

    Como a função do SRE é responsável pela confiabilidade dos sistemas em produção, estes muitas vezes precisam estar intimamente familiarizados com o sistema de monitoramento de um serviço e seus recursos. Sem esse conhecimento, os SREs podem não saber onde procurar, como identificar um comportamento anormal ou como encontrar as informações de que precisam durante uma emergência.

    Recentemente publicamos um e-book abordando as principais guidelines do google, utilizadas internamente, para uso de sistemas de monitoramento. Este material pode ser baixado gratuitamente aqui.

     
    E-book sobre Site Reliability Engineering

     
    Caso você precise de ajuda para implementar uma boa solução de monitoramento e que atenda as especificidades do seu negócio, não hesite e entrar em contato com nossos especialistas. Possuímos quase 20 anos de experiência na monitoração de ambientes complexos, do sistema financeiro ao varejo.

    Compartilhe:

    Posts Relacionados

    ASSINE NOSSA NEWSLETTER E RECEBA
    NOSSOS MELHORES CONTEÚDOS!

    Entre para nossa lista e receba conteúdos exclusivos