Site Reliability Engineering (SRE): o que é?

Conheça mais sobre a abordagem prática para aumentar a confiabilidade e o desempenho de um sistema

O que é SRE (Site Reliability Engineering)? Em português chamado de Engenharia de Confiabilidade de Site é uma área que atua na engenharia de confiabilidade do ambiente seja em sites ou plataformas. Na prática, SRE serve para manter uma infraestrutura programável e maximizar a disponibilidade das cargas de trabalho de execução.

Se você gosta da área ou tem interesse, saiba que ao se envolver com SRE suas principais atividades serão aprimorar o design e a operação dos sistemas para assegurar que todos os serviços online estejam em operação de forma contínua, confiável e ágil.

É esse profissional que consegue detectar possíveis atualizações, implementações de novas funcionalidades e correção de bugs. É essencial ter o entendimento de infraestrutura e operações. Interessante, não é mesmo?

Ao longo do conteúdo você entenderá mais sobre o que é SRE, em que contexto foi criado, os fundamentos, aplicações e razões para os profissionais ingressarem na área. Boa leitura!

O que é SRE?

O SRE é uma abordagem prática para aumentar a confiabilidade e o desempenho de um sistema. Ele combina conhecimentos de engenharia de software e de sistemas para criar um sistema mais confiável.

Alguns dos benefícios do SRE incluem:

  • Aumento da confiabilidade do sistema;
  • Melhoria do desempenho do sistema;
  • Redução de custos;
  • Aumento da produtividade.

Outro fator essencial da função de SRE é a chamada “engenharia de lançamento”, que envolve basicamente, a definição de práticas recomendadas para garantir que os lançamentos de software sejam consistentes e repetíveis. 

< Leia mais: conheça as 5 linguagens de programação mais utilizadas />

Entenda mais sobre confiabilidade

A confiabilidade é associada diretamente ao correto funcionamento de um processo por um espaço de tempo específico, de tal forma que o processo desempenhe com qualidade as funções para as quais foi projetado e desenvolvido, e essa capacidade de perfeito funcionamento durante esse período em condições estabelecidas, determina o critério de confiabilidade do processo.

Onde foi criado o termo Site Reliability Engineering?

O criador do termo “Site Reliability Engineering” é Ben Treynor Sloss, atual vice-presidente de engenharia da Google nos EUA. De acordo com ele, o termo foi designado para indicar a área de um profissional que possui a função de incorporar aspectos relacionados à engenharia de software. Além de atuar na aplicação de problemas operacionais ligados a TI.

O SRE foi criado no Google em 2003 e divulgado principalmente por meio de livros. Inclusive, há um site oficial com todas as informações sobre o assunto, mas está em inglês https://sre.google/books/.

(Fonte: BBC UK)

< Não fique com dúvida: entenda diferenças entre Ciência de Dados e Engenharia de Dados />

Quais os fundamentos do SRE?

O engenheiro Sloss projetou e liderou um time operacional, com isso conseguiu elaborar uma metodologia com base em um conjunto de princípios fundamentais.

  • Abraçar o risco;
  • Ter objetivos do nível de serviço;
  • Eliminar trabalho desnecessário;
  • Monitorar sistemas distribuídos;
  • Automatizar processos;
  • Ter engenharia de lançamentos;
  • Buscar a simplicidade.

Tais princípios funcionam na prática somente quando envolve várias ações.

Onde o SRE é mais aplicado?

Por ser arquitetada e fundada pela Google, o SRE foi instituído como uma necessidade de manter a confiabilidades dos serviços em casos de crescimento exponencial de base de clientes. Isso porque, o número de usuários do Google é gigantesco, sendo quase 4 bilhões.

Logo, há um grande volume de usuário, fluxos, dados e produtos/serviços sendo adicionados à plataforma a todo momento.

A aplicação do Google SRE é baseada em três pilares:

  • automação,
  • orquestração e
  • métricas.

O Google SRE usa a automação para garantir que os serviços sejam implantados e executados de forma consistente e para simplificar a operação do sistema. A orquestração é usada para gerenciar o ciclo de vida do sistema e as métricas são usadas para monitorar o estado do sistema e tomar decisões de implantação e gerenciamento.

Por que profissionais de gerenciamento devem conhecer o SRE?

Os profissionais de gerenciamento devem conhecer o SRE para poderem incorporar as melhores práticas de gerenciamento de TI como parte de um esforço para tornar os serviços mais confiáveis.

A prática fornece uma abordagem estruturada para garantir que os serviços sejam entregues com segurança e de forma consistente, além de fornecer uma maneira de automatizar e rastrear as operações de Tecnologia da Informação.

Além disso, SRE também ajuda a reduzir o tempo de inatividade do site e aumenta a produtividade dos funcionários.

<Confira depois: o que é e como funciona Programação Funcional />

Aprofunde os conhecimentos

Caso queira, indicamos a leitura do livro Site Reliability Engineering, a versão em português se chama Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção.

O material foi publicado por O’Reilly em 2016 e é de autoria dos googlers Jennifer Petoff, Niall Richard Murphy, Chris Jones e Betsy Beyer.

Confira abaixo:

Livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção (Fonte: Amazon Brasil)

O que faz um profissional da área?

Um profissional da área de SRE é responsável por garantir a disponibilidade, desempenho e resiliência de um sistema. Isto envolve o gerenciamento de incidentes, a melhoria da capacidade e a automação da infraestrutura.

Quais os riscos do SRE?

Site Reliability Engineering (SRE) é uma metodologia usada para melhorar a confiabilidade e o desempenho de um site ou aplicação como já dito anteriormente. No entanto, existem alguns riscos associados ao uso desta metodologia.

Um dos principais riscos é que a aplicação pode tornar-se mais complexa e difícil de manter, uma vez que os engenheiros devem monitorar e gerenciar de perto os sistemas.

Além disso, a aplicação pode tornar-se menos escalável, uma vez que os SREs geralmente trabalham com sistemas de grande escala.

Outro risco é que a metodologia SRE pode levar a uma maior dependência de ferramentas automatizadas e de software, o que pode aumentar o custo da aplicação. Além disso, a prática pode não ser adequada para todos os tipos de aplicações e sites.

Como ter sucesso no SRE?

Para ter sucesso na área de SRE, é importante estar sempre atento aos detalhes e monitorar o sistema de forma eficiente. É preciso ter um bom conhecimento sobre a infraestrutura do sistema e estar sempre disposto a aprender novas técnicas e soluções.

Também é importante ter um bom relacionamento com a equipe de desenvolvimento e os demais profissionais envolvidos no projeto.


Que tal participar de um evento, online e gratuito, sobre Data Universe? Em sua 5.ª Edição, o encontro trará experts da área para tratar sobre o universo dos dados.

Serão apresentadas tecnologias, ferramentas e práticas em mais de 14 horas em sessões ao vivo com grandes profissionais.

spot_img

Continue Aprendendo

spot_img