Curso Preparatório: Site Reliability Engineering (SRE) Practitioner
O curso preparatório para a certificação Site Reliability Engineering (SRE) Practitioner é destinado a engenheiros de software, administradores de sistemas e profissionais de operações que já têm conhecimento básico de SRE e desejam aprofundar-se em práticas avançadas de confiabilidade e automação de sistemas. Este curso cobre desde a automação em larga escala até a otimização de SLOs e gerenciamento de incidentes, preparando os participantes para a certificação SRE Practitioner.
1. Implementação de Service Level Objectives (SLOs)
- Estabelecimento e otimização de SLOs para serviços críticos
- Monitoramento de SLIs (Service Level Indicators) em ambientes distribuídos
- Ajuste de SLOs com base em métricas de confiabilidade e negócios
- Gerenciamento de SLOs e SLAs em escala empresarial
2. Automação em Escala e Redução de Toil
- Automatização de processos manuais para reduzir o toil (trabalho repetitivo)
- Uso de ferramentas de automação como Terraform, Ansible e Kubernetes
- Desenvolvimento de scripts de automação e otimização de fluxos de trabalho
- Automação de pipelines de CI/CD e gerenciamento de infraestrutura como código (IaC)
3. Gerenciamento de Incidentes e Resposta a Falhas
- Desenvolvimento de processos eficazes de resposta a incidentes
- Identificação e mitigação de riscos e falhas em sistemas distribuídos
- Ferramentas de monitoramento e alerta (Prometheus, Grafana, etc.)
- Práticas de post-mortem para aprendizado e melhoria contínua
4. Monitoramento e Observabilidade em SRE
- Implementação de práticas de monitoramento contínuo
- Coleta e análise de logs, métricas e traces para observabilidade
- Uso de ferramentas como Jaeger, ELK Stack e Datadog para observabilidade
- Integração de soluções de monitoramento com práticas de SRE
5. Arquitetura de Sistemas Resilientes
- Design e construção de sistemas distribuídos resilientes
- Otimização de arquiteturas para alta disponibilidade e recuperação de desastres
- Uso de failover e replicação para garantir a continuidade do serviço
- Gerenciamento de cargas de trabalho e escalabilidade automática
6. Cultura de Confiabilidade e Melhoria Contínua
- Desenvolvimento de uma cultura orientada a confiabilidade
- Colaboração entre equipes de desenvolvimento, operações e SRE
- Implementação de feedback contínuo e ciclos de melhoria iterativa
- Criação de equipes resilientes e de alto desempenho
7. Preparação para o Exame SRE Practitioner
- Formato do exame SRE Practitioner
- Simulados e práticas de exame
- Dicas para o exame: Estratégias de resposta
- Revisão de tópicos e conceitos chave
Pré-requisitos
- Conhecimento básico em práticas de SRE (Site Reliability Engineering)
- Experiência com operações de sistemas e automação em ambientes de TI
- Familiaridade com ferramentas de automação e monitoramento é recomendada
A quem se dirige
- Engenheiros de confiabilidade, engenheiros de software e administradores de sistemas
- Profissionais de TI que desejam aprimorar suas habilidades em SRE e automação
- Equipes de operações e desenvolvedores que trabalham com sistemas distribuídos e escaláveis
- Profissionais que desejam obter a certificação SRE Practitioner e expandir suas carreiras em confiabilidade de sistemas