DevOps SRE managing system reliability and performance in a hybrid work environment. Collaborating with development and infrastructure teams at the GFT company in Brazil.
Responsibilities
Garantir a confiabilidade, disponibilidade e performance das aplicações em produção;
Definir, monitorar e evoluir SLA, SLO e SLI;
Implementar e manter práticas de observabilidade (métricas, logs, tracing e alertas);
Desenvolver automações para redução de toil e aumento da eficiência operacional;
Atuar na gestão de incidentes, análise de causa raiz e elaboração de post-mortems;
Colaborar com times de desenvolvimento, DevOps e infraestrutura;
Contribuir para melhorias de segurança, resiliência e compliance;
Apoiar iniciativas de FinOps para otimização de custos em cloud;
Promover boas práticas de SRE e DevOps dentro dos squads.
Requirements
Experiência em ambientes on-premises e cloud (preferencialmente AWS);
Sólido conhecimento em observabilidade (Prometheus, Grafana, Dynatrace, Datadog, OpenTelemetry);
Experiência com automação e scripting (Python, Go, Bash e/ou PowerShell);
Conhecimento em Linux e Windows;
Experiência com Docker e Kubernetes;
Vivência com práticas SRE (error budgets, redução de toil, post-mortems);
Experiência com monitoramento, alertas e dashboards;
Conhecimento em redes, segurança e troubleshooting avançado;
Graduação em Ciência da Computação, Engenharia ou áreas correlatas.
Certificações AWS, Observabilidade ou Kubernetes;
Experiência com CI/CD (GitLab, GitHub Actions, Jenkins);
Vivência com IaC (Terraform, CloudFormation);
Conhecimento em arquiteturas distribuídas e microserviços.;
Experiência com FinOps;
Familiaridade com SRE avançado (Chaos Engineering, Fault Injection).
Benefits
Cartão multi-benefícios – você escolhe como e onde utilizar.
Bolsas de Estudos para cursos de Graduação, Pós, MBA e Idiomas.
Programas de incentivo à Certificações.
Horário de trabalho flexível.
Salários competitivos.
Avaliação de desempenho anual com plano de carreira estruturado.
DevOps Engineer focusing on deploying high - security on - prem infrastructure and MLOps platforms for mission - critical systems. Collaborating on Kubernetes - based orchestration and machine learning workloads.
Cloud Site Reliability Engineer managing Solace Cloud services across leading cloud providers. Ensuring reliability, handling incidents, and collaborating with customers for operational excellence.
Senior Cloud Site Reliability Engineer ensuring reliability and health of Solace Cloud Services with hands - on cloud operations expertise. Lead incident management and customer support for high - impact environments.
DevOps Engineer designing and operating AWS infrastructure within industrial IoT environments. Working on systems that ensure security, resilience, and end - to - end observability.
Sr. Site Reliability Engineer (SRE) III providing technical solutions for the federal government. Collaborating in a high - performing team focused on reliability and application scalability.
Senior Linux System Engineer developing and maintaining Linux server infrastructure for Th. Geyer GmbH. Collaborating on ERP systems and CI/CD processes while ensuring system performance and security.
Platform Engineer leading the development of cloud application platforms for Allstate. Responsible for cloud infrastructure for ML experimentation and production deployments.
Cloud Platform Engineer (ML DevOps) developing and managing CI/CD pipelines for ML workflows in a leading insurance company. Collaborating with data scientists and ensuring infrastructure security and compliance.