Hybrid Senior Site Reliability Engineer – Data Platform

Posted 6 days ago

Apply now

About the role

  • SRE focused on maintaining data systems reliability and performance at Porto Bank. Duties include automation, incident management, and capacity planning.

Responsibilities

  • Engenharia de Confiabilidade: Definir e monitorar SLIs e SLOs críticos para a plataforma de dados (latência de jobs, disponibilidade do workspace, integridade do Delta Lake).
  • Observabilidade Avançada: Implementar telemetria ponta a ponta (logs, métricas e traces) para antecipar falhas antes que impactem o negócio.
  • Automação e IaC: Eliminar o trabalho manual através de automações, garantindo que a infraestrutura do Databricks seja tratada como código.
  • Gestão de Incidentes e Post-mortems: Liderar o diagnóstico de incidentes complexos em ambientes Spark/Azure e conduzir análises de causa raiz (Blameless Post-mortems) para evitar recorrências.
  • Eficiência de Custos (FinOps): Otimizar o consumo de recursos computacionais (clusters Databricks) e armazenamento na Azure sem sacrificar a performance.
  • Cultura de Self-Service: Desenvolver ferramentas e abstrações que permitam aos Engenheiros de Dados operarem com autonomia e segurança.
  • Capacity Planning: Realizar a gestão de capacidade da plataforma para suportar o crescimento exponencial de volumetria de dados e modelos de IA/ML.

Requirements

  • Experiência em SRE ou DevOps: Vivência sólida garantindo a disponibilidade de sistemas distribuídos de alta escala.
  • Domínio em Ecossistema de Dados: Experiência obrigatória (2+ anos) com Azure e Databricks (especialmente administração de workspaces e otimização de clusters).
  • Programação e Automação: Domínio de Python para criação de ferramentas de automação e scripts.
  • Troubleshooting de Big Data: Conhecimento profundo em depuração de jobs Apache Spark, análise de gargalos em Delta Lake e redes em nuvem.
  • Observabilidade: Experiência com ferramentas como Azure Monitor, Grafana, Prometheus ou Datadog para criação de alertas inteligentes.
  • Vivência comprovada em Azure e Databricks.
  • Experiência com CI/CD para Data Engineering (DataOps).
  • Familiaridade com governança de dados e segurança (Unity Catalog).

Benefits

  • Vale Alimentação e Refeição Flexíveis;
  • Plano de Saúde;
  • Plano Odontológico;
  • Wellhub e TotalPass;
  • Academia Bio Ritmo exclusiva para Colaboradores: no Complexo Matriz;
  • Participação nos Lucros - PLR;
  • Programa de Ações: Porto em Ação: complementar à PLR até 2025;
  • Quadras de Areia e Poliesportiva: no Complexo Matriz;
  • Vale-Transporte;
  • Serviços de Transporte de Vans: disponibilizadas nas principais estações de acesso à Porto (Luz, Barra Funda, Santa Cecília e Júlio Prestes);
  • Licença Parental Estendida: até 40 dias para todas as configurações familiares;
  • Licença Maternidade Estendida de 6 meses;
  • Ambulatório Médico com Especialidades: no Complexo Matriz e Barra Funda;
  • Auxílio creche ou babá;
  • Seguro de Vida;
  • Previdência Privada - PortoPrev;
  • Desconto em Produtos e Serviços;
  • Bolsa de estudos: Reembolso para graduação, pós ou MBA;
  • Corridas mensais: subsídio para as principais corridas de ruas de São Paulo;
  • Reembolso para idiomas (inglês ou espanhol);
  • Teatro Porto: sessões exclusivas para Colaboradores;
  • Biblioteca;
  • Sala de descanso: no completo Matriz;
  • Salão de jogos: no complexo Matriz;
  • Serviços de massagem e podologia: no completo Matriz;
  • Local de trabalho: Campos Elíseos - SP

Job title

Senior Site Reliability Engineer – Data Platform

Job type

Experience level

JuniorMid level

Salary

Not specified

Degree requirement

No Education Requirement

Location requirements

Report this job

See something inaccurate? Let us know and we'll update the listing.

Report job