Hybrid Site Reliability Engineer

Posted last month

Apply now

About the role

  • Site Reliability Engineer at MODO enhancing payment systems with strategic leadership and technical execution. Responsible for incident management, monitoring, and optimizing cloud infrastructure.

Responsibilities

  • Monitoreo y Observabilidad: Implementación de herramientas de monitoreo para detectar y solucionar problemas en tiempo real.
  • Desarrollo de dashboards y alertas para mantener la visibilidad sobre el rendimiento del sistema.
  • Gestión de incidencias: Establecimiento de procedimientos para la detección, respuesta y resolución de incidentes.
  • Capacitación en la gestión de crisis y en la mejora continua post-mortem.
  • Capacidad y rendimiento: Evaluación y optimización de la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
  • Uso de herramientas de benchmarking y pruebas de carga.
  • Reliability Engineering: Implementación de prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
  • Identificación y eliminación de puntos únicos de falla.
  • Seguridad en el Ciclo de Desarrollo del Software: Implementación de medidas de seguridad en el ciclo de vida del desarrollo de software (SDLC).
  • Monitoreo y respuesta a vulnerabilidades y amenazas.
  • Creación y mantenimiento de herramientas de soporte para ingeniería.
  • Optimización de Costos: Análisis y optimización de costos de infraestructura.
  • Implementación de políticas de utilización eficiente de recursos.

Requirements

  • Experiencia integrando y utilizando plataformas como Datadog (APM, Logs, Synthetics, SLOs), con foco en trazabilidad de incidentes y tuning de alertas.
  • Personas con experiencia en desarrollo (preferentemente Node) y en trabajar en entornos cloud, idealmente con un perfil backend en AWS.
  • Experiencia en la administración y orquestación de contenedores con Kubernetes, valorando especialmente el uso de Helm.
  • Habilidad para diagnosticar, dar seguimiento, y resolver problemas en aplicaciones, con un enfoque en soporte aplicativo.
  • Capacidad para moverse en escenarios cambiantes, con una mentalidad orientada a resultados y atención al detalle.
  • Docker, Kubernetes, Istio, AWS EC2, AWS EKS, AWS RDS, AWS SQS/SES, Cloudfront, AWS S3, Helm.
  • Experiencia en flujos de CI/CD en GitHub Actions y gestión de infraestructura multi-entorno con Terragrunt.
  • Conocimientos en gobernanza de alertas, burn rate múltiple y dashboards de salud por dominio o producto.
  • Conocimientos en escalabilidad y elasticidad sobre AWS y aplicaciones hosteadas en kubernetes.
  • Familiaridad con prácticas de FinOps para seguimiento y optimización de costos en AWS.

Benefits

  • 10 días hábiles de vacaciones + 5 días MODO.
  • Prepaga para vos y tu grupo familiar.
  • Reintegro en app MODO para almuerzos y traslado.
  • Membresía en Gympass y descuento en Sport Club para actividad física.
  • Licencias extendidas (por matrimonio, maternidad, paternidad y otras).
  • Plataforma de capacitaciones y descuentos en universidades para perfeccionar y expandir tus conocimientos.
  • Reintegro por gastos de Internet.
  • Día de cumpleaños libre y medio día por cumpleaños de hijos/as.
  • Actividades de team building.
  • Club de Beneficios.
  • Posibilidad de desarrollarte en un ambiente flexible, dinámico y en pleno crecimiento.

Job title

Site Reliability Engineer

Job type

Experience level

Mid levelSenior

Salary

Not specified

Degree requirement

Bachelor's Degree

Location requirements

Report this job

See something inaccurate? Let us know and we'll update the listing.

Report job