Site Reliability Engineer at MODO enhancing payment systems with strategic leadership and technical execution. Responsible for incident management, monitoring, and optimizing cloud infrastructure.
Responsibilities
Monitoreo y Observabilidad: Implementación de herramientas de monitoreo para detectar y solucionar problemas en tiempo real.
Desarrollo de dashboards y alertas para mantener la visibilidad sobre el rendimiento del sistema.
Gestión de incidencias: Establecimiento de procedimientos para la detección, respuesta y resolución de incidentes.
Capacitación en la gestión de crisis y en la mejora continua post-mortem.
Capacidad y rendimiento: Evaluación y optimización de la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
Uso de herramientas de benchmarking y pruebas de carga.
Reliability Engineering: Implementación de prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
Identificación y eliminación de puntos únicos de falla.
Seguridad en el Ciclo de Desarrollo del Software: Implementación de medidas de seguridad en el ciclo de vida del desarrollo de software (SDLC).
Monitoreo y respuesta a vulnerabilidades y amenazas.
Creación y mantenimiento de herramientas de soporte para ingeniería.
Optimización de Costos: Análisis y optimización de costos de infraestructura.
Implementación de políticas de utilización eficiente de recursos.
Requirements
Experiencia integrando y utilizando plataformas como Datadog (APM, Logs, Synthetics, SLOs), con foco en trazabilidad de incidentes y tuning de alertas.
Personas con experiencia en desarrollo (preferentemente Node) y en trabajar en entornos cloud, idealmente con un perfil backend en AWS.
Experiencia en la administración y orquestación de contenedores con Kubernetes, valorando especialmente el uso de Helm.
Habilidad para diagnosticar, dar seguimiento, y resolver problemas en aplicaciones, con un enfoque en soporte aplicativo.
Capacidad para moverse en escenarios cambiantes, con una mentalidad orientada a resultados y atención al detalle.
DevOps Engineer automating continuous deployment and monitoring on AWS for Crown Equipment Corporation. Bridging developers, IT, and external providers for operational efficiency.
Senior DevOps Engineer responsible for leading CI/CD pipeline design and optimization. Collaborating with teams to drive DevOps maturity across the enterprise while managing infrastructure automation.
Cloud Operations Engineer ensuring reliable performance of cloud systems at 2Innovate. Focused on automation, incident management, cloud security, and infrastructure monitoring in cloud environments.
AWS DevOps Engineer responsible for delivering scalable digital experiences for EXL's MarTech ecosystem. Engaging in development, maintenance, and collaboration across stakeholders and services.
Senior Site Reliability Engineer managing critical infrastructure at Hornetsecurity. Collaborating with product teams to ensure performance and reliability across services.
Site Reliability Engineer enhancing platform reliability for AI workflows at WRITER. Overseeing automated solutions and cloud infrastructure supporting high - trafficked AI systems.
Site reliability engineer ensuring 24/7 availability of AI - powered workflows at WRITER. Developing and automating robust platforms for high - traffic AI demands.
Site Reliability Engineer maintaining cloud infrastructure for Tricentis SaaS Products. Collaborating closely with engineers, focusing on observability and performance.