SRE Specialist at Prex maintaining cloud infrastructure reliability and scalability. Proposing new technologies, managing CI/CD processes, and optimizing software lifecycle automation.
Responsibilities
Mantener la confiabilidad y escalabilidad de la infraestructura Cloud.
Proponer nuevas herramientas y tecnologías que ayuden a resolver problemas actuales.
Participar en nuevas integraciones y proyectos para definir y desplegar la mejor solución en conjunto con los equipos de infraestructura, desarrollo y arquitectura.
Diseñar, implementar y gestionar la infraestructura utilizando IaC (infraestructura como código).
Implementar y optimizar procesos de CI/CD para construir, probar y desplegar aplicaciones en diferentes entornos y plataformas, garantizando una entrega continua eficiente.
Automatizar todas las facetas del ciclo de vida del software, incluyendo infraestructura, despliegues, monitoreo y respuesta a incidentes.
Implementar y mantener sistemas de monitoreo, logging y alertas para asegurar la alta disponibilidad, la observabilidad y el rendimiento de los servicios críticos.
Trabajar en la mejora continua, optimizando procesos, herramientas e infraestructura para aumentar la confiabilidad y la eficiencia operativa.
Mantener actualizada la infraestructura en la nube y liderar la migración de servicios heredados a entornos modernos basados en Amazon EKS (Elastic Kubernetes Service).
Colaborar en la respuesta ante incidentes y la resolución de problemas críticos, asegurando su rápida solución y previniendo su recurrencia mediante análisis de causa raíz y automatización de respuestas.
Aplicar y garantizar el cumplimiento de los estándares de seguridad de la industria y las mejores prácticas en la arquitectura de infraestructura actual y futuros proyectos.
Crear y mantener documentación técnica clara y detallada para procesos, herramientas y sistemas.
Requirements
Profesionales o estudiantes avanzados de las carreras de Ingeniería en Sistemas, Ingeniería en computación o afines.
Perfiles con + 2 años de experiencia en posiciones de SRE.
Experiencia con Kubernetes (gestión y troubleshooting de clústeres).
Experiencia en administración y gestión de entornos Linux, resolviendo problemas complejos.
Capacidad para automatizar procesos críticos con lenguajes de scripting como Bash o Python.
Experiencia con herramientas de IaC, como Terraform, CloudFormation o Ansible, para la automatización de infraestructura.
Profesionales que hayan trabajado en procesos de integración y despliegue continuo en entornos cloud-native.
Buscamos personas proactivas, con habilidades de resolución de problemas, dinámicas, orientadas a los detalles y con pasión por la mejora continua.
La capacidad de trabajo en equipo y el interés por aprender nuevas tecnologías son esenciales.
Se valorará: Experiencia con Karpenter (autoscaling avanzado en Kubernetes).
Conocimientos en AWS, especialmente servicios relacionados con contenedores, redes y seguridad.
Conocimientos en plataformas de monitoreo y observabilidad como Prometheus, Grafana, ELK Stack, Datadog o similares.
Certificaciones relacionadas con plataformas en la nube (por ejemplo, AWS Certified Solution Architect).
Benefits
Cobertura de medicina prepaga.
Wellhub Plan Platinum.
Trabajo remoto desde cualquier rincón de Argentina & Home Office en el exterior.
Encuentros presenciales con propósito en la oficina de CABA o coworks en el interior del país.
Conectividad y set up para que trabajes más cómodo.
Semana extra off de descanso.
Día de cumpleaños flexible.
Tu cuenta Prex con beneficios en supermercados, transporte, viajes y más.
Cuenta Prex Internacional con bonificaciones exclusivas.
Acceso a plataformas de capacitación y aprendizaje.
Descuentos en universidades y centros de formación.
DevOps Engineer focusing on deploying high - security on - prem infrastructure and MLOps platforms for mission - critical systems. Collaborating on Kubernetes - based orchestration and machine learning workloads.
Cloud Site Reliability Engineer managing Solace Cloud services across leading cloud providers. Ensuring reliability, handling incidents, and collaborating with customers for operational excellence.
Senior Cloud Site Reliability Engineer ensuring reliability and health of Solace Cloud Services with hands - on cloud operations expertise. Lead incident management and customer support for high - impact environments.
DevOps Engineer designing and operating AWS infrastructure within industrial IoT environments. Working on systems that ensure security, resilience, and end - to - end observability.
Sr. Site Reliability Engineer (SRE) III providing technical solutions for the federal government. Collaborating in a high - performing team focused on reliability and application scalability.
Senior Linux System Engineer developing and maintaining Linux server infrastructure for Th. Geyer GmbH. Collaborating on ERP systems and CI/CD processes while ensuring system performance and security.
Platform Engineer leading the development of cloud application platforms for Allstate. Responsible for cloud infrastructure for ML experimentation and production deployments.
Cloud Platform Engineer (ML DevOps) developing and managing CI/CD pipelines for ML workflows in a leading insurance company. Collaborating with data scientists and ensuring infrastructure security and compliance.