Diseñar, administrar y optimizar clústers de ElasticSearch | OpenSearch de alto volumen, garantizando rendimiento, disponibilidad y escalabilidad
Liderar la integración y gestión de Kibana y herramientas de análisis para visualización avanzada de logs y métricas
Construir y mantener dashboards operativos con Grafana y sistemas de alerting con Prometheus
Gestionar y evolucionar clústers de Kubernetes (GKE) en entornos de producción de alta concurrencia
Administrar servicios críticos de Google Cloud Platform : IAM, networking, Cloud Logging, Cloud Monitoring
Diseñar arquitecturas resilientes que soporten millones de peticiones diarias
Desarrollar y mantener Infraestructura como Código con Terraform
Construir y optimizar pipelines de CI/CD (Cloud Build, Tekton, GitHub Actions)
Automatizar aprovisionamiento con Ansible, Packer y Docker
Crear y mantener imágenes de VM y contenedores siguiendo mejores prácticas de seguridad
Asegurar el cumplimiento de estándares de seguridad, disponibilidad (SLOs/SLIs) y resiliencia
Realizar análisis de impacto ante cambios críticos en la plataforma
Mantener documentación técnica actualizada y runbooks operativos.
Requirements
4+ años de experiencia administrando clústers de ElasticSearch | OpenSearch en producción (gestión de índices, optimización de queries, sharding, replicación, seguridad)
Experiencia demostrable gestionando clústers de alto volumen (100+ nodos o 50+ TB de datos indexados)
Dominio de Kibana, Grafana, Prometheus y stack de observabilidad moderna
Experiencia con Kubernetes en entornos de producción
Experiencia sólida en plataformas Cloud (GCP, AWS o Azure) - actualmente trabajamos principalmente en Google Cloud Platform
Dominio de Terraform e Infraestructura como Código en entornos multi-región
Conocimiento profundo de buenas prácticas en seguridad cloud, monitorización proactiva y disaster recovery
Capacidad para trabajar en equipo multidisciplinar, mentalidad de ownership y excelentes habilidades de comunicación técnica
Benefits
Reto técnico real
Formar parte de un equipo SRE consolidado y amplio distribuido en squads especializados (Observability, Platform, Data)
Autonomía técnica : tú decides cómo resolver los problemas, nosotros te damos contexto y objetivos
Trabajar con GCP, Kubernetes, ElasticSearch, Terraform, Prometheus, Grafana en un entorno de producción con millones de usuarios reales
DevOps Analyst providing high quality and reliable solutions within multifuncional teams at technology - focused financial organization. Automating build and deployment solutions in a hybrid work environment.
Network & Datacenter Deployment Engineer at Cloudflare focused on building and expanding their global network infrastructure with collaboration across multiple engineering teams and vendors.
Senior DevOps Engineer leading cloud - native solutions at Sparksoft Corporation. Driving automation and system reliability within a fast - paced Agile team.
Platform Engineer focusing on supporting CI/CD pipelines and Kubernetes at PCCW. Responsible for ensuring platform services' reliability and performance, with night - time support as needed.
Site Reliability Engineer at Bumble optimizing large - scale Linux environments and ensuring system stability. Focusing on troubleshooting, incident recovery, and performance tuning in complex infrastructures.
DevOps Manager overseeing engineering team developing scalable CI/CD processes for NVIDIA Networking products. Enhancing global R&D efficiency in a technology - focused company.
Senior DevOps Manager overseeing CI/CD processes for NVIDIA Networking products. Leading a team and collaborating with global teams to enhance R&D efficiency and infrastructure.
Join Operations Team as Senior Site Reliability Engineer driving operational excellence for cybersecurity solutions. Collaborate across teams to manage production platforms and optimize infrastructure.