AI Evaluation Engineer designing and implementing evaluation frameworks for advanced AI systems. Collaborating across teams to ensure model effectiveness and safety while driving innovations in AI metrics.
Responsibilities
Diseñar y desarrollar marcos de evaluación: crear tuberías de evaluación escalables y reproducibles para sistemas de IA a gran escala, incluyendo LLMs y arquitecturas de múltiples agentes.
Innovación en métricas: definir e implementar métricas de evaluación novedosas que capturan capacidades del modelo más allá de los estándares tradicionales.
Análisis de rendimiento: realizar benchmarking de modelos de IA en diferentes dominios y tareas, analizando habilidades y comportamientos bajo diferentes configuraciones.
Pruebas de seguridad, confiabilidad y alineación: desarrollar herramientas y experimentos para sondear la seguridad, robustez, interpretabilidad y sesgo del modelo.
Colaboración interdisciplinaria: trabajar en estrecha colaboración con equipos de ajuste y optimización del modelo para evaluar la efectividad del sistema de extremo a extremo.
Requirements
MSc o PhD en Ciencias de la Computación, Inteligencia Artificial, Aprendizaje Automático, Estadística o un campo relacionado.
3+ años de experiencia desarrollando, evaluando u optimizando sistemas de IA.
Fuertes habilidades en programación en Python, con experiencia en PyTorch, TensorFlow o JAX.
Experiencia en el diseño de protocolos de evaluación para LLMs, sistemas multi-agente o entornos de aprendizaje por refuerzo.
Comprensión profunda de métricas de ML, metodologías de evaluación y análisis estadístico.
Inglés fluido; conocimiento de idiomas europeos adicionales (alemán, neerlandés, español, francés o italiano) es un plus.
Benefits
Oportunidad de construir una plataforma de implementación de inteligencia artificial en la nube que impulsará sistemas de IA de próxima generación.
Un entorno de trabajo colaborativo y centrado en la innovación con una autonomía y propiedad significativas.
Modelo de trabajo híbrido con horarios flexibles.
Oportunidad de unirse a una de las empresas más ambiciosas de Europa en la intersección de la IA y la ingeniería de silicona.
AI Prompt Specialist supporting technology applications and business line initiatives at U.S. Bank. Serving as a liaison between technical teams and business partners for project releases and system support.
Global Integrated Marketing Manager executing campaigns for Plaud's software and AI products. Leading cross - functional teams to enhance global market presence and user engagement.
Graduate Intern developing analysis tools for AI data center power consumption and infrastructure assessment. Collaborating with peers on power characterization experiments in a dynamic research environment.
AI Analyst Intern providing hands - on experience in AI data analysis and machine learning at Samsung. Collaborating on innovative projects during a 10 - week paid internship program.
SVP of Enterprise AI for Equiniti, responsible for leading and implementing transformative AI initiatives across the enterprise. Collaborating with CTO and various departments for strategic growth.
AI Consultant / AI Adoption Lead helping organizations understand AI as a catalyst for transformation. Engage with clients to design workflows and guide AI adoption for measurable impact.
AI Automation & Enablement Lead for GoMaterials revolutionizing procurement processes through AI automation and tooling. Identifying and scaling high - impact automation across teams while measuring ROI.
Manager of Automation and AI leading a development team at creditors’ rights law firm RAS LaVrar. Focusing on automation, application development, and AI solutions to integrate with the Collections platform.
Measurement Lead for Yum's AI transformation, enhancing AI readiness and driving automation initiatives across teams. Collaborate to improve productivity and operational speed.
ML Modeling Lead for improving Renewals process at Salesforce through AI and data integration. Focusing on technical solutions and stakeholder collaboration for future needs.