AI Evaluation Engineer at Factorial | Hybrid Hired

About the role

AI Evaluation Engineer designing and implementing evaluation frameworks for advanced AI systems. Collaborating across teams to ensure model effectiveness and safety while driving innovations in AI metrics.

Responsibilities

Diseñar y desarrollar marcos de evaluación: crear tuberías de evaluación escalables y reproducibles para sistemas de IA a gran escala, incluyendo LLMs y arquitecturas de múltiples agentes.
Innovación en métricas: definir e implementar métricas de evaluación novedosas que capturan capacidades del modelo más allá de los estándares tradicionales.
Análisis de rendimiento: realizar benchmarking de modelos de IA en diferentes dominios y tareas, analizando habilidades y comportamientos bajo diferentes configuraciones.
Pruebas de seguridad, confiabilidad y alineación: desarrollar herramientas y experimentos para sondear la seguridad, robustez, interpretabilidad y sesgo del modelo.
Colaboración interdisciplinaria: trabajar en estrecha colaboración con equipos de ajuste y optimización del modelo para evaluar la efectividad del sistema de extremo a extremo.

Requirements

MSc o PhD en Ciencias de la Computación, Inteligencia Artificial, Aprendizaje Automático, Estadística o un campo relacionado.
3+ años de experiencia desarrollando, evaluando u optimizando sistemas de IA.
Fuertes habilidades en programación en Python, con experiencia en PyTorch, TensorFlow o JAX.
Experiencia en el diseño de protocolos de evaluación para LLMs, sistemas multi-agente o entornos de aprendizaje por refuerzo.
Comprensión profunda de métricas de ML, metodologías de evaluación y análisis estadístico.
Inglés fluido; conocimiento de idiomas europeos adicionales (alemán, neerlandés, español, francés o italiano) es un plus.

Benefits

Oportunidad de construir una plataforma de implementación de inteligencia artificial en la nube que impulsará sistemas de IA de próxima generación.
Un entorno de trabajo colaborativo y centrado en la innovación con una autonomía y propiedad significativas.
Modelo de trabajo híbrido con horarios flexibles.
Oportunidad de unirse a una de las empresas más ambiciosas de Europa en la intersección de la IA y la ingeniería de silicona.

Similar roles

Browse all Artificial Intelligence jobs

5 hours ago

HE

Technical Marketing Manager – AI

Hewlett Packard Enterprise

Technical Product Marketing Manager focused on product marketing strategy for HPE Private Cloud AI. Responsible for technical content execution and collaborative efforts with product management.

Hybrid Role

Spring United States Artificial Intelligence

$105,500 - $243,000 per year

6 hours ago

RE

AI Prompt Engineer

RELX

AI Prompt Engineer focusing on developing conversational AI experiences for healthcare professionals at Elsevier. Join a team creating innovative solutions powered by generative AI.

Onsite Role

Philadelphia United States Artificial Intelligence

$95,300 - $158,800 per year

12 hours ago

HF

Junior AI Videographer

HFM

Junior AI Videographer creating engaging AI - driven video and visual content for a multi - asset broker. Collaborating on marketing campaigns and digital storytelling.

Hybrid Role

Larnaca Cyprus Artificial Intelligence

13 hours ago

AV

AI Bootcamp

Avanade

Technology Consultant role with Avanade focusing on IT and digital solutions after completing a foundational training program. Join a community passionate about technology and innovation.

Onsite Role

London United Kingdom Artificial Intelligence

£30,320 per year

13 hours ago

AT

Manager, Data & AI – Defense

Atos

Manager in Data & AI for Defense at Atos, responsible for structuring AI consulting practice. Leading projects related to AI sovereignty and resilience for defense and aerospace sectors.

Onsite Role

Bezons France Artificial Intelligence

€75,000 - €85,000 per year

13 hours ago

DS

Junior Software Developer, AI

Digitale Leute School

Junior Software Developer with AI knowledge at Digitale Leute School offering training and support for career advancement in software development.

Hybrid Role

Hamburg Germany Artificial Intelligence

19 hours ago

CO

Applied Researcher I – AI Foundations, LLM Core, Agentic AI

Capital One

Applied Researcher I at Capital One driving AI innovations for banking. Collaborating with cross - functional teams to develop AI - powered products and enhance customer experiences.

Hybrid Role

New York City United States Artificial Intelligence

$218,700 - $272,300 per year

19 hours ago

CO

Applied Researcher I – AI Foundations, LLM Core, Agentic AI

Capital One

Applied Researcher leveraging AI technologies to enhance customer interactions at Capital One. Collaborating with experts to build, evaluate, and implement advanced AI models across financial services.

Onsite Role

New York City United States Artificial Intelligence

$218,700 - $272,300 per year

19 hours ago

CO

Applied Researcher II, AI Foundations, LLM Core, Agentic AI

Capital One

Applied Researcher II in AI Foundations at Capital One. Leveraging AI technologies to improve customer experiences in financial services.

Hybrid Role

New York City United States Artificial Intelligence

$262,500 - $326,800 per year

19 hours ago

CO

Applied Researcher I – AI Foundations

Capital One

Applied Researcher I utilizing AI foundations to enhance customer banking experiences at Capital One. Collaborating with cross - functional teams to build and implement innovative AI - powered solutions for improved interactions.

Onsite Role

San Jose United States Artificial Intelligence

$218,700 - $272,300 per year