New Job?Nejo!

Your personal AI career agent

NENeura Robotics GmbH

last mo.

GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)

Metzingen

Full-timeOn-siteSenior

AI/ML

Nejo AI Summary

Apply now

Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.

Requirements

5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil

Tasks

HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
HyperPod/Slurm-Orchestrierungsmodelle implementieren
HyperPod/EKS-Orchestrierungsmodelle implementieren
Strategien für Cluster-Stabilität designen und umsetzen
Node-Failure-Detection implementieren
Automatische Job-Recovery implementieren
Checkpoint-Koordination implementieren
Fehlertolerante Multi-Node-Training-Workflows implementieren
Workload-Priority-Framework aufbauen
End-to-End-GPU-Auslastung optimieren
Eng mit AWS HyperPod-Teams zusammenarbeiten
Self-Service-Tools für ML-Teams bereitstellen
Onboarding-Dokus erstellen
Trainingsmaterial erstellen
Interne Workshops durchführen
Cluster-Konfigurationen als Code verwalten
Umgebungen als Code verwalten
Kosten- und Kapazitätsstrategie verantworten
Spot-Management implementieren
Reserved-Instance-Planung umsetzen
Savings Plans implementieren
AWS-Commitment-Verhandlungen führen

Work Experience

5 years

Education

Vocational certificationOR
Bachelor's degreeOR
Master's degree

Languages

English – Business Fluent
German – Basic

Tools & Technologies

AWS HyperPod
AWS-Instanzen
Slurm
Kubernetes
GPU-Cluster
HPC-Umgebungen

Benefits

Competitive Pay

Attraktive Vergütung

Flexible Working

Flexible Arbeitszeiten

More Vacation Days

30 Tage Erholungsurlaub

Informal Culture

Flache Hierarchien
Tolle Kollegen

Team Events

Firmenevents

Corporate Discounts

Corporate Benefits Programm

Find the original job posting in its most current version here. Nejo automatically captured this job from the website of Neura Robotics GmbH and processed the information on Nejo with the help of AI for you. Despite careful analysis, some information may be incomplete or inaccurate. Please always verify all details in the original posting! Content and copyrights of the original posting belong to the advertising company.

Like this job?

Beta

Your Career Agent finds similar jobs for you every day.

Not a perfect match?

100+ Similar Jobs in Metzingen View all

Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Full-timeOn-siteSenior
Metzingen
Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Full-timeOn-siteSenior
Metzingen
Neura Robotics GmbH
AI Data Engineer(m/w/x)
Full-timeOn-siteSenior
Metzingen
Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Full-timeOn-siteSenior
Metzingen
Neura Robotics GmbH
AI Data Annotation Specialist(m/w/x)
Full-timeOn-siteExperienced
Metzingen

View all 100+ similar jobs

NENeura Robotics GmbH

last mo.