Your personal AI career agent
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Requirements
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Tasks
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Work Experience
- 5 years
Education
- Vocational certificationOR
- Bachelor's degreeOR
- Master's degree
Languages
- English – Business Fluent
- German – Basic
Tools & Technologies
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Competitive Pay
- Attraktive Vergütung
Flexible Working
- Flexible Arbeitszeiten
More Vacation Days
- 30 Tage Erholungsurlaub
Informal Culture
- Flache Hierarchien
- Tolle Kollegen
Team Events
- Firmenevents
Corporate Discounts
- Corporate Benefits Programm
Like this job?
BetaYour Career Agent finds similar jobs for you every day.
Not a perfect match?
- Neura Robotics GmbHFull-timeOn-siteSeniorMetzingen
- Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
AI Data Annotation Specialist(m/w/x)
Full-timeOn-siteExperiencedMetzingen
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Requirements
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Tasks
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Work Experience
- 5 years
Education
- Vocational certificationOR
- Bachelor's degreeOR
- Master's degree
Languages
- English – Business Fluent
- German – Basic
Tools & Technologies
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Competitive Pay
- Attraktive Vergütung
Flexible Working
- Flexible Arbeitszeiten
More Vacation Days
- 30 Tage Erholungsurlaub
Informal Culture
- Flache Hierarchien
- Tolle Kollegen
Team Events
- Firmenevents
Corporate Discounts
- Corporate Benefits Programm
Like this job?
BetaYour Career Agent finds similar jobs for you every day.
About the Company
Neura Robotics GmbH
Industry
Engineering
Description
Das Unternehmen ist ein Innovator der Robotikwelt, der kollaborative Roboter mit kognitiven Fähigkeiten entwickelt.
Not a perfect match?
- Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
AI Data Annotation Specialist(m/w/x)
Full-timeOn-siteExperiencedMetzingen