Your personal AI career agent
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Requirements
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Tasks
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Work Experience
- 5 years
Education
- Vocational certificationOR
- Bachelor's degreeOR
- Master's degree
Languages
- English – Business Fluent
- German – Basic
Tools & Technologies
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Competitive Pay
- Attraktive Vergütung
Flexible Working
- Flexible Arbeitszeiten
More Vacation Days
- 30 Tage Erholungsurlaub
Informal Culture
- Flache Hierarchien
- Tolle Kollegen
Team Events
- Firmenevents
Corporate Discounts
- Corporate Benefits Programm
Not a perfect match?
- Neura Robotics GmbHFull-timeOn-siteExperiencedMetzingen
- Neura Robotics GmbH
AI Data Engineer(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
DevOps Engineer(m/w/x)
Full-timeOn-siteExperiencedMetzingen - Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Full-timeOn-siteSeniorMetzingen
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Requirements
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Tasks
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Work Experience
- 5 years
Education
- Vocational certificationOR
- Bachelor's degreeOR
- Master's degree
Languages
- English – Business Fluent
- German – Basic
Tools & Technologies
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Competitive Pay
- Attraktive Vergütung
Flexible Working
- Flexible Arbeitszeiten
More Vacation Days
- 30 Tage Erholungsurlaub
Informal Culture
- Flache Hierarchien
- Tolle Kollegen
Team Events
- Firmenevents
Corporate Discounts
- Corporate Benefits Programm
About the Company
Neura Robotics GmbH
Industry
Engineering
Description
Das Unternehmen ist ein Innovator der Robotikwelt, der kollaborative Roboter mit kognitiven Fähigkeiten entwickelt.
Not a perfect match?
- Neura Robotics GmbH
Foundation Model Distributed Training Expert(m/w/x)
Full-timeOn-siteExperiencedMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
DevOps Engineer(m/w/x)
Full-timeOn-siteExperiencedMetzingen - Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Full-timeOn-siteSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Full-timeOn-siteSeniorMetzingen