Dein persönlicher KI-Karriere-Agent
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Anforderungen
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Aufgaben
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Berufserfahrung
- 5 Jahre
Ausbildung
- Abgeschlossene BerufsausbildungODER
- Bachelor-AbschlussODER
- Master-Abschluss
Sprachen
- Englisch – verhandlungssicher
- Deutsch – Grundkenntnisse
Tools & Technologien
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Attraktive Vergütung
- Attraktive Vergütung
Flexibles Arbeiten
- Flexible Arbeitszeiten
Mehr Urlaubstage
- 30 Tage Erholungsurlaub
Lockere Unternehmenskultur
- Flache Hierarchien
- Tolle Kollegen
Team Events & Ausflüge
- Firmenevents
Mitarbeiterrabatte
- Corporate Benefits Programm
Noch nicht perfekt?
- Neura Robotics GmbHVollzeitnur vor OrtBerufserfahrenMetzingen
- Neura Robotics GmbH
DevOps Engineer(m/w/x)
Vollzeitnur vor OrtBerufserfahrenMetzingen - Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Anforderungen
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Aufgaben
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Berufserfahrung
- 5 Jahre
Ausbildung
- Abgeschlossene BerufsausbildungODER
- Bachelor-AbschlussODER
- Master-Abschluss
Sprachen
- Englisch – verhandlungssicher
- Deutsch – Grundkenntnisse
Tools & Technologien
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Attraktive Vergütung
- Attraktive Vergütung
Flexibles Arbeiten
- Flexible Arbeitszeiten
Mehr Urlaubstage
- 30 Tage Erholungsurlaub
Lockere Unternehmenskultur
- Flache Hierarchien
- Tolle Kollegen
Team Events & Ausflüge
- Firmenevents
Mitarbeiterrabatte
- Corporate Benefits Programm
Über das Unternehmen
Neura Robotics GmbH
Branche
Engineering
Beschreibung
Das Unternehmen ist ein Innovator der Robotikwelt, der kollaborative Roboter mit kognitiven Fähigkeiten entwickelt.
Noch nicht perfekt?
- Neura Robotics GmbH
Foundation Model Distributed Training Expert(m/w/x)
Vollzeitnur vor OrtBerufserfahrenMetzingen - Neura Robotics GmbH
DevOps Engineer(m/w/x)
Vollzeitnur vor OrtBerufserfahrenMetzingen - Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen