Dein persönlicher KI-Karriere-Agent
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Anforderungen
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Aufgaben
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Berufserfahrung
- 5 Jahre
Ausbildung
- Abgeschlossene BerufsausbildungODER
- Bachelor-AbschlussODER
- Master-Abschluss
Sprachen
- Englisch – verhandlungssicher
- Deutsch – Grundkenntnisse
Tools & Technologien
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Attraktive Vergütung
- Attraktive Vergütung
Flexibles Arbeiten
- Flexible Arbeitszeiten
Mehr Urlaubstage
- 30 Tage Erholungsurlaub
Lockere Unternehmenskultur
- Flache Hierarchien
- Tolle Kollegen
Team Events & Ausflüge
- Firmenevents
Mitarbeiterrabatte
- Corporate Benefits Programm
Gefällt dir diese Stelle?
BetaDein Career Agent findet täglich ähnliche Jobs für dich.
Noch nicht perfekt?
- Neura Robotics GmbHVollzeitnur vor OrtSeniorMetzingen
- Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
People Operations Engineer(m/w/x)
Vollzeitnur vor OrtBerufserfahrenMetzingen
GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)
Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.
Anforderungen
- 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
- Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
- Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
- Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
- Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
- Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
- Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil
Aufgaben
- HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
- HyperPod/Slurm-Orchestrierungsmodelle implementieren
- HyperPod/EKS-Orchestrierungsmodelle implementieren
- Strategien für Cluster-Stabilität designen und umsetzen
- Node-Failure-Detection implementieren
- Automatische Job-Recovery implementieren
- Checkpoint-Koordination implementieren
- Fehlertolerante Multi-Node-Training-Workflows implementieren
- Workload-Priority-Framework aufbauen
- End-to-End-GPU-Auslastung optimieren
- Eng mit AWS HyperPod-Teams zusammenarbeiten
- Self-Service-Tools für ML-Teams bereitstellen
- Onboarding-Dokus erstellen
- Trainingsmaterial erstellen
- Interne Workshops durchführen
- Cluster-Konfigurationen als Code verwalten
- Umgebungen als Code verwalten
- Kosten- und Kapazitätsstrategie verantworten
- Spot-Management implementieren
- Reserved-Instance-Planung umsetzen
- Savings Plans implementieren
- AWS-Commitment-Verhandlungen führen
Berufserfahrung
- 5 Jahre
Ausbildung
- Abgeschlossene BerufsausbildungODER
- Bachelor-AbschlussODER
- Master-Abschluss
Sprachen
- Englisch – verhandlungssicher
- Deutsch – Grundkenntnisse
Tools & Technologien
- AWS HyperPod
- AWS-Instanzen
- Slurm
- Kubernetes
- GPU-Cluster
- HPC-Umgebungen
Benefits
Attraktive Vergütung
- Attraktive Vergütung
Flexibles Arbeiten
- Flexible Arbeitszeiten
Mehr Urlaubstage
- 30 Tage Erholungsurlaub
Lockere Unternehmenskultur
- Flache Hierarchien
- Tolle Kollegen
Team Events & Ausflüge
- Firmenevents
Mitarbeiterrabatte
- Corporate Benefits Programm
Gefällt dir diese Stelle?
BetaDein Career Agent findet täglich ähnliche Jobs für dich.
Über das Unternehmen
Neura Robotics GmbH
Branche
Engineering
Beschreibung
Das Unternehmen ist ein Innovator der Robotikwelt, der kollaborative Roboter mit kognitiven Fähigkeiten entwickelt.
Noch nicht perfekt?
- Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
AI Data Engineer(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Vollzeitnur vor OrtSeniorMetzingen - Neura Robotics GmbH
People Operations Engineer(m/w/x)
Vollzeitnur vor OrtBerufserfahrenMetzingen