Neuer Job?Nejo!

Dein persönlicher KI-Karriere-Agent

NENeura Robotics GmbH

letzten Monat

GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)

Metzingen

VollzeitVor OrtSenior

AI/ML

Nejo KI-Zusammenfassung

Jetzt bewerben

Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.

Anforderungen

5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil

Aufgaben

HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
HyperPod/Slurm-Orchestrierungsmodelle implementieren
HyperPod/EKS-Orchestrierungsmodelle implementieren
Strategien für Cluster-Stabilität designen und umsetzen
Node-Failure-Detection implementieren
Automatische Job-Recovery implementieren
Checkpoint-Koordination implementieren
Fehlertolerante Multi-Node-Training-Workflows implementieren
Workload-Priority-Framework aufbauen
End-to-End-GPU-Auslastung optimieren
Eng mit AWS HyperPod-Teams zusammenarbeiten
Self-Service-Tools für ML-Teams bereitstellen
Onboarding-Dokus erstellen
Trainingsmaterial erstellen
Interne Workshops durchführen
Cluster-Konfigurationen als Code verwalten
Umgebungen als Code verwalten
Kosten- und Kapazitätsstrategie verantworten
Spot-Management implementieren
Reserved-Instance-Planung umsetzen
Savings Plans implementieren
AWS-Commitment-Verhandlungen führen

Berufserfahrung

5 Jahre

Ausbildung

Abgeschlossene BerufsausbildungODER
Bachelor-AbschlussODER
Master-Abschluss

Sprachen

Englisch – verhandlungssicher
Deutsch – Grundkenntnisse

Tools & Technologien

AWS HyperPod
AWS-Instanzen
Slurm
Kubernetes
GPU-Cluster
HPC-Umgebungen

Benefits

Attraktive Vergütung

Attraktive Vergütung

Flexibles Arbeiten

Flexible Arbeitszeiten

Mehr Urlaubstage

30 Tage Erholungsurlaub

Lockere Unternehmenskultur

Flache Hierarchien
Tolle Kollegen

Team Events & Ausflüge

Firmenevents

Mitarbeiterrabatte

Corporate Benefits Programm

Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Neura Robotics GmbH erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

Gefällt dir diese Stelle?

Beta

Dein Career Agent findet täglich ähnliche Jobs für dich.

Noch nicht perfekt?

Neura Robotics GmbH
Senior Cloud Architect(m/w/x)
Vollzeitnur vor OrtSenior
Metzingen
Neura Robotics GmbH
Cloud Foundations Engineer - Account & Landing Zone(m/w/x)
Vollzeitnur vor OrtSenior
Metzingen
Neura Robotics GmbH
AI Data Engineer(m/w/x)
Vollzeitnur vor OrtSenior
Metzingen
Neura Robotics GmbH
Cloud Backend Engineer - NEURA Gym Platform(m/w/x)
Vollzeitnur vor OrtSenior
Metzingen
Neura Robotics GmbH
People Operations Engineer(m/w/x)
Vollzeitnur vor OrtBerufserfahren
Metzingen

Alle 100+ ähnlichen Jobs ansehen

NENeura Robotics GmbH

letzten Monat