Skip to content
Neuer Job?Nejo!

Dein persönlicher KI-Karriere-Agent

NENeura Robotics GmbH

GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)

Metzingen
VollzeitVor OrtSenior
AI/ML

Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.

Anforderungen

  • 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
  • Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
  • Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
  • Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
  • Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
  • Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
  • Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
  • Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil

Aufgaben

  • HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
  • HyperPod/Slurm-Orchestrierungsmodelle implementieren
  • HyperPod/EKS-Orchestrierungsmodelle implementieren
  • Strategien für Cluster-Stabilität designen und umsetzen
  • Node-Failure-Detection implementieren
  • Automatische Job-Recovery implementieren
  • Checkpoint-Koordination implementieren
  • Fehlertolerante Multi-Node-Training-Workflows implementieren
  • Workload-Priority-Framework aufbauen
  • End-to-End-GPU-Auslastung optimieren
  • Eng mit AWS HyperPod-Teams zusammenarbeiten
  • Self-Service-Tools für ML-Teams bereitstellen
  • Onboarding-Dokus erstellen
  • Trainingsmaterial erstellen
  • Interne Workshops durchführen
  • Cluster-Konfigurationen als Code verwalten
  • Umgebungen als Code verwalten
  • Kosten- und Kapazitätsstrategie verantworten
  • Spot-Management implementieren
  • Reserved-Instance-Planung umsetzen
  • Savings Plans implementieren
  • AWS-Commitment-Verhandlungen führen

Berufserfahrung

  • 5 Jahre

Ausbildung

  • Abgeschlossene BerufsausbildungODER
  • Bachelor-AbschlussODER
  • Master-Abschluss

Sprachen

  • Englischverhandlungssicher
  • DeutschGrundkenntnisse

Tools & Technologien

  • AWS HyperPod
  • AWS-Instanzen
  • Slurm
  • Kubernetes
  • GPU-Cluster
  • HPC-Umgebungen

Benefits

Attraktive Vergütung

  • Attraktive Vergütung

Flexibles Arbeiten

  • Flexible Arbeitszeiten

Mehr Urlaubstage

  • 30 Tage Erholungsurlaub

Lockere Unternehmenskultur

  • Flache Hierarchien
  • Tolle Kollegen

Team Events & Ausflüge

  • Firmenevents

Mitarbeiterrabatte

  • Corporate Benefits Programm
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Neura Robotics GmbH erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

  • Neura Robotics GmbH

    Foundation Model Distributed Training Expert(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Metzingen
  • Neura Robotics GmbH

    AI Data Engineer(m/w/x)

    Vollzeitnur vor OrtSenior
    Metzingen
  • Neura Robotics GmbH

    DevOps Engineer(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Metzingen
  • Neura Robotics GmbH

    Cloud Foundations Engineer - Account & Landing Zone(m/w/x)

    Vollzeitnur vor OrtSenior
    Metzingen
  • Neura Robotics GmbH

    Senior Cloud Architect(m/w/x)

    Vollzeitnur vor OrtSenior
    Metzingen
Alle 100+ ähnlichen Jobs ansehen

Nejo ist eine KI – Ergebnisse können unvollständig sein oder Fehler enthalten