Skip to content
New Job?Nejo!

Your personal AI career agent

NENeura Robotics GmbH

GPU Cluster Engineer - Large-Scale AI Training Infrastructure(m/w/x)

Metzingen
Full-timeOn-siteSenior
AI/ML

Aufbau und Weiterentwicklung von HyperPod-Clustern für KI-Training mit Fokus auf Slurm und EKS-Orchestrierung. 5+ Jahre Erfahrung im GPU-Cluster-/HPC-Infrastruktur-Engineering erforderlich. 30 Tage Urlaub, flexible Arbeitszeiten.

Requirements

  • 5+ Jahre Infrastructure-/Systems-Engineering-Erfahrung, Fokus auf GPU-Cluster/HPC
  • Tiefe Erfahrung mit AWS HyperPod und AWS-Instanzen; HyperPod-Erfahrung von Vorteil
  • Solides Verständnis von Slurm und Kubernetes; Bewertung von Trade-offs für GPU-Workloads
  • Praktisches Wissen über Distributed Training; Durchsatzoptimierung und Debugging
  • Erfahrung in Self-Service-Tool-Entwicklung und technischer Dokumentation; Zugänglichmachung komplexer Infrastruktur
  • Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab
  • Zusammenarbeit über Teamgrenzen hinweg mit ML-Forschenden, Product, Finance, Cloud-Vendors
  • Sehr gute Englischkenntnisse; Deutschkenntnisse von Vorteil

Tasks

  • HyperPod-Cluster aufsetzen, konfigurieren und weiterentwickeln
  • HyperPod/Slurm-Orchestrierungsmodelle implementieren
  • HyperPod/EKS-Orchestrierungsmodelle implementieren
  • Strategien für Cluster-Stabilität designen und umsetzen
  • Node-Failure-Detection implementieren
  • Automatische Job-Recovery implementieren
  • Checkpoint-Koordination implementieren
  • Fehlertolerante Multi-Node-Training-Workflows implementieren
  • Workload-Priority-Framework aufbauen
  • End-to-End-GPU-Auslastung optimieren
  • Eng mit AWS HyperPod-Teams zusammenarbeiten
  • Self-Service-Tools für ML-Teams bereitstellen
  • Onboarding-Dokus erstellen
  • Trainingsmaterial erstellen
  • Interne Workshops durchführen
  • Cluster-Konfigurationen als Code verwalten
  • Umgebungen als Code verwalten
  • Kosten- und Kapazitätsstrategie verantworten
  • Spot-Management implementieren
  • Reserved-Instance-Planung umsetzen
  • Savings Plans implementieren
  • AWS-Commitment-Verhandlungen führen

Work Experience

  • 5 years

Education

  • Vocational certificationOR
  • Bachelor's degreeOR
  • Master's degree

Languages

  • EnglishBusiness Fluent
  • GermanBasic

Tools & Technologies

  • AWS HyperPod
  • AWS-Instanzen
  • Slurm
  • Kubernetes
  • GPU-Cluster
  • HPC-Umgebungen

Benefits

Competitive Pay

  • Attraktive Vergütung

Flexible Working

  • Flexible Arbeitszeiten

More Vacation Days

  • 30 Tage Erholungsurlaub

Informal Culture

  • Flache Hierarchien
  • Tolle Kollegen

Team Events

  • Firmenevents

Corporate Discounts

  • Corporate Benefits Programm
Find the original job posting in its most current version here. Nejo automatically captured this job from the website of Neura Robotics GmbH and processed the information on Nejo with the help of AI for you. Despite careful analysis, some information may be incomplete or inaccurate. Please always verify all details in the original posting! Content and copyrights of the original posting belong to the advertising company.

  • Neura Robotics GmbH

    Foundation Model Distributed Training Expert(m/w/x)

    Full-timeOn-siteExperienced
    Metzingen
  • Neura Robotics GmbH

    AI Data Engineer(m/w/x)

    Full-timeOn-siteSenior
    Metzingen
  • Neura Robotics GmbH

    DevOps Engineer(m/w/x)

    Full-timeOn-siteExperienced
    Metzingen
  • Neura Robotics GmbH

    Cloud Foundations Engineer - Account & Landing Zone(m/w/x)

    Full-timeOn-siteSenior
    Metzingen
  • Neura Robotics GmbH

    Senior Cloud Architect(m/w/x)

    Full-timeOn-siteSenior
    Metzingen
View all 100+ similar jobs

Nejo is an AI – results may be incomplete or contain mistakes