Skip to content
Neuer Job?Nejo!

Die KI-Suchmaschine für Jobs

BLBlack Forest Labs

Member of Technical Staff - Training Cluster Engineer(m/w/x)

Freiburg im Breisgau
VollzeitVor OrtBerufserfahren
AI/ML

Designing and maintaining large-scale ML training clusters for generative image/video models, deploying SLURM for workload orchestration. Production experience managing SLURM and GPU clusters required; hands-on Docker or Kubernetes experience essential. Focus on critical ML infrastructure automation and cloud provider cluster availability.

Anforderungen

  • Production experience managing SLURM clusters
  • Hands-on experience with Docker or similar container runtimes
  • Proven track record managing GPU clusters
  • Understanding of distributed training patterns
  • Experience with Kubernetes for containerized workloads
  • Experience with high-performance interconnects
  • Track record of managing 1000+ GPU training runs
  • Familiarity with high-performance storage solutions
  • Experience running hybrid training/inference infrastructure
  • Strong scripting skills in Python and Bash

Aufgaben

  • Design and maintain large-scale ML training clusters
  • Deploy SLURM for distributed workload orchestration
  • Implement node health monitoring systems
  • Automate failure detection and recovery workflows
  • Ensure cluster availability with cloud providers
  • Monitor performance with colocation partners
  • Establish security best practices for ML infrastructure
  • Build developer-facing tools and APIs for ML workflows
  • Collaborate with ML research teams on infrastructure needs

Berufserfahrung

  • ca. 1 - 4 Jahre

Ausbildung

  • Abgeschlossene BerufsausbildungODER
  • Bachelor-AbschlussODER
  • Master-Abschluss

Sprachen

  • Englischverhandlungssicher

Tools & Technologien

  • SLURM
  • Docker
  • Kubernetes
  • InfiniBand
  • RoCE
  • NCCL
  • Python
  • Bash
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Black Forest Labs erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

  • Black Forest Labs

    Member of Technical Staff - Large scale data infrastructure(m/w/x)

    Vollzeitnur vor OrtSenior
    Freiburg im Breisgau
  • Prior Labs

    MLOps / ML Systems Engineer(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin, Freiburg im Breisgau
  • Prior Labs

    ML Engineer, Cloud Platform(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Berlin, Freiburg im Breisgau
    ab 140.000 / Jahr
  • Prior Labs

    ML Engineer, Foundation Model(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Berlin, Freiburg im Breisgau
    ab 120.000 / Jahr
  • Black Forest Labs

    Developer Relations Engineer(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Freiburg im Breisgau
Alle 100+ ähnlichen Jobs ansehen

Nejo ist eine KI – Ergebnisse können unvollständig sein oder Fehler enthalten