Skip to content
Neuer Job?Nejo!

Dein persönlicher KI-Karriere-Agent

SPSpAItial

Machine Learning & Cloud Infra Engineer(m/w/x)

München
VollzeitVor OrtBerufserfahren
AI/ML
Data Science

Building 3D world models with generative AI on GPU clusters. ML infrastructure experience preferred. Multi-node, multi-GPU training operations.

Anforderungen

  • 3+ years infrastructure, platform, or cloud engineering experience
  • ML infrastructure experience strongly preferred
  • Hands-on GPU compute experience
  • GPU performance debugging experience
  • CUDA/NCCL concepts knowledge
  • GPU utilization understanding
  • Networking bottlenecks understanding
  • Profiling experience
  • Strong cloud environment operation experience
  • AWS, GCP, or Azure experience
  • Cloud networking experience
  • Cloud IAM experience
  • Cloud cost management experience
  • Containers and orchestration proficiency
  • Docker proficiency
  • Kubernetes proficiency
  • Infrastructure-as-code proficiency
  • Terraform proficiency
  • Strong scripting skills
  • Strong automation skills
  • Python scripting skills
  • Bash/PowerShell scripting skills
  • Distributed training familiarity
  • Modern ML stacks familiarity
  • PyTorch familiarity
  • DDP/FSDP familiarity
  • Monitoring tooling experience
  • Observability tooling experience
  • Prometheus/Grafana experience
  • OpenTelemetry experience
  • ELK experience
  • CI/CD experience for infra
  • CI/CD experience for ML workflows
  • CircleCI experience
  • GitHub Actions experience

Aufgaben

  • Design and implement scalable training systems
  • Operate GPU clusters for multi-node, multi-GPU training
  • Provision and maintain training environments
  • Support high-throughput training stacks
  • Ensure performance and stability in large runs
  • Build and optimize storage systems for petabyte-scale datasets
  • Enhance data throughput with caching and data locality
  • Package and deploy workloads using Docker and Kubernetes
  • Maintain infrastructure-as-code with Terraform
  • Implement monitoring and logging for cluster health
  • Define SLOs and on-call/incident response practices
  • Manage secrets and IAM for secure systems
  • Ensure secure network boundaries
  • Collaborate with ML researchers and engineers
  • Unblock training and improve developer experience
  • Support model evaluation and serving infrastructure
  • Facilitate smooth transitions from research to production

Berufserfahrung

  • 3 Jahre

Ausbildung

  • Abgeschlossene BerufsausbildungODER
  • Bachelor-AbschlussODER
  • Master-Abschluss

Sprachen

  • Englischverhandlungssicher

Tools & Technologien

  • AWS
  • GCP
  • Azure
  • Docker
  • Kubernetes
  • Terraform
  • Python
  • Bash
  • PowerShell
  • PyTorch
  • DDP
  • FSDP
  • Prometheus
  • Grafana
  • OpenTelemetry
  • ELK
  • CircleCI
  • GitHub Actions
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens SpAItial erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

  • Intrinsic

    Senior Software Engineer, ML Ops & Infrastructure(m/w/x)

    Vollzeitnur vor OrtSenior
    München
  • SpAItial

    Research Engineer(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    München
  • Helsing

    AI Research Engineer - ML Engineering(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Berlin, München
  • SpAItial

    Research Engineer - Graphics(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    München
  • SpAItial

    Research Scientist - World Models(m/w/x)

    Vollzeitnur vor OrtKeine Angabe
    München
Alle 100+ ähnlichen Jobs ansehen

Nejo ist eine KI – Ergebnisse können unvollständig sein oder Fehler enthalten

Diese Jobs könnten dich auch interessieren