Skip to content
Neuer Job?Nejo!

Die KI-Suchmaschine für Jobs

NENebius

Senior Site Reliability Engineer — AI Studio (Inference Platform)(m/w/x)

Berlin
VollzeitVor OrtSenior
AI/ML

Optimizing AI inference stack reliability, tuning Kubernetes autoscalers for GPU efficiency in cloud computing for AI. Deep Kubernetes fluency, Prometheus, Grafana, and Terraform skills required. Flexible working arrangements.

Anforderungen

  • Deep fluency with Kubernetes
  • Fluency with Prometheus
  • Fluency with Grafana
  • Fluency with Terraform
  • Scripting in Python or Bash
  • Understanding of alert design and SLOs
  • Experience with GPU-heavy workloads
  • Background in MLOps or model-hosting platforms
  • Interest in building self-healing systems
  • Enjoyment of debugging performance
  • Collaboration with software engineers

Aufgaben

  • Own the reliability of the inference stack
  • Design and refine telemetry pipelines
  • Tune Kubernetes autoscalers for GPU efficiency
  • Craft Terraform modules for resilient clusters
  • Harden request-routing and retry logic
  • Detect, isolate, and remediate incidents quickly
  • Drive post-mortem culture to prevent recurrence
  • Scale the platform while meeting cost and reliability targets

Berufserfahrung

  • ca. 4 - 6 Jahre

Ausbildung

  • Bachelor-AbschlussODER
  • Master-Abschluss

Sprachen

  • Englischverhandlungssicher

Tools & Technologien

  • Kubernetes
  • Prometheus
  • Grafana
  • Terraform
  • Python
  • Bash
  • vLLM
  • Triton
  • Ray

Benefits

Flexibles Arbeiten

  • Flexible working arrangements

Sonstige Vorteile

  • Comprehensive benefits package

Karriere- und Weiterentwicklung

  • Opportunities for professional growth

Lockere Unternehmenskultur

  • Dynamic and collaborative work environment
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Nebius erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

  • SysEleven GmbH

    Senior Site Reliability Engineer Managed Kubernetes(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin
  • Prior Labs

    MLOps / ML Systems Engineer(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin, Freiburg im Breisgau
  • Prior Labs

    ML Engineer, Cloud Platform(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    Berlin, Freiburg im Breisgau
    ab 140.000 / Jahr
  • Workato

    Senior Infrastructure Engineer - Observability(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin, Frankfurt am Main, München
  • Trade Republic

    Staff Engineer – Cloud Platform(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin
Alle 100+ ähnlichen Jobs ansehen

Nejo ist eine KI – Ergebnisse können unvollständig sein oder Fehler enthalten

Diese Jobs könnten dich auch interessieren