NE
Nebius
1 Monat

Senior Site Reliability Engineer — AI Studio (Inference Platform)(m/w/x)

Vollzeit
Senior
AI/ML Job
Keine Angabe
Berlin

In this role, you will ensure the reliability and performance of the inference platform by designing telemetry pipelines, tuning Kubernetes, and crafting resilient infrastructure. The focus will be on maintaining smooth operations and quickly resolving incidents to support the demands of AI workloads.

Lass KI die perfekten Jobs für dich finden!

Lade deinen CV hoch und die Nejo-KI findet passende Stellenangebote für dich.

Anforderungen

  • Deep fluency with Kubernetes
  • Fluency with Prometheus
  • Fluency with Grafana
  • Fluency with Terraform
  • Scripting in Python or Bash
  • Understanding of alert design and SLOs
  • Experience with GPU-heavy workloads
  • Background in MLOps or model-hosting platforms
  • Interest in building self-healing systems
  • Enjoyment of debugging performance
  • Collaboration with software engineers
Keine Angabe

Berufserfahrung

ca. 4 – 6 Jahre

Deine Aufgaben

  • Own the reliability of the inference stack
  • Design and refine telemetry pipelines
  • Tune Kubernetes autoscalers for GPU efficiency
  • Craft Terraform modules for resilient clusters
  • Harden request-routing and retry logic
  • Detect, isolate, and remediate incidents quickly
  • Drive post-mortem culture to prevent recurrence
  • Scale the platform while meeting cost and reliability targets

Tools & Technologien

KubernetesPrometheusGrafanaTerraformPythonBashvLLMTritonRay

Sprachen

Englischverhandlungssicher

Deine Vorteile

Flexibles Arbeiten

  • Flexible working arrangements

Sonstige Vorteile

  • Comprehensive benefits package

Karriere- und Weiterentwicklung

  • Opportunities for professional growth

Lockere Unternehmenskultur

  • Dynamic and collaborative work environment
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Nebius erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

Ähnliche Jobs direkt in deine Inbox?

Noch nicht perfekt?
100+ Ähnliche Jobs in Berlin
  • Trade Republic
    Senior Site Reliability Engineer – Data and ML Platform(m/w/x)
    Vollzeit
    Senior
    Keine Angabe
    Berlin
  • Kombo
    Senior Site Reliability Engineer - Database(m/w/x)
    Vollzeit
    Senior
    Keine Angabe
    Berlin
  • SysEleven GmbH
    Senior Site Reliability Engineer Managed Kubernetes(m/w/x)
    Vollzeit
    Senior
    Keine Angabe
    Berlin
  • Prior Labs
    ML Engineer, Cloud Platform(m/w/x)
    Vollzeit
    Berufserfahren
    ab 140.000 / Jahr
    Berlin, Freiburg im Breisgau
  • Prior Labs
    ML Systems Engineer(m/w/x)
    Vollzeit
    Senior
    Keine Angabe
    Berlin