Neuer Job?Nejo!

Die KI-Suchmaschine für Jobs

NE
Nebius
letzten Monat

Senior Site Reliability Engineer — AI Studio (Inference Platform)(m/w/x)

Berlin
VollzeitVor OrtSenior
AI/ML

Beschreibung

In this role, you will ensure the reliability and performance of the inference platform by designing telemetry pipelines, tuning Kubernetes, and crafting resilient infrastructure. The focus will be on maintaining smooth operations and quickly resolving incidents to support the demands of AI workloads.

Lass KI die perfekten Jobs für dich finden!

Lade deinen CV hoch und die Nejo-KI findet passende Stellenangebote für dich.

Anforderungen

  • Deep fluency with Kubernetes
  • Fluency with Prometheus
  • Fluency with Grafana
  • Fluency with Terraform
  • Scripting in Python or Bash
  • Understanding of alert design and SLOs
  • Experience with GPU-heavy workloads
  • Background in MLOps or model-hosting platforms
  • Interest in building self-healing systems
  • Enjoyment of debugging performance
  • Collaboration with software engineers

Berufserfahrung

ca. 4 - 6 Jahre

Aufgaben

  • Own the reliability of the inference stack
  • Design and refine telemetry pipelines
  • Tune Kubernetes autoscalers for GPU efficiency
  • Craft Terraform modules for resilient clusters
  • Harden request-routing and retry logic
  • Detect, isolate, and remediate incidents quickly
  • Drive post-mortem culture to prevent recurrence
  • Scale the platform while meeting cost and reliability targets

Tools & Technologien

KubernetesPrometheusGrafanaTerraformPythonBashvLLMTritonRay

Sprachen

Englischverhandlungssicher

Benefits

Flexibles Arbeiten

  • Flexible working arrangements

Sonstige Vorteile

  • Comprehensive benefits package

Karriere- und Weiterentwicklung

  • Opportunities for professional growth

Lockere Unternehmenskultur

  • Dynamic and collaborative work environment
Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Nebius erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.
Noch nicht perfekt?
100+ Ähnliche Jobs in Berlin
  • Trade Republic

    Senior Site Reliability Engineer – Data and ML Platform(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin
  • SysEleven GmbH

    Senior Site Reliability Engineer Managed Kubernetes(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin
  • Prior Labs

    ML Engineer, Cloud Platform(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    ab 140.000 / Jahr
    Berlin, Freiburg im Breisgau
  • Prior Labs

    MLOps / ML Systems Engineer(m/w/x)

    Vollzeitnur vor OrtSenior
    Berlin, Freiburg im Breisgau
  • Langdock

    Platform Engineer(m/w/x)

    Vollzeitnur vor OrtBerufserfahren
    ab 120.000 / Jahr
    Berlin
100+ Alle ähnlichen Jobs ansehen