Neuer Job?Nejo!

Dein persönlicher KI-Karriere-Agent

NENebius

vor 6 Monaten

Senior Site Reliability Engineer — AI Studio (Inference Platform)(m/w/x)

Berlin

VollzeitVor OrtSenior

AI/ML

Nejo KI-Zusammenfassung

Jetzt bewerben

Optimizing AI inference stack reliability, tuning Kubernetes autoscalers for GPU efficiency in cloud computing for AI. Deep Kubernetes fluency, Prometheus, Grafana, and Terraform skills required. Flexible working arrangements.

Anforderungen

Deep fluency with Kubernetes
Fluency with Prometheus
Fluency with Grafana
Fluency with Terraform
Scripting in Python or Bash
Understanding of alert design and SLOs
Experience with GPU-heavy workloads
Background in MLOps or model-hosting platforms
Interest in building self-healing systems
Enjoyment of debugging performance
Collaboration with software engineers

Aufgaben

Own the reliability of the inference stack
Design and refine telemetry pipelines
Tune Kubernetes autoscalers for GPU efficiency
Craft Terraform modules for resilient clusters
Harden request-routing and retry logic
Detect, isolate, and remediate incidents quickly
Drive post-mortem culture to prevent recurrence
Scale the platform while meeting cost and reliability targets

Berufserfahrung

ca. 4 - 6 Jahre

Ausbildung

Bachelor-AbschlussODER
Master-Abschluss

Sprachen

Englisch – verhandlungssicher

Tools & Technologien

Kubernetes
Prometheus
Grafana
Terraform
Python
Bash
vLLM
Triton
Ray

Benefits

Flexibles Arbeiten

Flexible working arrangements

Sonstige Vorteile

Comprehensive benefits package

Karriere- und Weiterentwicklung

Opportunities for professional growth

Lockere Unternehmenskultur

Dynamic and collaborative work environment

Die Originalanzeige dieses Stellenangebotes in der aktuellsten Version findest du hier. Nejo hat diesen Job automatisch von der Website des Unternehmens Nebius erfasst und die Informationen auf Nejo mit Hilfe von KI für dich aufbereitet. Trotz sorgfältiger Analyse können einzelne Informationen unvollständig oder ungenau sein. Bitte prüfe immer alle Angaben in der Originalanzeige! Inhalte und Urheberrechte der Originalanzeige liegen beim ausschreibenden Unternehmen.

Gefällt dir diese Stelle?

Beta

Dein Career Agent findet täglich ähnliche Jobs für dich.

Noch nicht perfekt?

Air Apps
Site Reliability Engineer (SRE)(m/w/x)
Vollzeitnur vor OrtBerufserfahren
Berlin
1GLOBAL
Senior Site Reliability Engineer (SRE)(m/w/x)
Vollzeitnur vor OrtSenior
Berlin
Forto
Senior Site Reliability Engineer(m/w/x)
Vollzeitnur vor OrtSenior
Berlin
Prior Labs
Senior ML Infrastructure Engineer(m/w/x)
Vollzeitnur vor OrtSenior
Freiburg im Breisgau, Berlin
SysEleven GmbH
Senior Site Reliability Engineer Managed Kubernetes(m/w/x)
Vollzeitnur vor OrtSenior
Berlin

Alle 100+ ähnlichen Jobs ansehen

NENebius

vor 6 Monaten