Senior Site Reliability Engineer

Anyscale

San Francisco or Palo Alto, CA • Vor Ort • Senior • vor 1 Tagen

Site Reliability Engineer DevOps IT

Auf einen Blick

Senior Site Reliability Engineer: Du architekturierst Autonomous, Self-Healing Infrastructure für Global Production Systems, führst SLO-Definition durch und mentorst SRE Teams bei Anyscale.

💰 $210.000–300.000/Jahr 📊 Senior 🕒 Vollzeit 🌍 Hybrid 🗺️ Americas

5+ Jahre SRE/DevOps in High-Growth
Large-Scale Distributed Systems Expertise
Python/Go + Terraform Proficiency
Production Kubernetes Experience

Kubernetes Terraform Python Go AWS/GCP/Azure Observability SRE Infrastructure-as-Code

✅ Geeignet für

Senior DevOps/SRE Engineers mit Architectural Ambition
Technical Leads, die Org-Wide SRE Culture bauen möchten
Infrastructure Architects mit Production Scale Erfahrung

🚫 Weniger geeignet

Individual Contributor SREs ohne Leadership Erfahrung
Kandidaten ohne Multi-Cloud Platform Erfahrung
Pure Kubernetes Admins ohne Architectural Thinking

💡 Gut zu wissen

San Francisco — Hybrid möglich aber Bay Area Basis erwartet
Hypergrowth bedeutet schnelle Infra Iterationen: Yesterday's Scale ist Today's Problem
SLO Definition ist Kunst + Science: Balance zwischen Engineering Capacity und Reliability ist zentral
AI-Workloads sind Spikes: GPU/CPU Patterns unterscheiden sich stark von klassischen SaaS

Über das Unternehmen

Anyscale demokratisiert Distributed Computing mit Ray und baut die beste Plattform zum Ausführen von Ray in Production. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition unterstützt Anyscale OpenAI, Uber, Spotify, Instacart, Cruise mit Distributed Computing Infrastructure.

Deine Aufgaben

Architektonische Strategie und Operational Excellence für Anyscale's Global Production Systems leiten
Autonomous, Self-Healing Infrastructure designen die mit Scaling Goals alignen
Unified Perspective auf Cloud Component Utilization entwickeln über diverse Needs
Deployment Methodologies mit Reliability Goals alignen
Observability Infrastructure für Metrics, Logging und Tracing mit Robust Monitoring implementieren
Service Level Objectives (SLOs) und Error Budgets Organization-Wide definieren und championieren
Best Practices und On-Call Systems implementieren für Efficient Incident Management
Cloud-Based Services Deployment tracking und Issue Resolution Communication Channels etablieren

Deine Voraussetzungen

Mindestens 5 Jahre Erfahrung in Site Reliability oder DevOps Role mit High-Growth Environments
Deep Experience mit Large-Scale Distributed Systems und Microservices Architectures in Multi-Cloud
Advanced Proficiency in mindestens einer Programming Language (z.B. Python, Go) und IaC Tools wie Terraform
Hands-On Erfahrung mit Production-Grade Kubernetes Clusters
Ability zu Mentor Junior Engineers, Lead Complex Technical Projects und Influence Engineering Culture
Strong Ability zu Leverage Logging und Tracing Infrastructure für Long-Term Architectural Trends Identification

Über das Unternehmen

Deine Aufgaben

Deine Voraussetzungen

Ähnliche Stellen durchsuchen

Weitere Stellen bei Anyscale

Staff Software Engineer, Platform Infrastructure (Foundations)

Software Engineer, Platform Infrastructure (Foundations)

Software Engineer, Ray Data

Customer Engineer