Senior Site Reliability Engineer

San Francisco or Palo Alto, CA Vor Ort Senior vor 1 Tagen
Site Reliability Engineer DevOps IT
Auf einen Blick

Senior Site Reliability Engineer: Du architekturierst Autonomous, Self-Healing Infrastructure für Global Production Systems, führst SLO-Definition durch und mentorst SRE Teams bei Anyscale.

💰 $210.000–300.000/Jahr 📊 Senior 🕒 Vollzeit 🌍 Hybrid 🗺️ Americas
  • 5+ Jahre SRE/DevOps in High-Growth
  • Large-Scale Distributed Systems Expertise
  • Python/Go + Terraform Proficiency
  • Production Kubernetes Experience
Kubernetes Terraform Python Go AWS/GCP/Azure Observability SRE Infrastructure-as-Code
✅ Geeignet für
  • Senior DevOps/SRE Engineers mit Architectural Ambition
  • Technical Leads, die Org-Wide SRE Culture bauen möchten
  • Infrastructure Architects mit Production Scale Erfahrung
🚫 Weniger geeignet
  • Individual Contributor SREs ohne Leadership Erfahrung
  • Kandidaten ohne Multi-Cloud Platform Erfahrung
  • Pure Kubernetes Admins ohne Architectural Thinking
💡 Gut zu wissen
  • San Francisco — Hybrid möglich aber Bay Area Basis erwartet
  • Hypergrowth bedeutet schnelle Infra Iterationen: Yesterday's Scale ist Today's Problem
  • SLO Definition ist Kunst + Science: Balance zwischen Engineering Capacity und Reliability ist zentral
  • AI-Workloads sind Spikes: GPU/CPU Patterns unterscheiden sich stark von klassischen SaaS

Über das Unternehmen

Anyscale demokratisiert Distributed Computing mit Ray und baut die beste Plattform zum Ausführen von Ray in Production. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition unterstützt Anyscale OpenAI, Uber, Spotify, Instacart, Cruise mit Distributed Computing Infrastructure.

Deine Aufgaben

  • Architektonische Strategie und Operational Excellence für Anyscale's Global Production Systems leiten
  • Autonomous, Self-Healing Infrastructure designen die mit Scaling Goals alignen
  • Unified Perspective auf Cloud Component Utilization entwickeln über diverse Needs
  • Deployment Methodologies mit Reliability Goals alignen
  • Observability Infrastructure für Metrics, Logging und Tracing mit Robust Monitoring implementieren
  • Service Level Objectives (SLOs) und Error Budgets Organization-Wide definieren und championieren
  • Best Practices und On-Call Systems implementieren für Efficient Incident Management
  • Cloud-Based Services Deployment tracking und Issue Resolution Communication Channels etablieren

Deine Voraussetzungen

  • Mindestens 5 Jahre Erfahrung in Site Reliability oder DevOps Role mit High-Growth Environments
  • Deep Experience mit Large-Scale Distributed Systems und Microservices Architectures in Multi-Cloud
  • Advanced Proficiency in mindestens einer Programming Language (z.B. Python, Go) und IaC Tools wie Terraform
  • Hands-On Erfahrung mit Production-Grade Kubernetes Clusters
  • Ability zu Mentor Junior Engineers, Lead Complex Technical Projects und Influence Engineering Culture
  • Strong Ability zu Leverage Logging und Tracing Infrastructure für Long-Term Architectural Trends Identification