Auf einen Blick
Senior Site Reliability Engineer: Du architekturierst Autonomous, Self-Healing Infrastructure für Global Production Systems, führst SLO-Definition durch und mentorst SRE Teams bei Anyscale.
💰 $210.000–300.000/Jahr
📊 Senior
🕒 Vollzeit
🌍 Hybrid
🗺️ Americas
- 5+ Jahre SRE/DevOps in High-Growth
- Large-Scale Distributed Systems Expertise
- Python/Go + Terraform Proficiency
- Production Kubernetes Experience
Kubernetes
Terraform
Python
Go
AWS/GCP/Azure
Observability
SRE
Infrastructure-as-Code
✅ Geeignet für
- Senior DevOps/SRE Engineers mit Architectural Ambition
- Technical Leads, die Org-Wide SRE Culture bauen möchten
- Infrastructure Architects mit Production Scale Erfahrung
🚫 Weniger geeignet
- Individual Contributor SREs ohne Leadership Erfahrung
- Kandidaten ohne Multi-Cloud Platform Erfahrung
- Pure Kubernetes Admins ohne Architectural Thinking
💡 Gut zu wissen
- San Francisco — Hybrid möglich aber Bay Area Basis erwartet
- Hypergrowth bedeutet schnelle Infra Iterationen: Yesterday's Scale ist Today's Problem
- SLO Definition ist Kunst + Science: Balance zwischen Engineering Capacity und Reliability ist zentral
- AI-Workloads sind Spikes: GPU/CPU Patterns unterscheiden sich stark von klassischen SaaS
Über das Unternehmen
Anyscale demokratisiert Distributed Computing mit Ray und baut die beste Plattform zum Ausführen von Ray in Production. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition unterstützt Anyscale OpenAI, Uber, Spotify, Instacart, Cruise mit Distributed Computing Infrastructure.
Deine Aufgaben
- Architektonische Strategie und Operational Excellence für Anyscale's Global Production Systems leiten
- Autonomous, Self-Healing Infrastructure designen die mit Scaling Goals alignen
- Unified Perspective auf Cloud Component Utilization entwickeln über diverse Needs
- Deployment Methodologies mit Reliability Goals alignen
- Observability Infrastructure für Metrics, Logging und Tracing mit Robust Monitoring implementieren
- Service Level Objectives (SLOs) und Error Budgets Organization-Wide definieren und championieren
- Best Practices und On-Call Systems implementieren für Efficient Incident Management
- Cloud-Based Services Deployment tracking und Issue Resolution Communication Channels etablieren
Deine Voraussetzungen
- Mindestens 5 Jahre Erfahrung in Site Reliability oder DevOps Role mit High-Growth Environments
- Deep Experience mit Large-Scale Distributed Systems und Microservices Architectures in Multi-Cloud
- Advanced Proficiency in mindestens einer Programming Language (z.B. Python, Go) und IaC Tools wie Terraform
- Hands-On Erfahrung mit Production-Grade Kubernetes Clusters
- Ability zu Mentor Junior Engineers, Lead Complex Technical Projects und Influence Engineering Culture
- Strong Ability zu Leverage Logging und Tracing Infrastructure für Long-Term Architectural Trends Identification