Site Reliability Engineer (SRE)

San Francisco Vor Ort Mid-Level vor 7 Tagen
Site Reliability Engineer backend-developer DevOps Software Engineer
Gehalt 247.500 EUR / Jahr
Auf einen Blick

SRE-Rolle bei Baseten für Multi-Cloud Kubernetes-Infrastruktur. Baue Observability-Systeme und Automationen für ein ML-Inferenz-Plattform.

💰 $160.000–240.000/Jahr 📊 Mid-Level 🕒 Vollzeit 🌍 Vor Ort 🗺️ Americas
  • Kubernetes Expertise
  • Observability Tools
  • Infrastructure-as-Code
  • Incident Response Erfahrung
Kubernetes Prometheus Grafana Terraform GitOps Python Incident Response Observability
✅ Geeignet für
  • DevOps Engineers mit Kubernetes-Fokus
  • SREs mit Observability Expertise
  • Infrastruktur-Automatisierungs-Spezialisten
🚫 Weniger geeignet
  • Anfänger ohne Produktions-Erfahrung
  • Reine Netzwerk-Administratoren
  • Personen ohne Observability-Know-how
💡 Gut zu wissen
  • GPU-Infrastruktur hat spezielle Anforderungen
  • Multi-Cloud Komplexität erhöht Anforderungen
  • San Francisco Präsenz wahrscheinlich

Über das Unternehmen

Baseten baut AI Inferenz Infrastruktur für Mission-Critical Anwendungen. Die Serie E über 300 Millionen Dollar wurde gerade abgeschlossen.

Deine Aufgaben

  • Zuverlässigkeit der Multi-Cloud Kubernetes-Infrastruktur in Produktion sichern
  • Observability-Infrastruktur bauen - Metriken, Logging, Dashboards, Alerting als Code
  • Runbooks für wiederkehrende Fehlermuster schreiben und verbessern
  • Hochfrequente Fehler-Muster in Automatisierungen umwandeln
  • Runtime-Probleme bei Latenz, Memory, GPU-Auslastung diagnostizieren und beheben
  • SLOs und SLIs über Customer Workloads instrumentieren
  • Incident Response führen und Lernprozesse dokumentieren

Deine Voraussetzungen

  • Umfangreiche praktische Erfahrung mit Kubernetes (Multi-Cloud EKS/GKE von Vorteil)
  • Erfahrung mit skalierbarer Infrastruktur
  • Starke Grundlagen in Observability Tools: Prometheus, Grafana, Loki
  • Erfahrung mit Infrastructure-as-Code (Terraform, Helm) und GitOps (Flux CD, ArgoCD)
  • Erfahrung mit Runbook-Entwicklung und Incident Response
  • Komfort an der Schnittstelle zwischen Engineering und Operations
  • Kein Prior ML erforderlich, aber Neugierde erwünscht

Benefits

  • Wettbewerbsfähige Vergütung mit Equity
  • 100% Versicherungsdeckung
  • Flexible PTO mit Winterpause
  • Bezahlte Elternzeit
  • 401(k)-Matching