Senior Site Reliability Engineer

Vollzeit
Remote Senior
🗓 Veröffentlicht vor 2 Wochen
💰 90.000 € / Jahr

remote-job.net Job-Zusammenfassung:
💶 Gehalt: 90.000
⏰ Wöchentliche Arbeitszeit: Vollzeit
🔍 Empfohlene Erfahrung: Senior
🎓 Empfohlene Ausbildung: Keine formale Ausbildung erforderlich; nachgewiesene Praxiserfahrung oder OSS-Beiträge bevorzugt
📋 Hauptaufgaben:
  • Architektur und Betrieb einer hochverfügbaren, latenzarmen Multi-Cloud-Infrastruktur.
  • Skalierung und Betrieb tausender gleichzeitig laufender Agenten.
  • Aufbau von Observability und automatisierten Reliability-Prozessen (SLOs, Canary, Chaos).
✅ Hauptvoraussetzungen:
  • 5+ Jahre Erfahrung in SRE/DevOps/Production Engineering.
  • Tiefes Wissen in Linux, Containern und PostgreSQL.
  • Erfahrungen mit IaC (Ansible, Terraform) und Programmierkenntnisse (Node/Python/Go/Rust).
🏭 Branche: Fintech

Über das Unternehmen

Chipcolate ist ein italienisches Unternehmen mit Hauptsitz in Mailand, bestehend aus erfahrenen Ingenieur:innen, das sich auf das Orchestrieren und Skalieren von verteilten Flotten (Edge-Geräte, Agenten, Server) spezialisiert hat.

Aktuell entwickelt Chipcolate eine agentenorientierte Plattform für hochdurchsatzfähige Finanzdienstleistungen. Das Unternehmen arbeitet agil, flexibel und ist stark engineering- und first-principles-getrieben.


Aufgaben
  • Architektur, Bereitstellung und Wartung einer verteilten Multi-Provider-Cloud-Infrastruktur zur Gewährleistung hoher Verfügbarkeit und niedriger Latenz.
  • Entwicklung langfristiger Lösungen zur Unterstützung tausender gleichzeitig ausgeführter Agenten.
  • Optimierung von Postgres-Datenbanken hinsichtlich Performance und Zuverlässigkeit (inkl. OLAP-Anwendungen).
  • Aufbau skalierbarer Observability-Stacks (Grafana / OpenTelemetry) mit umsetzbaren SLOs.
  • Einführung automatisierter Zuverlässigkeitsmaßnahmen: Blue/Green-Deployments, Canary-Rollouts, Chaos-Tests und Game Days.
  • Zusammenarbeit mit Backend-Teams zur Profilierung von Services, Beseitigung von Engpässen und Planung horizontaler Skalierung.
  • Kostenoptimierte Kapazitätsplanung und Implementierung von Security Best Practices.

Voraussetzungen
  • Must-have: Mindestens 5+ Jahre Erfahrung in SRE, DevOps oder Production Engineering; tiefes Wissen über Linux und Container; fundierte PostgreSQL-Kenntnisse; sichere Programmierkenntnisse in mindestens einer Sprache (Node, Python, Go oder Rust); hohe Kompetenz in Infrastructure-as-Code (Ansible, Terraform); Erfahrung mit Monitoring/Alerting und Kennzahlen (RED/USE).
  • Nice-to-have: Erfahrung mit Grafana-Observability-Stack; Erfahrung mit ereignisgesteuerten/agentenbasierten Architekturen; Betrieb von Multi-Region Active-Active-Setups; Erfahrung mit Supabase, DuckDB; Betrieb von Kubernetes-Clustern in großem Maßstab.
  • Kein Abschluss erforderlich — Nachweis durch ausgelieferte Software, OSS-Beiträge oder Code-Portfolio (z. B. GitHub).

Benefits
  • Flexible Arbeitszeiten & vollständig remote (innerhalb ±4 Stunden CET).
  • Schnell wachsendes Umfeld mit innovativem Anwendungsfeld.
  • 24 Tage bezahlter Urlaub plus lokale Feiertage.
  • Wettbewerbsfähiges Gehalt (siehe Ausschreibung).
  • Home-Office-Budget.
  • Firmen-Laptop.
  • Spezielle Zusatzleistung, die im Bewerbungsprozess besprochen wird.

Source
We Work Remotely: Copywriting Jobs