Senior Site Reliability Engineer

🏢 Chipcolate Website ↗

Vollzeit

Remote Senior

🗓 Veröffentlicht vor 2 Wochen

💰 90.000 € / Jahr

remote-job.net Job-Zusammenfassung:

💶 Gehalt: 90.000

⏰ Wöchentliche Arbeitszeit: Vollzeit

🔍 Empfohlene Erfahrung: Senior

🎓 Empfohlene Ausbildung: Keine formale Ausbildung erforderlich; nachgewiesene Praxiserfahrung oder OSS-Beiträge bevorzugt

📋 Hauptaufgaben:

Architektur und Betrieb einer hochverfügbaren, latenzarmen Multi-Cloud-Infrastruktur.

Skalierung und Betrieb tausender gleichzeitig laufender Agenten.

Aufbau von Observability und automatisierten Reliability-Prozessen (SLOs, Canary, Chaos).

✅ Hauptvoraussetzungen:

5+ Jahre Erfahrung in SRE/DevOps/Production Engineering.

Tiefes Wissen in Linux, Containern und PostgreSQL.

Erfahrungen mit IaC (Ansible, Terraform) und Programmierkenntnisse (Node/Python/Go/Rust).

🏭 Branche: Fintech

Über das Unternehmen
Chipcolate ist ein italienisches Unternehmen mit Hauptsitz in Mailand, bestehend aus erfahrenen Ingenieur:innen, das sich auf das Orchestrieren und Skalieren von verteilten Flotten (Edge-Geräte, Agenten, Server) spezialisiert hat.
Aktuell entwickelt Chipcolate eine agentenorientierte Plattform für hochdurchsatzfähige Finanzdienstleistungen. Das Unternehmen arbeitet agil, flexibel und ist stark engineering- und first-principles-getrieben.

Aufgaben

Architektur, Bereitstellung und Wartung einer verteilten Multi-Provider-Cloud-Infrastruktur zur Gewährleistung hoher Verfügbarkeit und niedriger Latenz.

Entwicklung langfristiger Lösungen zur Unterstützung tausender gleichzeitig ausgeführter Agenten.

Optimierung von Postgres-Datenbanken hinsichtlich Performance und Zuverlässigkeit (inkl. OLAP-Anwendungen).

Aufbau skalierbarer Observability-Stacks (Grafana / OpenTelemetry) mit umsetzbaren SLOs.

Einführung automatisierter Zuverlässigkeitsmaßnahmen: Blue/Green-Deployments, Canary-Rollouts, Chaos-Tests und Game Days.

Zusammenarbeit mit Backend-Teams zur Profilierung von Services, Beseitigung von Engpässen und Planung horizontaler Skalierung.

Kostenoptimierte Kapazitätsplanung und Implementierung von Security Best Practices.

Voraussetzungen

Must-have: Mindestens 5+ Jahre Erfahrung in SRE, DevOps oder Production Engineering; tiefes Wissen über Linux und Container; fundierte PostgreSQL-Kenntnisse; sichere Programmierkenntnisse in mindestens einer Sprache (Node, Python, Go oder Rust); hohe Kompetenz in Infrastructure-as-Code (Ansible, Terraform); Erfahrung mit Monitoring/Alerting und Kennzahlen (RED/USE).

Nice-to-have: Erfahrung mit Grafana-Observability-Stack; Erfahrung mit ereignisgesteuerten/agentenbasierten Architekturen; Betrieb von Multi-Region Active-Active-Setups; Erfahrung mit Supabase, DuckDB; Betrieb von Kubernetes-Clustern in großem Maßstab.

Kein Abschluss erforderlich — Nachweis durch ausgelieferte Software, OSS-Beiträge oder Code-Portfolio (z. B. GitHub).

Benefits

Flexible Arbeitszeiten & vollständig remote (innerhalb ±4 Stunden CET).

Schnell wachsendes Umfeld mit innovativem Anwendungsfeld.

24 Tage bezahlter Urlaub plus lokale Feiertage.

Wettbewerbsfähiges Gehalt (siehe Ausschreibung).

Home-Office-Budget.

Firmen-Laptop.

Spezielle Zusatzleistung, die im Bewerbungsprozess besprochen wird.

Source ⇲
We Work Remotely: Copywriting Jobs

Um dich zu bewerben, klicke hier.