Senior Site Reliability Engineer – Observability & Telemetry Platform

2100 NVIDIA USA
Vollzeit
📍 US, CA, Santa Clara
🗓

remote-job.net Job-Zusammenfassung:
💶 Gehalt: 130.000
⏰ Wöchentliche Arbeitszeit: Vollzeit
🔍 Empfohlene Erfahrung: Senior
🎓 Empfohlene Ausbildung: BS-Abschluss in Informatik oder einem verwandten technischen Bereich
📋 Hauptaufgaben:
  • Entwurf und Implementierung von Observability-Plattformen.
  • Lebenszyklusmanagement von Diensten.
  • Wartung und Überwachung von Systemen.
✅ Hauptvoraussetzungen:
  • BS-Abschluss oder gleichwertige Erfahrung.
  • 5+ Jahre Erfahrung in Infrastrukturautomatisierung.
  • Kenntnisse in mindestens einer Programmiersprache.
🏭 Branche: SaaS

Über das Unternehmen

NVIDIA ist der weltweite Marktführer im Bereich beschleunigtes Rechnen. NVIDIA hat das beschleunigte Rechnen erfunden, um Herausforderungen anzugehen, die niemand sonst lösen kann. Unsere Arbeit in den Bereichen KI und digitale Zwillinge transformiert die größten Industrien der Welt und hat tiefgreifende Auswirkungen auf die Gesellschaft.

NVIDIA fördert ein diverses Arbeitsumfeld und ist stolz darauf, ein Arbeitgeber für Chancengleichheit zu sein. Wir schätzen Vielfalt bei unseren aktuellen und zukünftigen Mitarbeitern und diskriminieren nicht (einschließlich bei unseren Einstellungs- und Beförderungspraktiken) aufgrund von Rasse, Religion, Hautfarbe, nationaler Herkunft, Geschlecht, Geschlechtsidentität, sexueller Orientierung, Alter, Familienstand, Veteranenstatus, Behinderungsstatus oder irgendeinem anderen durch das Gesetz geschützten Merkmal.


Aufgaben
  • Entwerfen, Implementieren und Unterstützen von betrieblichen und Zuverlässigkeitsaspekten einer großangelegten Observability- und Telemetrie-Sammelplattform mit Fokus auf Leistung im großen Maßstab, Echtzeitüberwachung, Protokollierung und Alarmierung.
  • Engagieren und Verbessern des gesamten Lebenszyklus von Diensten – von der Konzeption und dem Design über die Bereitstellung, den Betrieb bis hin zur Verfeinerung.
  • Unterstützen von Diensten, bevor sie live gehen, durch Aktivitäten wie Systemdesignberatung, Entwicklung von Softwaretools, Plattformen und Frameworks, Kapazitätsmanagement und Startüberprüfungen.
  • Warten von Diensten, sobald sie live sind, durch Messen und Überwachen von Verfügbarkeit, Latenz und allgemeiner Systemgesundheit.
  • Nachhaltige Skalierung von Systemen durch Mechanismen wie Automatisierung und Förderung von Änderungen, die Zuverlässigkeit und Geschwindigkeit verbessern.
  • Praktizieren einer nachhaltigen Vorfallreaktion und blameless Postmortems.
  • Teilnahme an einem Bereitschaftsdienst zur Unterstützung von Produktionssystemen.

Voraussetzungen
  • BS-Abschluss in Informatik oder einem verwandten technischen Bereich, der Programmierung umfasst (z.B. Physik oder Mathematik) oder gleichwertige Erfahrung.
  • Mindestens 5 Jahre Erfahrung mit Infrastrukturautomatisierung, Entwurf verteilter Systeme und Entwicklung von Tools für den Betrieb großangelegter privater oder öffentlicher Cloud-Systeme in der Produktion.
  • Mindestens 5 Jahre Erfahrung in der Bereitstellung grundlegender Infrastruktur- und Observability-Plattformen.
  • Erfahrung in einer oder mehreren der folgenden Programmiersprachen: Python, Go, Perl oder Ruby.
  • Tiefgehende Kenntnisse in Linux, Netzwerken und Containern.

Benefits
  • Chancengleichheit und ein diverses Arbeitsumfeld.
  • Möglichkeiten zur Eigenverantwortung und zur Arbeit an bedeutenden Projekten.
  • Aktive Förderung von Lernen und Wachstum durch Unterstützung und Mentoring.
  • Anspruch auf Eigenkapital und zusätzliche Leistungen.