Site Reliability Engineer (AI)

MixMode
Vollzeit
Remote Senior
🗓 Veröffentlicht vor 5 Tagen
đź’°

remote-job.net Job-Zusammenfassung:
đź’¶ Gehalt: keine Angabe
⏰ Wöchentliche Arbeitszeit: Vollzeit
🔍 Empfohlene Erfahrung: Senior
🎓 Empfohlene Ausbildung: keine Angabe
đź“‹ Hauptaufgaben:
  • Sicherstellung der Zuverlässigkeit und Performance produktiver KI‑Systeme.
  • Refactoring und Härtung der Codebasis zur Verbesserung von Observability und Resilienz.
  • Entwicklung von Monitoring‑ und Debugging‑Lösungen sowie Produktionssetzung von Modellen.
âś… Hauptvoraussetzungen:
  • Mehrjährige Erfahrung mit verteilten Systemen und Produktionsumgebungen (SRE/Reliability Engineering).
  • Praxis in Kubernetes, Datenbank‑Schichten und Performance‑Optimierung.
  • Erfahrung mit Observability/Monitoring, Debugging und Zusammenarbeit mit ML‑Teams.
🏭 Branche: Cybersecurity

Ăśber das Unternehmen

MixMode ist ein führender Anbieter von KI-gestützten Cybersicherheitslösungen in großem Maßstab und verfolgt einen patentierten, kontextbewussten Third‑Wave‑KI‑Ansatz, der sich automatisch an dynamische Umgebungen anpasst.

Die MixMode‑Plattform bietet selbstüberwachende, Echtzeit‑Bedrohungserkennung für bekannte und unbekannte Bedrohungen in Cloud-, Hybrid‑ und On‑Premise‑Umgebungen. Große Organisationen mit umfangreichen Datenlasten – einschließlich Unternehmen, kritischer Infrastrukturen sowie US‑Regierungsstellen – vertrauen MixMode. Das Unternehmen hat seinen Hauptsitz in Santa Barbara, Kalifornien und wird von PSG und Entrada Ventures unterstützt.


Aufgaben
  • Verantwortung fĂĽr Zuverlässigkeit, Performance und Betriebszustand produktiver KI‑Systeme ĂĽbernehmen.
  • Refactoring und Härtung der existierenden KI‑Codebasis zur Verbesserung von Observability, Wartbarkeit und Resilienz.
  • Diagnose und Behebung von Problemen in verteilten Systemen (Latenz, Durchsatz, Datenpipelines, Ressourcenauslastung).
  • Entwurf und Implementierung von Monitoring-, Alerting‑ und Debugging‑Tools fĂĽr hochverfĂĽgbare Services.
  • Zusammenarbeit mit Forschern und ML‑Ingenieuren zur Produktionsreife und Skalierung von Modellen.
  • EinfĂĽhrung von Best Practices fĂĽr Testing, Deployment und Kapazitätsplanung.

Voraussetzungen
  • Nachgewiesene Erfahrung im Bereich Software Reliability/Distributed Systems mit Fokus auf Zuverlässigkeit, Performance und Skalierbarkeit.
  • Tiefes Verständnis bestehender verteilter Services ĂĽber Anwendungs-, Datenbank‑ und Kubernetes‑Schichten.
  • Erfahrung mit Observability‑Tools, Monitoring, Alerting und Debugging fĂĽr Produktionssysteme.
  • Kompetenz in Diagnose und Optimierung von Latenz, Durchsatz und Ressourcennutzung.
  • Erfahrungen in der Zusammenarbeit mit ML‑Forschungsteams und Produktionssetzung von Modellen.

Benefits

keine Angabe