Site Reliability Engineer (AI)

🏢 MixMode

Vollzeit

Remote Senior

🗓 Veröffentlicht vor 5 Tagen

💰

remote-job.net Job-Zusammenfassung:

💶 Gehalt: keine Angabe

⏰ Wöchentliche Arbeitszeit: Vollzeit

🔍 Empfohlene Erfahrung: Senior

🎓 Empfohlene Ausbildung: keine Angabe

📋 Hauptaufgaben:

Sicherstellung der Zuverlässigkeit und Performance produktiver KI‑Systeme.

Refactoring und Härtung der Codebasis zur Verbesserung von Observability und Resilienz.

Entwicklung von Monitoring‑ und Debugging‑Lösungen sowie Produktionssetzung von Modellen.

✅ Hauptvoraussetzungen:

Mehrjährige Erfahrung mit verteilten Systemen und Produktionsumgebungen (SRE/Reliability Engineering).

Praxis in Kubernetes, Datenbank‑Schichten und Performance‑Optimierung.

Erfahrung mit Observability/Monitoring, Debugging und Zusammenarbeit mit ML‑Teams.

🏭 Branche: Cybersecurity

Über das Unternehmen
MixMode ist ein führender Anbieter von KI-gestützten Cybersicherheitslösungen in großem Maßstab und verfolgt einen patentierten, kontextbewussten Third‑Wave‑KI‑Ansatz, der sich automatisch an dynamische Umgebungen anpasst.
Die MixMode‑Plattform bietet selbstüberwachende, Echtzeit‑Bedrohungserkennung für bekannte und unbekannte Bedrohungen in Cloud-, Hybrid‑ und On‑Premise‑Umgebungen. Große Organisationen mit umfangreichen Datenlasten – einschließlich Unternehmen, kritischer Infrastrukturen sowie US‑Regierungsstellen – vertrauen MixMode. Das Unternehmen hat seinen Hauptsitz in Santa Barbara, Kalifornien und wird von PSG und Entrada Ventures unterstützt.

Aufgaben

Verantwortung für Zuverlässigkeit, Performance und Betriebszustand produktiver KI‑Systeme übernehmen.

Refactoring und Härtung der existierenden KI‑Codebasis zur Verbesserung von Observability, Wartbarkeit und Resilienz.

Diagnose und Behebung von Problemen in verteilten Systemen (Latenz, Durchsatz, Datenpipelines, Ressourcenauslastung).

Entwurf und Implementierung von Monitoring-, Alerting‑ und Debugging‑Tools für hochverfügbare Services.

Zusammenarbeit mit Forschern und ML‑Ingenieuren zur Produktionsreife und Skalierung von Modellen.

Einführung von Best Practices für Testing, Deployment und Kapazitätsplanung.

Voraussetzungen

Nachgewiesene Erfahrung im Bereich Software Reliability/Distributed Systems mit Fokus auf Zuverlässigkeit, Performance und Skalierbarkeit.

Tiefes Verständnis bestehender verteilter Services über Anwendungs-, Datenbank‑ und Kubernetes‑Schichten.

Erfahrung mit Observability‑Tools, Monitoring, Alerting und Debugging für Produktionssysteme.

Kompetenz in Diagnose und Optimierung von Latenz, Durchsatz und Ressourcennutzung.

Erfahrungen in der Zusammenarbeit mit ML‑Forschungsteams und Produktionssetzung von Modellen.

Benefits
keine Angabe

Um dich zu bewerben, klicke hier.