AI Reliability Engineer

🏢 MixMode

Vollzeit

Remote Senior

🗓 Veröffentlicht vor 1 Monat

💰

remote-job.net Job-Zusammenfassung:

💶 Gehalt: keine Angabe

⏰ Wöchentliche Arbeitszeit: Vollzeit

🔍 Empfohlene Erfahrung: Senior

🎓 Empfohlene Ausbildung: keine Angabe

📋 Hauptaufgaben:

Verantwortung für Zuverlässigkeit und Performance produktiver KI‑Systeme.

Refactoring und Härtung des AI‑Codebases zur Verbesserung von Observability und Wartbarkeit.

Design und Aufbau von Monitoring‑/Alerting‑Lösungen und Produktionssetzung von ML‑Modellen.

✅ Hauptvoraussetzungen:

Mehrjährige Erfahrung mit verteilten Systemen und Performance‑Optimierung.

Kenntnisse in Kubernetes, Datenbank‑ und Produktionsinfrastruktur.

Erfahrung mit Observability, Debugging und Zusammenarbeit mit ML‑Teams.

🏭 Branche: Cybersecurity

Über das Unternehmen
MixMode ist ein führender Anbieter von KI-gestützten Cybersicherheitslösungen in großem Maßstab und verfolgt einen patentierten, kontextbewussten Third‑Wave‑AI‑Ansatz, der selbstlernend dynamische Umgebungen adaptiert.
Die Plattform liefert selbstüberwachende, Echtzeit‑Erkennung für bekannte und unbekannte Bedrohungen über Cloud-, Hybrid‑ und On‑Premises‑Umgebungen. Große Organisationen mit umfangreichen Datenaufkommen – einschließlich Unternehmen, kritischer Infrastrukturen sowie Teilen der US‑Regierung und Geheimdienste – vertrauen MixMode zum Schutz ihrer wichtigsten Assets. MixMode wird von PSG und Entrada Ventures unterstützt und hat seinen Hauptsitz in Santa Barbara, Kalifornien.

Aufgaben

Gesamtverantwortung für Zuverlässigkeit, Performance und operative Gesundheit produktiver KI‑Systeme.

Refactoring und Härtung des bestehenden AI‑Codebases zur Verbesserung von Observability, Wartbarkeit und Resilienz.

Diagnose und Behebung von Problemen in verteilten Systemen (Latenz, Durchsatz, Datenpipelines, Ressourcenverbrauch).

Design und Implementierung von Monitoring-, Alerting‑ und Debugging‑Werkzeugen für hochverfügbare Dienste.

Zusammenarbeit mit ML‑Forschern und ML‑Engineers zur Skalierung und Produktionsreife von Modellen.

Einführung und Etablierung von Best Practices für Testing, Deployment und Kapazitätsplanung.

Voraussetzungen

Mehrjährige Erfahrung als Software/Reliability Engineer mit Fokus auf verteilte Systeme und Produktionsinfrastrukturen.

Fundierte Kenntnisse in Kubernetes, Infrastruktur‑Orchestrierung und datenbankbezogenen Systemschichten.

Erfahrung mit Observability‑Tools (Monitoring, Tracing, Logging) und Performance‑Tuning.

Erfahrung mit Datenpipelines, Skalierbarkeit sowie Debugging in verteilten Umgebungen.

Erfahrung in der Zusammenarbeit mit ML‑Teams und dem Operationalisieren von ML‑Modellen.

Starke Problemanalyse‑ und Kommunikationsfähigkeiten.

Benefits
keine Angabe

Um dich zu bewerben, klicke hier.