AI Reliability Engineer

MixMode
Vollzeit
Remote Senior
🗓 Veröffentlicht vor 1 Monat
đź’°

remote-job.net Job-Zusammenfassung:
đź’¶ Gehalt: keine Angabe
⏰ Wöchentliche Arbeitszeit: Vollzeit
🔍 Empfohlene Erfahrung: Senior
🎓 Empfohlene Ausbildung: keine Angabe
đź“‹ Hauptaufgaben:
  • Verantwortung fĂĽr Zuverlässigkeit und Performance produktiver KI‑Systeme.
  • Refactoring und Härtung des AI‑Codebases zur Verbesserung von Observability und Wartbarkeit.
  • Design und Aufbau von Monitoring‑/Alerting‑Lösungen und Produktionssetzung von ML‑Modellen.
âś… Hauptvoraussetzungen:
  • Mehrjährige Erfahrung mit verteilten Systemen und Performance‑Optimierung.
  • Kenntnisse in Kubernetes, Datenbank‑ und Produktionsinfrastruktur.
  • Erfahrung mit Observability, Debugging und Zusammenarbeit mit ML‑Teams.
🏭 Branche: Cybersecurity

Ăśber das Unternehmen

MixMode ist ein führender Anbieter von KI-gestützten Cybersicherheitslösungen in großem Maßstab und verfolgt einen patentierten, kontextbewussten Third‑Wave‑AI‑Ansatz, der selbstlernend dynamische Umgebungen adaptiert.

Die Plattform liefert selbstüberwachende, Echtzeit‑Erkennung für bekannte und unbekannte Bedrohungen über Cloud-, Hybrid‑ und On‑Premises‑Umgebungen. Große Organisationen mit umfangreichen Datenaufkommen – einschließlich Unternehmen, kritischer Infrastrukturen sowie Teilen der US‑Regierung und Geheimdienste – vertrauen MixMode zum Schutz ihrer wichtigsten Assets. MixMode wird von PSG und Entrada Ventures unterstützt und hat seinen Hauptsitz in Santa Barbara, Kalifornien.


Aufgaben
  • Gesamtverantwortung fĂĽr Zuverlässigkeit, Performance und operative Gesundheit produktiver KI‑Systeme.
  • Refactoring und Härtung des bestehenden AI‑Codebases zur Verbesserung von Observability, Wartbarkeit und Resilienz.
  • Diagnose und Behebung von Problemen in verteilten Systemen (Latenz, Durchsatz, Datenpipelines, Ressourcenverbrauch).
  • Design und Implementierung von Monitoring-, Alerting‑ und Debugging‑Werkzeugen fĂĽr hochverfĂĽgbare Dienste.
  • Zusammenarbeit mit ML‑Forschern und ML‑Engineers zur Skalierung und Produktionsreife von Modellen.
  • EinfĂĽhrung und Etablierung von Best Practices fĂĽr Testing, Deployment und Kapazitätsplanung.

Voraussetzungen
  • Mehrjährige Erfahrung als Software/Reliability Engineer mit Fokus auf verteilte Systeme und Produktionsinfrastrukturen.
  • Fundierte Kenntnisse in Kubernetes, Infrastruktur‑Orchestrierung und datenbankbezogenen Systemschichten.
  • Erfahrung mit Observability‑Tools (Monitoring, Tracing, Logging) und Performance‑Tuning.
  • Erfahrung mit Datenpipelines, Skalierbarkeit sowie Debugging in verteilten Umgebungen.
  • Erfahrung in der Zusammenarbeit mit ML‑Teams und dem Operationalisieren von ML‑Modellen.
  • Starke Problemanalyse‑ und Kommunikationsfähigkeiten.

Benefits

keine Angabe