Audio Inference Engineer, Model Efficiency

New York Remote Mid-Level 17.05.2026
backend-developer Data Science Software Engineer
Auf einen Blick

Audio Inference Engineer bei Cohere mit Fokus auf Model Efficiency. Entwickle High-Performance-Systeme für Audio-Processing mit realen Streaming-Workloads.

💰 ~$140.000–190.000/Jahr (geschätzt) 📊 Mid-Level 🕒 Vollzeit 🌍 Remote 🗺️ Americas
  • High-Performance Audio/ML-Inference-Erfahrung
  • C++ und Python Beherrschung
  • Deep Learning mit Audio/Sprache
  • GPU-Programmierung
C++ Python GPU Programming Audio ML Inference Frameworks vLLM TensorRT System Optimization

Gehalt geschätzt anhand Mid-Senior Audio/ML Engineer, US-basiert. Kein Gehalt in der Anzeige angegeben.

✅ Geeignet für
  • Systems Engineers mit ML-Fokus
  • GPU-Spezialisten für Inference
🚫 Weniger geeignet
  • Frontend-Entwickler
  • Kandidaten ohne GPU/CUDA-Erfahrung
💡 Gut zu wissen
  • Nur EST/PST Zeitzonen bevorzugt (nicht Europa)
  • Tiefe System-Level-Kenntnisse erforderlich
  • Audio/Sprache-Domain-Kenntnisse wichtig

Über das Unternehmen

Cohere ist ein führendes KI-Unternehmen mit Büros in Toronto, Montreal, San Francisco, New York, Paris, Seoul und London. Das Team konzentriert sich auf die Optimierung von Audio-Inference-Serving und die Verbesserung von Latenz, Durchsatz und Qualität.

Deine Aufgaben

  • Entwicklung von High-Performance Audio/ML-Inference-Systemen
  • Optimierung von Latenz, Durchsatz und Qualität für Audio-Modelle
  • Zusammenarbeit mit Training und Serving-Infrastruktur-Teams
  • Fokus auf Real-Time und Streaming Audio-Inference
  • Identifizierung und Lösung von System-Bottlenecks

Deine Voraussetzungen

  • Umfangreiche Erfahrung mit High-Performance Audio/ML-Inference-Systemen
  • Beherrschung von C++ und Python
  • Hands-On-Erfahrung mit Deep-Learning-Modellen für Audio, Sprache oder Sprach-Verarbeitung
  • GPU-Programmierung und Low-Level-System-Optimierung
  • Erfahrung mit Streaming-Architekturen und Inference-Frameworks wie vLLM oder TensorRT-LLM

Benefits

  • Offene Unternehmenskultur mit Fokus auf KI-Forschung
  • Wöchentliche Verpflegungszuschüsse
  • Volle Gesundheits- und Zahnversicherung mit Mental-Health-Budget
  • 6 Wochen Urlaub (30 Arbeitstage)
  • Remote-flexible Arbeit mit bevorzugten EST/PST Zeitzonen