C
Inference Engineer
Gehalt
215.000 EUR / Jahr
Auf einen Blick
Cartesia sucht einen Inference Engineer zur Gestaltung und zum Aufbau der Low-Latency Model Serving Stack. Du wirst mit Research und Product Teams zusammenarbeiten, um cutting-edge AI Models schnell und zuverlässig bereitzustellen.
💰 ~$160.000–250.000/Jahr (geschätzt)
📊 Mid-Level
🕒 Vollzeit
🌍 Vor Ort
🗺️ Americas
- Starke Distributed Systems Fundamentals
- Erfahrung mit Inference Frameworks (vLLM, SGLang)
- CUDA oder Triton Experience bevorzugt
- Fähigkeit 0→1 zu bauen
inference engineering
distributed systems
cuda
triton
vlm
python
c++
ml systems
Gehalt geschätzt anhand Mid-level ML Systems Engineer bei Serie-B mit CUDA-Expertise; Basis 180-210k+Equity. Kein Gehalt in der Anzeige angegeben.
✅ Geeignet für
- ML Systems Engineers mit Inference Background
- Jemand mit vLLM oder SGLang Erfahrung
- Backend Engineer, der zu ML Systems wechseln möchte
🚫 Weniger geeignet
- Data Scientist ohne Systems Engineering Background
- Jemand ohne CUDA/Low-Level Interest
- Remote-only (in-person culture)
💡 Gut zu wissen
- Inference ist kritischer Path zu Production bei Voice/TTS — latency-sensitiv
- vLLM/SGLang sind neue Tools; mutu track record bei Cartesia kennen wichtig
- Series-B bedeutet: Scale schnell, Qualität hoch
Über das Unternehmen
Cartesia ist ein KI-Modell-Unternehmen, das real-time multimodal intelligence mit Transformern und State Space Models aufbaut. Das Unternehmen sucht Inference Engineers zur Skalierung der Model Serving Stack.
Deine Aufgaben
- Design und Build von low-latency, skalierbar und reliable model inference und serving stack
- Close Collaboration mit Research Team und Product Engineers
- Design und Build von robust inference infrastructure und monitoring
- Significant Autonomy zur Gestaltung von Products
Deine Voraussetzungen
- Starke Engineering-Fähigkeiten, komplexe Codebases navigieren
- Erfahrung mit Large-Scale Distributed Systems mit hohen Anforderungen an Performance, Reliability, Observability
- Technical Leadership mit Fähigkeit, 0→1 Ergebnisse zu liefern
- Background in oder Erfahrung mit Inference Pipelines
- Erfahrung implementieren state-of-the-art ML Models und Research
- Preferable: vLLM, SGLang, Continuous Batching oder andere Inference Frameworks
- Preferable: CUDA, Triton oder ähnliches
Benefits
- Wettbewerbsfähige Basis-Kompensation mit Equity-Paket
- Vollständig versicherte Krankenversicherung mit Zahn und Vision
- 401(k) und Commuter Allowance
- Flexible PTO und Meals