Inference Engineer

Cartesia

*HQ - San Francisco, CA • On-site • Mid-level • 9 days ago

Product Manager backend-developer DevOps Software Engineer

Salary 215,000 EUR / Jahr

Auf einen Blick

Cartesia sucht einen Inference Engineer zur Gestaltung und zum Aufbau der Low-Latency Model Serving Stack. Du wirst mit Research und Product Teams zusammenarbeiten, um cutting-edge AI Models schnell und zuverlässig bereitzustellen.

💰 ~$160.000–250.000/Jahr (geschätzt) 📊 Mid-Level 🕒 Vollzeit 🌍 Vor Ort 🗺️ Americas

Starke Distributed Systems Fundamentals
Erfahrung mit Inference Frameworks (vLLM, SGLang)
CUDA oder Triton Experience bevorzugt
Fähigkeit 0→1 zu bauen

inference engineering distributed systems cuda triton vlm python c++ ml systems

Gehalt geschätzt anhand Mid-level ML Systems Engineer bei Serie-B mit CUDA-Expertise; Basis 180-210k+Equity. Kein Gehalt in der Anzeige angegeben.

✅ Geeignet für

ML Systems Engineers mit Inference Background
Jemand mit vLLM oder SGLang Erfahrung
Backend Engineer, der zu ML Systems wechseln möchte

🚫 Weniger geeignet

Data Scientist ohne Systems Engineering Background
Jemand ohne CUDA/Low-Level Interest
Remote-only (in-person culture)

💡 Gut zu wissen

Inference ist kritischer Path zu Production bei Voice/TTS — latency-sensitiv
vLLM/SGLang sind neue Tools; mutu track record bei Cartesia kennen wichtig
Series-B bedeutet: Scale schnell, Qualität hoch

Über das Unternehmen

Cartesia ist ein KI-Modell-Unternehmen, das real-time multimodal intelligence mit Transformern und State Space Models aufbaut. Das Unternehmen sucht Inference Engineers zur Skalierung der Model Serving Stack.

Deine Aufgaben

Design und Build von low-latency, skalierbar und reliable model inference und serving stack
Close Collaboration mit Research Team und Product Engineers
Design und Build von robust inference infrastructure und monitoring
Significant Autonomy zur Gestaltung von Products

Deine Voraussetzungen

Starke Engineering-Fähigkeiten, komplexe Codebases navigieren
Erfahrung mit Large-Scale Distributed Systems mit hohen Anforderungen an Performance, Reliability, Observability
Technical Leadership mit Fähigkeit, 0→1 Ergebnisse zu liefern
Background in oder Erfahrung mit Inference Pipelines
Erfahrung implementieren state-of-the-art ML Models und Research
Preferable: vLLM, SGLang, Continuous Batching oder andere Inference Frameworks
Preferable: CUDA, Triton oder ähnliches

Benefits

Wettbewerbsfähige Basis-Kompensation mit Equity-Paket
Vollständig versicherte Krankenversicherung mit Zahn und Vision
401(k) und Commuter Allowance
Flexible PTO und Meals

Über das Unternehmen

Deine Aufgaben

Deine Voraussetzungen

Benefits

Ähnliche Stellen durchsuchen

Weitere Stellen bei Cartesia

Business Recruiter

Founding Forward Deployed Engineer (India)

Product Manager, Infrastructure

GTM Strategist