Inference Engineer

*HQ - San Francisco, CA On-site Mid-level 9 days ago
Product Manager backend-developer DevOps Software Engineer
Salary 215,000 EUR / Jahr
Auf einen Blick

Cartesia sucht einen Inference Engineer zur Gestaltung und zum Aufbau der Low-Latency Model Serving Stack. Du wirst mit Research und Product Teams zusammenarbeiten, um cutting-edge AI Models schnell und zuverlässig bereitzustellen.

💰 ~$160.000–250.000/Jahr (geschätzt) 📊 Mid-Level 🕒 Vollzeit 🌍 Vor Ort 🗺️ Americas
  • Starke Distributed Systems Fundamentals
  • Erfahrung mit Inference Frameworks (vLLM, SGLang)
  • CUDA oder Triton Experience bevorzugt
  • Fähigkeit 0→1 zu bauen
inference engineering distributed systems cuda triton vlm python c++ ml systems

Gehalt geschätzt anhand Mid-level ML Systems Engineer bei Serie-B mit CUDA-Expertise; Basis 180-210k+Equity. Kein Gehalt in der Anzeige angegeben.

✅ Geeignet für
  • ML Systems Engineers mit Inference Background
  • Jemand mit vLLM oder SGLang Erfahrung
  • Backend Engineer, der zu ML Systems wechseln möchte
🚫 Weniger geeignet
  • Data Scientist ohne Systems Engineering Background
  • Jemand ohne CUDA/Low-Level Interest
  • Remote-only (in-person culture)
💡 Gut zu wissen
  • Inference ist kritischer Path zu Production bei Voice/TTS — latency-sensitiv
  • vLLM/SGLang sind neue Tools; mutu track record bei Cartesia kennen wichtig
  • Series-B bedeutet: Scale schnell, Qualität hoch

Über das Unternehmen

Cartesia ist ein KI-Modell-Unternehmen, das real-time multimodal intelligence mit Transformern und State Space Models aufbaut. Das Unternehmen sucht Inference Engineers zur Skalierung der Model Serving Stack.

Deine Aufgaben

  • Design und Build von low-latency, skalierbar und reliable model inference und serving stack
  • Close Collaboration mit Research Team und Product Engineers
  • Design und Build von robust inference infrastructure und monitoring
  • Significant Autonomy zur Gestaltung von Products

Deine Voraussetzungen

  • Starke Engineering-Fähigkeiten, komplexe Codebases navigieren
  • Erfahrung mit Large-Scale Distributed Systems mit hohen Anforderungen an Performance, Reliability, Observability
  • Technical Leadership mit Fähigkeit, 0→1 Ergebnisse zu liefern
  • Background in oder Erfahrung mit Inference Pipelines
  • Erfahrung implementieren state-of-the-art ML Models und Research
  • Preferable: vLLM, SGLang, Continuous Batching oder andere Inference Frameworks
  • Preferable: CUDA, Triton oder ähnliches

Benefits

  • Wettbewerbsfähige Basis-Kompensation mit Equity-Paket
  • Vollständig versicherte Krankenversicherung mit Zahn und Vision
  • 401(k) und Commuter Allowance
  • Flexible PTO und Meals