Softwareingenieur Modell-Produkte

San Francisco Vor Ort Mid-Level vor 4 Tagen
Software Engineer AI backend-developer ki
Gehalt 270.000 EUR / Jahr
Auf einen Blick

Backend-Ingenieur für hochperformante LLM-Serving-Infrastruktur bei Baseten. Konzentration auf Inference-Optimierung, CUDA-Kernel-Tuning und API-Design mit 3+ Jahren Systems-Erfahrung.

💰 $200.000–260.000/Jahr 📊 Mid-Level 🕒 Vollzeit 🌍 Remote 🗺️ Worldwide
  • 3+ Jahre verteilte Systeme oder große APIs
  • Low-Latency Backend-Services-Erfahrung
  • CUDA/GPU-Performance-Debugging-Fähigkeit
  • Strong Communication Skills
Python C++ CUDA TensorRT-LLM vLLM Distributed Systems Performance Optimization Backend
✅ Geeignet für
  • Mid-Level Backend Engineers mit GPU-Erfahrung
  • Performance-fokussierte Ingenieure
  • Ingenieure, die Close-to-the-Metal arbeiten wollen
  • Distributed Systems-Enthusiasten
🚫 Weniger geeignet
  • Frontend- oder High-Level-API-Only Engineers
  • Kandidaten ohne Systems-Programmierung Background
  • Kandidaten, die Abstraktions-Layer bevorzugen
💡 Gut zu wissen
  • Erfordert tiefes GPU/CUDA-Verständnis und Fähigkeit zum Hardware-Level-Debugging
  • Performance ist nicht optional – direkt kundengegenüber
  • Konstante Optimierungsarbeit an Kernels und Memory-Patterns
  • Benchmarking und Profiling ist täglich Aufgabe

Über das Unternehmen

Baseten betreibt die Mission-kritische Inferenzinfrastruktur für KI-Unternehmen wie Cursor, Notion, OpenEvidence, Abridge, Clay, Gamma und Writer. Die Firma hat gerade 300 Millionen Dollar in Serie E aufgesammelt. Das Team vereint angewandte KI-Forschung, flexible Infrastruktur und Entwickler-Tools, um es Unternehmen zu ermöglichen, hochmoderne Modelle produktiv einzusetzen.

Deine Aufgaben

  • Konzipiere, baue und betreibe die Model-APIs-Oberfläche mit Fokus auf fortgeschrittene Inferenzfähigkeiten: strukturierte Outputs (JSON Mode, Grammar-Constrained Generation), Tool/Function Calling und Multimodal-Serving
  • Profiliere und optimiere TensorRT-LLM Kernels, analysiere CUDA-Kernel-Performance, implementiere Custom-CUDA-Operatoren und optimiere Speicher-Allokationsmuster für maximalen Durchsatz
  • Produktiviere Performance-Verbesserungen über Runtimes: Speculative Decoding, Guided Generation für strukturierte Outputs, Custom Scheduling und Routing-Algorithmen
  • Baue umfassende Benchmarking-Frameworks, die echtweltliche Performance über verschiedene Modellarchitekturen, Batch-Größen, Sequenzlängen und Hardware-Konfigurationen messen
  • Instrumentiere Deep Observability (Metriken, Traces, Logs) und baue wiederholbare Benchmarks für Geschwindigkeit, Zuverlässigkeit und Qualität
  • Implementiere Plattform-Grundlagen: API-Versioning, Validierung, Usage-Metering, Quotas und Authentifizierung
  • Arbeite eng mit anderen Teams zusammen, um robuste, Developer-freundliche Modell-Serving-Erfahrungen zu liefern

Deine Voraussetzungen

  • 3+ Jahre Erfahrung beim Bauen und Betreiben von verteilten Systemen oder großen APIs
  • Track Record von Low-Latency, zuverlässigen Backend-Services (Rate-Limiting, Auth, Quotas, Metering, Migrationen)
  • Infra-Instinkte mit Performance-Sensibilität: Profiling, Tracing, Capacity Planning und SLO Management
  • Komfortabel beim Debuggen komplexer Systeme, von Runtime-Internals bis zu GPU-Execution-Traces
  • Starke geschriebene Kommunikation

Benefits

  • Wettbewerbsfähige Vergütung inklusive Aktienoptionen
  • 100% Deckung von Kranken-, Zahn- und Augenblätte
  • Flexible PTO-Richtlinie
  • Bezahlter Elternurlaub
  • Fertilitäts- und Familienplanungs-Stipendium
  • Unternehmensorganisierte 401(k)