Auf einen Blick
Backend-Ingenieur für hochperformante LLM-Serving-Infrastruktur bei Baseten. Konzentration auf Inference-Optimierung, CUDA-Kernel-Tuning und API-Design mit 3+ Jahren Systems-Erfahrung.
💰 $200.000–260.000/Jahr
📊 Mid-Level
🕒 Vollzeit
🌍 Remote
🗺️ Worldwide
- 3+ Jahre verteilte Systeme oder große APIs
- Low-Latency Backend-Services-Erfahrung
- CUDA/GPU-Performance-Debugging-Fähigkeit
- Strong Communication Skills
Python
C++
CUDA
TensorRT-LLM
vLLM
Distributed Systems
Performance Optimization
Backend
✅ Geeignet für
- Mid-Level Backend Engineers mit GPU-Erfahrung
- Performance-fokussierte Ingenieure
- Ingenieure, die Close-to-the-Metal arbeiten wollen
- Distributed Systems-Enthusiasten
🚫 Weniger geeignet
- Frontend- oder High-Level-API-Only Engineers
- Kandidaten ohne Systems-Programmierung Background
- Kandidaten, die Abstraktions-Layer bevorzugen
💡 Gut zu wissen
- Erfordert tiefes GPU/CUDA-Verständnis und Fähigkeit zum Hardware-Level-Debugging
- Performance ist nicht optional – direkt kundengegenüber
- Konstante Optimierungsarbeit an Kernels und Memory-Patterns
- Benchmarking und Profiling ist täglich Aufgabe
Über das Unternehmen
Baseten betreibt die Mission-kritische Inferenzinfrastruktur für KI-Unternehmen wie Cursor, Notion, OpenEvidence, Abridge, Clay, Gamma und Writer. Die Firma hat gerade 300 Millionen Dollar in Serie E aufgesammelt. Das Team vereint angewandte KI-Forschung, flexible Infrastruktur und Entwickler-Tools, um es Unternehmen zu ermöglichen, hochmoderne Modelle produktiv einzusetzen.
Deine Aufgaben
- Konzipiere, baue und betreibe die Model-APIs-Oberfläche mit Fokus auf fortgeschrittene Inferenzfähigkeiten: strukturierte Outputs (JSON Mode, Grammar-Constrained Generation), Tool/Function Calling und Multimodal-Serving
- Profiliere und optimiere TensorRT-LLM Kernels, analysiere CUDA-Kernel-Performance, implementiere Custom-CUDA-Operatoren und optimiere Speicher-Allokationsmuster für maximalen Durchsatz
- Produktiviere Performance-Verbesserungen über Runtimes: Speculative Decoding, Guided Generation für strukturierte Outputs, Custom Scheduling und Routing-Algorithmen
- Baue umfassende Benchmarking-Frameworks, die echtweltliche Performance über verschiedene Modellarchitekturen, Batch-Größen, Sequenzlängen und Hardware-Konfigurationen messen
- Instrumentiere Deep Observability (Metriken, Traces, Logs) und baue wiederholbare Benchmarks für Geschwindigkeit, Zuverlässigkeit und Qualität
- Implementiere Plattform-Grundlagen: API-Versioning, Validierung, Usage-Metering, Quotas und Authentifizierung
- Arbeite eng mit anderen Teams zusammen, um robuste, Developer-freundliche Modell-Serving-Erfahrungen zu liefern
Deine Voraussetzungen
- 3+ Jahre Erfahrung beim Bauen und Betreiben von verteilten Systemen oder großen APIs
- Track Record von Low-Latency, zuverlässigen Backend-Services (Rate-Limiting, Auth, Quotas, Metering, Migrationen)
- Infra-Instinkte mit Performance-Sensibilität: Profiling, Tracing, Capacity Planning und SLO Management
- Komfortabel beim Debuggen komplexer Systeme, von Runtime-Internals bis zu GPU-Execution-Traces
- Starke geschriebene Kommunikation
Benefits
- Wettbewerbsfähige Vergütung inklusive Aktienoptionen
- 100% Deckung von Kranken-, Zahn- und Augenblätte
- Flexible PTO-Richtlinie
- Bezahlter Elternurlaub
- Fertilitäts- und Familienplanungs-Stipendium
- Unternehmensorganisierte 401(k)