Softwareingenieur Modell-Produkte

Baseten

San Francisco • Vor Ort • Mid-Level • vor 4 Tagen

Software Engineer AI backend-developer ki

Gehalt 270.000 EUR / Jahr

Auf einen Blick

Backend-Ingenieur für hochperformante LLM-Serving-Infrastruktur bei Baseten. Konzentration auf Inference-Optimierung, CUDA-Kernel-Tuning und API-Design mit 3+ Jahren Systems-Erfahrung.

💰 $200.000–260.000/Jahr 📊 Mid-Level 🕒 Vollzeit 🌍 Remote 🗺️ Worldwide

3+ Jahre verteilte Systeme oder große APIs
Low-Latency Backend-Services-Erfahrung
CUDA/GPU-Performance-Debugging-Fähigkeit
Strong Communication Skills

Python C++ CUDA TensorRT-LLM vLLM Distributed Systems Performance Optimization Backend

✅ Geeignet für

Mid-Level Backend Engineers mit GPU-Erfahrung
Performance-fokussierte Ingenieure
Ingenieure, die Close-to-the-Metal arbeiten wollen
Distributed Systems-Enthusiasten

🚫 Weniger geeignet

Frontend- oder High-Level-API-Only Engineers
Kandidaten ohne Systems-Programmierung Background
Kandidaten, die Abstraktions-Layer bevorzugen

💡 Gut zu wissen

Erfordert tiefes GPU/CUDA-Verständnis und Fähigkeit zum Hardware-Level-Debugging
Performance ist nicht optional – direkt kundengegenüber
Konstante Optimierungsarbeit an Kernels und Memory-Patterns
Benchmarking und Profiling ist täglich Aufgabe

Über das Unternehmen

Baseten betreibt die Mission-kritische Inferenzinfrastruktur für KI-Unternehmen wie Cursor, Notion, OpenEvidence, Abridge, Clay, Gamma und Writer. Die Firma hat gerade 300 Millionen Dollar in Serie E aufgesammelt. Das Team vereint angewandte KI-Forschung, flexible Infrastruktur und Entwickler-Tools, um es Unternehmen zu ermöglichen, hochmoderne Modelle produktiv einzusetzen.

Deine Aufgaben

Konzipiere, baue und betreibe die Model-APIs-Oberfläche mit Fokus auf fortgeschrittene Inferenzfähigkeiten: strukturierte Outputs (JSON Mode, Grammar-Constrained Generation), Tool/Function Calling und Multimodal-Serving
Profiliere und optimiere TensorRT-LLM Kernels, analysiere CUDA-Kernel-Performance, implementiere Custom-CUDA-Operatoren und optimiere Speicher-Allokationsmuster für maximalen Durchsatz
Produktiviere Performance-Verbesserungen über Runtimes: Speculative Decoding, Guided Generation für strukturierte Outputs, Custom Scheduling und Routing-Algorithmen
Baue umfassende Benchmarking-Frameworks, die echtweltliche Performance über verschiedene Modellarchitekturen, Batch-Größen, Sequenzlängen und Hardware-Konfigurationen messen
Instrumentiere Deep Observability (Metriken, Traces, Logs) und baue wiederholbare Benchmarks für Geschwindigkeit, Zuverlässigkeit und Qualität
Implementiere Plattform-Grundlagen: API-Versioning, Validierung, Usage-Metering, Quotas und Authentifizierung
Arbeite eng mit anderen Teams zusammen, um robuste, Developer-freundliche Modell-Serving-Erfahrungen zu liefern

Deine Voraussetzungen

3+ Jahre Erfahrung beim Bauen und Betreiben von verteilten Systemen oder großen APIs
Track Record von Low-Latency, zuverlässigen Backend-Services (Rate-Limiting, Auth, Quotas, Metering, Migrationen)
Infra-Instinkte mit Performance-Sensibilität: Profiling, Tracing, Capacity Planning und SLO Management
Komfortabel beim Debuggen komplexer Systeme, von Runtime-Internals bis zu GPU-Execution-Traces
Starke geschriebene Kommunikation

Benefits

Wettbewerbsfähige Vergütung inklusive Aktienoptionen
100% Deckung von Kranken-, Zahn- und Augenblätte
Flexible PTO-Richtlinie
Bezahlter Elternurlaub
Fertilitäts- und Familienplanungs-Stipendium
Unternehmensorganisierte 401(k)

Über das Unternehmen

Deine Aufgaben

Deine Voraussetzungen

Benefits

Ähnliche Stellen durchsuchen

Weitere Stellen bei Baseten

Engineering Manager, Runtime Fabric

Integrated Marketing Manager

Engineering Manager – Forward Deployed Engineering (LLM)

Engineering Manager, Cloud Platform