Auf einen Blick
Distributed LLM Inference Engineer: Du optimierst Performance für Large-Scale AI Inference, integrierst Open-Source Tools wie vLLM und arbeitest an Production-Grade Systemen für Batch- und Online-Serving.
💰 $180.000–260.000/Jahr
📊 Senior
🕒 Vollzeit
🌍 Remote
🗺️ Worldwide
- ML Inference in großer Skalierung
- Deep Learning Framework Expertise (PyTorch)
- Distributed Systems Verständnis
Python
PyTorch
Distributed-Systems
LLM-Inference
vLLM
Ray
Performance-Optimization
CUDA
✅ Geeignet für
- ML Systems Engineers mit Inference-Fokus
- Backend Engineers, die in AI Infrastructure wechseln möchten
- Open-Source Contributors in vLLM, TensorRT-LLM oder ähnlich
🚫 Weniger geeignet
- Pure ML Research ohne Production System-Erfahrung
- Einzelmitwirkende ohne Infrastruktur-Verständnis
- Kandidaten ohne Deep Learning Framework Erfahrung
💡 Gut zu wissen
- San Francisco — Remote aber SF-Timezone bevorzugt wahrscheinlich
- LLM-Inference ist Hyper-Competitive: Breaking News in Research bedeutet schnelle Pivots
- vLLM Integration bedeutet enge Community-Zusammenarbeit (Open-Source-Rhythmus)
- Performance Regression kostet Millionen an Inference-Kosten — Messung ist kritisch
Über das Unternehmen
Anyscale demokratisiert Distributed Computing mit Ray, einer beliebten Open-Source-Bibliothek für skalierbare Machine Learning und AI. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition entwickelt Anyscale die beste Plattform zum Ausführen von Ray. Unternehmen wie OpenAI, Uber, Spotify, Instacart und Cruise nutzen Ray in ihren Tech-Stacks.
Deine Aufgaben
- Systeme und Optimierungen entwickeln, die Performance für Inference in großer Skalierung vorantreiben
- Schnell mit Product Teams iterieren, um End-to-End-Lösungen für Batch und Online Inference zu versenden
- Über den Stack arbeiten, Ray Data und LLM Engine integrieren für optimale Kosteneffizienzen
- Open-Source-Software wie vLLM integrieren und eng mit der Community zusammenarbeiten
- State-of-the-Art aus Open-Source und Research-Community folgen und Best Practices implementieren
Deine Voraussetzungen
- Vertrautheit mit LLM Inference in großer Skalierung mit High Throughput und Low Latency
- Tiefes Verständnis von Deep Learning und Deep Learning Frameworks (z.B. PyTorch)
- Solides Verständnis von Distributed Systems und ML Inference Herausforderungen