Distributed LLM Inference Engineer

Anyscale

San Francisco • Vor Ort • Mid-Level • vor 1 Tagen

AI backend-developer Data Engineer

Auf einen Blick

Distributed LLM Inference Engineer: Du optimierst Performance für Large-Scale AI Inference, integrierst Open-Source Tools wie vLLM und arbeitest an Production-Grade Systemen für Batch- und Online-Serving.

💰 $180.000–260.000/Jahr 📊 Senior 🕒 Vollzeit 🌍 Remote 🗺️ Worldwide

ML Inference in großer Skalierung
Deep Learning Framework Expertise (PyTorch)
Distributed Systems Verständnis

Python PyTorch Distributed-Systems LLM-Inference vLLM Ray Performance-Optimization CUDA

✅ Geeignet für

ML Systems Engineers mit Inference-Fokus
Backend Engineers, die in AI Infrastructure wechseln möchten
Open-Source Contributors in vLLM, TensorRT-LLM oder ähnlich

🚫 Weniger geeignet

Pure ML Research ohne Production System-Erfahrung
Einzelmitwirkende ohne Infrastruktur-Verständnis
Kandidaten ohne Deep Learning Framework Erfahrung

💡 Gut zu wissen

San Francisco — Remote aber SF-Timezone bevorzugt wahrscheinlich
LLM-Inference ist Hyper-Competitive: Breaking News in Research bedeutet schnelle Pivots
vLLM Integration bedeutet enge Community-Zusammenarbeit (Open-Source-Rhythmus)
Performance Regression kostet Millionen an Inference-Kosten — Messung ist kritisch

Über das Unternehmen

Anyscale demokratisiert Distributed Computing mit Ray, einer beliebten Open-Source-Bibliothek für skalierbare Machine Learning und AI. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition entwickelt Anyscale die beste Plattform zum Ausführen von Ray. Unternehmen wie OpenAI, Uber, Spotify, Instacart und Cruise nutzen Ray in ihren Tech-Stacks.

Deine Aufgaben

Systeme und Optimierungen entwickeln, die Performance für Inference in großer Skalierung vorantreiben
Schnell mit Product Teams iterieren, um End-to-End-Lösungen für Batch und Online Inference zu versenden
Über den Stack arbeiten, Ray Data und LLM Engine integrieren für optimale Kosteneffizienzen
Open-Source-Software wie vLLM integrieren und eng mit der Community zusammenarbeiten
State-of-the-Art aus Open-Source und Research-Community folgen und Best Practices implementieren

Deine Voraussetzungen

Vertrautheit mit LLM Inference in großer Skalierung mit High Throughput und Low Latency
Tiefes Verständnis von Deep Learning und Deep Learning Frameworks (z.B. PyTorch)
Solides Verständnis von Distributed Systems und ML Inference Herausforderungen

Über das Unternehmen

Deine Aufgaben

Deine Voraussetzungen

Ähnliche Stellen durchsuchen

Weitere Stellen bei Anyscale

Staff Software Engineer, Platform Infrastructure (Foundations)

Software Engineer, Platform Infrastructure (Foundations)

Software Engineer, Ray Data

Senior Site Reliability Engineer