Distributed LLM Inference Engineer

San Francisco Vor Ort Mid-Level vor 1 Tagen
AI backend-developer Data Engineer
Auf einen Blick

Distributed LLM Inference Engineer: Du optimierst Performance für Large-Scale AI Inference, integrierst Open-Source Tools wie vLLM und arbeitest an Production-Grade Systemen für Batch- und Online-Serving.

💰 $180.000–260.000/Jahr 📊 Senior 🕒 Vollzeit 🌍 Remote 🗺️ Worldwide
  • ML Inference in großer Skalierung
  • Deep Learning Framework Expertise (PyTorch)
  • Distributed Systems Verständnis
Python PyTorch Distributed-Systems LLM-Inference vLLM Ray Performance-Optimization CUDA
✅ Geeignet für
  • ML Systems Engineers mit Inference-Fokus
  • Backend Engineers, die in AI Infrastructure wechseln möchten
  • Open-Source Contributors in vLLM, TensorRT-LLM oder ähnlich
🚫 Weniger geeignet
  • Pure ML Research ohne Production System-Erfahrung
  • Einzelmitwirkende ohne Infrastruktur-Verständnis
  • Kandidaten ohne Deep Learning Framework Erfahrung
💡 Gut zu wissen
  • San Francisco — Remote aber SF-Timezone bevorzugt wahrscheinlich
  • LLM-Inference ist Hyper-Competitive: Breaking News in Research bedeutet schnelle Pivots
  • vLLM Integration bedeutet enge Community-Zusammenarbeit (Open-Source-Rhythmus)
  • Performance Regression kostet Millionen an Inference-Kosten — Messung ist kritisch

Über das Unternehmen

Anyscale demokratisiert Distributed Computing mit Ray, einer beliebten Open-Source-Bibliothek für skalierbare Machine Learning und AI. Mit 250+ Millionen Dollar Finanzierung von Andreessen Horowitz, NEA und Addition entwickelt Anyscale die beste Plattform zum Ausführen von Ray. Unternehmen wie OpenAI, Uber, Spotify, Instacart und Cruise nutzen Ray in ihren Tech-Stacks.

Deine Aufgaben

  • Systeme und Optimierungen entwickeln, die Performance für Inference in großer Skalierung vorantreiben
  • Schnell mit Product Teams iterieren, um End-to-End-Lösungen für Batch und Online Inference zu versenden
  • Über den Stack arbeiten, Ray Data und LLM Engine integrieren für optimale Kosteneffizienzen
  • Open-Source-Software wie vLLM integrieren und eng mit der Community zusammenarbeiten
  • State-of-the-Art aus Open-Source und Research-Community folgen und Best Practices implementieren

Deine Voraussetzungen

  • Vertrautheit mit LLM Inference in großer Skalierung mit High Throughput und Low Latency
  • Tiefes Verständnis von Deep Learning und Deep Learning Frameworks (z.B. PyTorch)
  • Solides Verständnis von Distributed Systems und ML Inference Herausforderungen