Research Engineer, Multimodal Data

San Francisco Vor Ort Mid-Level vor 13 Tagen
Software Engineer Data Engineer Data Science ki
Gehalt 200.000 EUR / Jahr
Auf einen Blick

Eventual sucht einen Research Engineer für Visual Understanding, um VLMs und Perception Models auf Petabyte-Scale Video zu trainieren und zu optimieren. Du wirst Taxonomien definieren, Modelle für Corpus-Wide Annotation auswählen und Kosten-pro-Clip optimieren.

💰 $180.000–250.000/Jahr 📊 Senior 🕒 Vollzeit 🌍 Vor Ort 🗺️ Americas
  • Strong VLM/Multimodal Model Knowledge
  • Perception Task Experience (Detection, Tracking, Segmentation)
  • Self-Driving/Robotics/Visual-Data Background
  • Large-Scale ML Infrastructure
data-science machine-learning computer-vision vlm python
✅ Geeignet für
  • Research Engineers mit Self-Driving/Robotics/Visual-Data-Hintergrund
  • VLM/Perception ML Engineers
  • Leute, die Large-Scale Annotation Infrastructure bauen mögen
🚫 Weniger geeignet
  • Pure Software Engineers ohne ML/Research-Hintergrund
  • Leute, die Remote arbeiten mögen (4 Tage/Wo In-Office erforderlich)
  • Nicht-Perception-fokussierte ML Engineers
💡 Gut zu wissen
  • 4 Tage/Wo In-Office in SF — nicht verhandelbar
  • Petabyte-Scale bedeutet: Cost-Optimization ist kritisch (nicht nur Accuracy)
  • Self-Driving/Robotics Domain ist tief — schnelle Ramp-up erwartet

Über das Unternehmen

Eventual baut Infrastruktur für Physical AI: Robotik, Autonomous Vehicles, Video-Generation-Modelle — trainiert auf Petabytes von Video, Lidar, Radar und Sensor-Daten. Das Unternehmen hat 30 Millionen Dollar von Top Venture Firms erhalten und arbeitet mit den besten Physical AI Labs zusammen.

Deine Aufgaben

  • Visual Understanding Roadmap: Model Family Selection, Landscape, Landing in Production Inference
  • Training & Fine-Tuning: VLMs, VQA, Embedding Models, Convolutional Perception Models on Customer Data
  • Cost Optimization: Per-Clip Annotation Costs senken — Model Selection, Distillation, Batching, Decode Pipelining
  • Rich, Queryable Datasets: Taxonomies mit Researchers, Quality Instrumentation, Version Outputs
  • Partnership mit Dataloading & Storage Teams: Visual Understanding Outputs ins Index und zu GPUs
  • Customer Collaboration: Direkter Feedback Loop mit Researchers bei Top Labs

Deine Voraussetzungen

  • Strong Familiarity: Modern Vision und Multimodal Models (VLMs, VQA, Embeddings, CNNs)
  • Experience: Running Models bei Scale auf Real Video/Sensor Data für Perception Tasks (Detection, Tracking, Segmentation, Retrieval, Captioning)
  • Background: Perception Team bei Self-Driving, Robotics, Visual-Data Company oder Research Lab
  • Cloud Infrastructure: Comfortable mit großen Skalierungsaufgaben auf GPUs
  • Bias toward Data & Infrastructure: "annotate whole corpus" vor "fine-tune another model"

Benefits

  • In-Office 4 Tage/Woche (SF Mission District)
  • Small, Powerful Team