Auf einen Blick
Eventual sucht einen Research Engineer für Visual Understanding, um VLMs und Perception Models auf Petabyte-Scale Video zu trainieren und zu optimieren. Du wirst Taxonomien definieren, Modelle für Corpus-Wide Annotation auswählen und Kosten-pro-Clip optimieren.
💰 $180.000–250.000/Jahr
📊 Senior
🕒 Vollzeit
🌍 Vor Ort
🗺️ Americas
- Strong VLM/Multimodal Model Knowledge
- Perception Task Experience (Detection, Tracking, Segmentation)
- Self-Driving/Robotics/Visual-Data Background
- Large-Scale ML Infrastructure
data-science
machine-learning
computer-vision
vlm
python
✅ Geeignet für
- Research Engineers mit Self-Driving/Robotics/Visual-Data-Hintergrund
- VLM/Perception ML Engineers
- Leute, die Large-Scale Annotation Infrastructure bauen mögen
🚫 Weniger geeignet
- Pure Software Engineers ohne ML/Research-Hintergrund
- Leute, die Remote arbeiten mögen (4 Tage/Wo In-Office erforderlich)
- Nicht-Perception-fokussierte ML Engineers
💡 Gut zu wissen
- 4 Tage/Wo In-Office in SF — nicht verhandelbar
- Petabyte-Scale bedeutet: Cost-Optimization ist kritisch (nicht nur Accuracy)
- Self-Driving/Robotics Domain ist tief — schnelle Ramp-up erwartet
Über das Unternehmen
Eventual baut Infrastruktur für Physical AI: Robotik, Autonomous Vehicles, Video-Generation-Modelle — trainiert auf Petabytes von Video, Lidar, Radar und Sensor-Daten. Das Unternehmen hat 30 Millionen Dollar von Top Venture Firms erhalten und arbeitet mit den besten Physical AI Labs zusammen.
Deine Aufgaben
- Visual Understanding Roadmap: Model Family Selection, Landscape, Landing in Production Inference
- Training & Fine-Tuning: VLMs, VQA, Embedding Models, Convolutional Perception Models on Customer Data
- Cost Optimization: Per-Clip Annotation Costs senken — Model Selection, Distillation, Batching, Decode Pipelining
- Rich, Queryable Datasets: Taxonomies mit Researchers, Quality Instrumentation, Version Outputs
- Partnership mit Dataloading & Storage Teams: Visual Understanding Outputs ins Index und zu GPUs
- Customer Collaboration: Direkter Feedback Loop mit Researchers bei Top Labs
Deine Voraussetzungen
- Strong Familiarity: Modern Vision und Multimodal Models (VLMs, VQA, Embeddings, CNNs)
- Experience: Running Models bei Scale auf Real Video/Sensor Data für Perception Tasks (Detection, Tracking, Segmentation, Retrieval, Captioning)
- Background: Perception Team bei Self-Driving, Robotics, Visual-Data Company oder Research Lab
- Cloud Infrastructure: Comfortable mit großen Skalierungsaufgaben auf GPUs
- Bias toward Data & Infrastructure: "annotate whole corpus" vor "fine-tune another model"
Benefits
- In-Office 4 Tage/Woche (SF Mission District)
- Small, Powerful Team