Auf einen Blick
Fahre Fundamentalforschung an Large-Scale Video-Generierungsmodellen: Designiere Data Pipelines, entwickle Distillation- und Preference-Fine-Tuning-Methoden und arbeite mit Pretraining/Post-Training-Integration.
💰 ~SGD 200.000–260.000/Jahr (geschätzt)
📊 Senior
🕒 Vollzeit
🌍 Vor Ort
🗺️ APAC
- Large-Scale Data Systems Experience
- PySpark/Ray Expertise
- Distributed Training Know-How
- Reward Modeling oder Preference Fine-Tuning
pytorch
python
diffusion-models
data-pipelines
kubernetes
distributed-systems
Gehalt geschätzt anhand Geschätzt für Research Scientist in Singapore mit Large-Scale ML und Video Generation Background. Kein Gehalt in der Anzeige angegeben.
✅ Geeignet für
- Research Scientists mit Publication Track Record
- Large-Scale ML Systems Builders
- Post-Training Spezialisten
🚫 Weniger geeignet
- Pure Practitioners ohne Research Background
- Engineers unkomfortabel mit Ambiguität in Forschung
- Kandidaten ohne Top-Tier Publications
💡 Gut zu wissen
- Singapore Onsite erforderlich
- Top-Tier Publications (NeurIPS etc.) werden bevorzugt
- Starker Fokus auf Data-Infrastruktur neben reiner Research
Über das Unternehmen
Cantina Labs expandiert in Singapur und sucht Research Scientists für Fundamentalforschung an Video-Generierungsmodellen.
Deine Aufgaben
- Baue und skaliere Systeme für Large-Scale Video-Data-Ingestion, Preprocessing und Delivery für Model Training
- Designiere und skaliere Distributed Data Pipelines für Preprocessing, Dataset Generation und Repeated Dataset Refreshes
- Owne Workflow Orchestration, Job Scheduling, Monitoring und Failure Recovery für Large-Scale Data Processing
- Implementiere Containerized Pipeline Infrastructure über Kubernetes
- Optimiere Cloud-basierte Data Storage und Movement über Providers (AWS, GCS, Azure)
- Definiere und implementiere Best Practices für Dataset Storage, Versioning, Caching und Access Patterns
- Baue Deduplication Tooling über Large-Scale Video Corpora
- Forsche an Distillation Methods für Large-Scale Diffusion und Flow-Based Video Generation
- Entwickle Reward Models und Preference-Based Fine-Tuning Pipelines
Deine Voraussetzungen
- Starke Hands-On Erfahrung mit Large-Scale Data Systems oder Pipelines für ML Workflows
- Erfahrung mit PySpark, Ray und Orchestration Tools (Airflow)
- Vertrautheit mit Containerization und Kubernetes
- Erfahrung mit Cloud-basiertem Storage und Compute (AWS, GCS, Azure)
- Vertrautheit mit Video/Media Processing Tools: FFmpeg, PyAV, DALI, OpenCV
- Vertrautheit mit Multimodal oder Media Data
- Starker Research Background in Post-Training Methods für Large-Scale Generative Models
- Erfahrung mit Reward Modeling oder Preference-Based Fine-Tuning
- Solides Verständnis von Pretraining und Post-Training Interplay
- Proficiency in Python und Modern ML Frameworks (PyTorch oder JAX)
- Track Record von Independent Research
- Top-Tier Publications (NeurIPS, ICML, ICLR, CVPR, ICCV, ECCV) bevorzugt
Benefits
- Competitive Gehalt und großzügige Equity
- Persönliche Zeit off und bezahlte Feiertage
- Krankenversicherung
- Global Travel Insurance
- Monthly Spending Stipend: 500 $ (~S$635)
- Equipment für Home Office