ML Research Engineer, TTS

Cantina

Europe • Vor Ort • Mid-Level • vor 7 Tagen

AI Software Engineer

Auf einen Blick

Entwickle State-of-the-Art Speech Systems: Designe, trainiere und optimiere Large-Scale TTS und Voice-Cloning Modelle von Grund auf bis zur Production mit Fokus auf Qualität, Latency und Responsibility.

💰 ~€200.000–250.000/Jahr (geschätzt) 📊 Senior 🕒 Vollzeit 🌍 Remote 🗺️ EMEA

Exceptional Large-Scale Audio Model Experience (>3B)
Transformer und Diffusion Model Expertise
Multi-GPU Distributed Training
Published Research in Speech/Audio/ML

pytorch python transformer-architecture tts-models distributed-training voice-cloning

Gehalt geschätzt anhand Geschätzt für Senior ML Research Engineer mit Large-Scale TTS und Published Research Background. Kein Gehalt in der Anzeige angegeben.

✅ Geeignet für

Research Engineers mit Published Track Record
Large-Scale Model Builders
Speech/Audio Spezialisten

🚫 Weniger geeignet

Engineers ohne Published Research
Pure Production Engineers ohne Research Background
Kandidaten ohne 3B+ Model Experience

💡 Gut zu wissen

Europe Remote erforderlich
Exceptional Large-Scale Audio Experience nicht verhandelbar
Publications in Top Venues oder Notable Open Source essentiell

Über das Unternehmen

Cantina Labs entwickelt State-of-the-Art Speech Systems für ihre Social-AI-Plattform, inklusive Realistic TTS und Voice-Cloning.

Deine Aufgaben

Designiere, implementiere, Pre-Trainiere und Fine-Tune Large-Scale Speech Models
Leite kleine Research Projects independent an und arbeite an größeren Team Initiativen
Designiere, fahre durch und analysiere Scientific Experiments zum Modell-Verständnis
Entwickle Tooling zur Team-Produktivität-Verbesserung
Kontribuiere zu Full-Stack: von Low-Level Optimizations zu High-Level Model Design
Definiere Data Requirements und collaboriere auf Acquisition, Curation, Labeling Quality und Synthetic Data
Designiere Automated Objective/Subjective Evaluations: Listening Tests, SV/WER/ASR Metrics, Robustness Checks
Verhärte Training → Evaluation → Inference Pipeline: Profiling, Latency/Memory/Cost Optimierung
Arbeite mit GPU-Fleets für Training und Inference, treffe Production SLAs mit Monitoring
Kontribuiere zu Safety/Consent Guardrails und Misuse Mitigation

Deine Voraussetzungen

Exceptional Research/Development Erfahrung mit Large-Scale Audio Models (>3B, >500k Stunden Data)
Exceptional Verständnis und Hands-On Erfahrung mit Transformer Architectures, Diffusion Models, Audio Language Modelling
Starke Erfahrung mit Multi-Node und Multi-GPU Distributed Model Training
Starke Software Engineering Skills mit Proven Track Record in Complex Systems
Starke PyTorch und Performance Work (Profiling, CUDA/Triton/C++)
Shipped Large-Scale Speech/Audio Models to Production
Background in Large-Scale ML Data
Ability to Iterate on Data und Triangulate Quality über Subjective und Objective Signals
Notable Publications und/oder Open Source Contributions in Speech/Audio/ML
Erfahrung mit Voice-Cloning, Speech-Control, Voice-Generation

Benefits

Competitive Gehalt und großzügige Equity
Medizin-, Zahn- und Sehversicherung
42 Tage bezahlter Urlaub
Parental Leave und Fertility Support
401(k) und Lifestyle Spending Account

Über das Unternehmen

Deine Aufgaben

Deine Voraussetzungen

Benefits

Ähnliche Stellen durchsuchen

Weitere Stellen bei Cantina

Product Manager, Video Products

Creator Partner Manager

Events Manager

Kotlin Multiplatform Engineer (Senior-Staff Levels)