Auf einen Blick
Entwickle State-of-the-Art Speech Systems: Designe, trainiere und optimiere Large-Scale TTS und Voice-Cloning Modelle von Grund auf bis zur Production mit Fokus auf Qualität, Latency und Responsibility.
💰 ~€200.000–250.000/Jahr (geschätzt)
📊 Senior
🕒 Vollzeit
🌍 Remote
🗺️ EMEA
- Exceptional Large-Scale Audio Model Experience (>3B)
- Transformer und Diffusion Model Expertise
- Multi-GPU Distributed Training
- Published Research in Speech/Audio/ML
pytorch
python
transformer-architecture
tts-models
distributed-training
voice-cloning
Gehalt geschätzt anhand Geschätzt für Senior ML Research Engineer mit Large-Scale TTS und Published Research Background. Kein Gehalt in der Anzeige angegeben.
✅ Geeignet für
- Research Engineers mit Published Track Record
- Large-Scale Model Builders
- Speech/Audio Spezialisten
🚫 Weniger geeignet
- Engineers ohne Published Research
- Pure Production Engineers ohne Research Background
- Kandidaten ohne 3B+ Model Experience
💡 Gut zu wissen
- Europe Remote erforderlich
- Exceptional Large-Scale Audio Experience nicht verhandelbar
- Publications in Top Venues oder Notable Open Source essentiell
Über das Unternehmen
Cantina Labs entwickelt State-of-the-Art Speech Systems für ihre Social-AI-Plattform, inklusive Realistic TTS und Voice-Cloning.
Deine Aufgaben
- Designiere, implementiere, Pre-Trainiere und Fine-Tune Large-Scale Speech Models
- Leite kleine Research Projects independent an und arbeite an größeren Team Initiativen
- Designiere, fahre durch und analysiere Scientific Experiments zum Modell-Verständnis
- Entwickle Tooling zur Team-Produktivität-Verbesserung
- Kontribuiere zu Full-Stack: von Low-Level Optimizations zu High-Level Model Design
- Definiere Data Requirements und collaboriere auf Acquisition, Curation, Labeling Quality und Synthetic Data
- Designiere Automated Objective/Subjective Evaluations: Listening Tests, SV/WER/ASR Metrics, Robustness Checks
- Verhärte Training → Evaluation → Inference Pipeline: Profiling, Latency/Memory/Cost Optimierung
- Arbeite mit GPU-Fleets für Training und Inference, treffe Production SLAs mit Monitoring
- Kontribuiere zu Safety/Consent Guardrails und Misuse Mitigation
Deine Voraussetzungen
- Exceptional Research/Development Erfahrung mit Large-Scale Audio Models (>3B, >500k Stunden Data)
- Exceptional Verständnis und Hands-On Erfahrung mit Transformer Architectures, Diffusion Models, Audio Language Modelling
- Starke Erfahrung mit Multi-Node und Multi-GPU Distributed Model Training
- Starke Software Engineering Skills mit Proven Track Record in Complex Systems
- Starke PyTorch und Performance Work (Profiling, CUDA/Triton/C++)
- Shipped Large-Scale Speech/Audio Models to Production
- Background in Large-Scale ML Data
- Ability to Iterate on Data und Triangulate Quality über Subjective und Objective Signals
- Notable Publications und/oder Open Source Contributions in Speech/Audio/ML
- Erfahrung mit Voice-Cloning, Speech-Control, Voice-Generation
Benefits
- Competitive Gehalt und großzügige Equity
- Medizin-, Zahn- und Sehversicherung
- 42 Tage bezahlter Urlaub
- Parental Leave und Fertility Support
- 401(k) und Lifestyle Spending Account