ML Research Engineer, TTS

Europe Vor Ort Mid-Level vor 7 Tagen
AI Software Engineer
Auf einen Blick

Entwickle State-of-the-Art Speech Systems: Designe, trainiere und optimiere Large-Scale TTS und Voice-Cloning Modelle von Grund auf bis zur Production mit Fokus auf Qualität, Latency und Responsibility.

💰 ~€200.000–250.000/Jahr (geschätzt) 📊 Senior 🕒 Vollzeit 🌍 Remote 🗺️ EMEA
  • Exceptional Large-Scale Audio Model Experience (>3B)
  • Transformer und Diffusion Model Expertise
  • Multi-GPU Distributed Training
  • Published Research in Speech/Audio/ML
pytorch python transformer-architecture tts-models distributed-training voice-cloning

Gehalt geschätzt anhand Geschätzt für Senior ML Research Engineer mit Large-Scale TTS und Published Research Background. Kein Gehalt in der Anzeige angegeben.

✅ Geeignet für
  • Research Engineers mit Published Track Record
  • Large-Scale Model Builders
  • Speech/Audio Spezialisten
🚫 Weniger geeignet
  • Engineers ohne Published Research
  • Pure Production Engineers ohne Research Background
  • Kandidaten ohne 3B+ Model Experience
💡 Gut zu wissen
  • Europe Remote erforderlich
  • Exceptional Large-Scale Audio Experience nicht verhandelbar
  • Publications in Top Venues oder Notable Open Source essentiell

Über das Unternehmen

Cantina Labs entwickelt State-of-the-Art Speech Systems für ihre Social-AI-Plattform, inklusive Realistic TTS und Voice-Cloning.

Deine Aufgaben

  • Designiere, implementiere, Pre-Trainiere und Fine-Tune Large-Scale Speech Models
  • Leite kleine Research Projects independent an und arbeite an größeren Team Initiativen
  • Designiere, fahre durch und analysiere Scientific Experiments zum Modell-Verständnis
  • Entwickle Tooling zur Team-Produktivität-Verbesserung
  • Kontribuiere zu Full-Stack: von Low-Level Optimizations zu High-Level Model Design
  • Definiere Data Requirements und collaboriere auf Acquisition, Curation, Labeling Quality und Synthetic Data
  • Designiere Automated Objective/Subjective Evaluations: Listening Tests, SV/WER/ASR Metrics, Robustness Checks
  • Verhärte Training → Evaluation → Inference Pipeline: Profiling, Latency/Memory/Cost Optimierung
  • Arbeite mit GPU-Fleets für Training und Inference, treffe Production SLAs mit Monitoring
  • Kontribuiere zu Safety/Consent Guardrails und Misuse Mitigation

Deine Voraussetzungen

  • Exceptional Research/Development Erfahrung mit Large-Scale Audio Models (>3B, >500k Stunden Data)
  • Exceptional Verständnis und Hands-On Erfahrung mit Transformer Architectures, Diffusion Models, Audio Language Modelling
  • Starke Erfahrung mit Multi-Node und Multi-GPU Distributed Model Training
  • Starke Software Engineering Skills mit Proven Track Record in Complex Systems
  • Starke PyTorch und Performance Work (Profiling, CUDA/Triton/C++)
  • Shipped Large-Scale Speech/Audio Models to Production
  • Background in Large-Scale ML Data
  • Ability to Iterate on Data und Triangulate Quality über Subjective und Objective Signals
  • Notable Publications und/oder Open Source Contributions in Speech/Audio/ML
  • Erfahrung mit Voice-Cloning, Speech-Control, Voice-Generation

Benefits

  • Competitive Gehalt und großzügige Equity
  • Medizin-, Zahn- und Sehversicherung
  • 42 Tage bezahlter Urlaub
  • Parental Leave und Fertility Support
  • 401(k) und Lifestyle Spending Account