DubAiX | AI-Powered Video Dubbing Pipeline

High-Quality Audio

Verwendung von Coqui TTS mit optimiertem Window-Based Timing und automatischer Klick-Entfernung für glasklare Sprachausgabe.

Vocal Separation

Aggressive Entfernung der Originalstimme bei gleichzeitigem Erhalt von Soundeffekten und Hintergrundmusik.

4K & 60FPS Support

Automatische Auswahl der höchsten verfügbaren Quellqualität für professionelle Ergebnisse bis hin zu 4K-Auflösung.

The Pipeline

Vom YouTube-Link zum fertigen Master

01. Intelligent Download & Trim

DubAiX nutzt yt-dlp für gehärtete Downloads und erkennt automatisch Werbe-Intros (z.B. AOEAH) mittels visueller Analyse oder fixen Offsets, um einen sauberen Start zu garantieren.

python3 pipeline.py -u "https://youtube.com/..." --make-video

02. ASR Transcription (Whisper)

Das Audio wird in ein mono 16k WAV konvertiert und durch OpenAI Whisper (large-v3) auf der GPU verarbeitet. Das Ergebnis ist ein hochpräzises englisches Transkript mit exakten Timestamps.

03. Neural Translation

Die Pipeline unterstützt sowohl vollautomatische Übersetzung via LLMs als auch einen präzisen Human-in-the-loop Modus für maximale Qualität bei Fachbegriffen (z.B. Diablo 2 Items).

04. Dubbing Engine (Coqui VITS)

Hier passiert die Magie: Coqui VITS generiert die neue Sprache. Unser Algorithmus passt die Sprechgeschwindigkeit dynamisch an das Video an, ohne die Tonhöhe zu verzerren (Time-Stretching).

05. Audio Mastering & Muxing

Die neue Stimme wird mit dem gesäuberten Original-Sound gemischt. Dynamic Ducking senkt die Hintergrundgeräusche automatisch ab, sobald gesprochen wird. Finales Muxing erfolgt via ffmpeg.

06. QA & Automated Upload

Ein automatisierter QA-Schritt vergleicht das finale Video erneut mit dem Transkript. Bei Erfolg erfolgt der Upload zu YouTube inkl. optimierter Metadaten und Tags.

Driven by Industry-Leading AI

Python

Whisper

Coqui TTS

FFmpeg

CUDA

Bring Deine Inhaltein jede Sprache.