So entsteht ein Erklärvideo mit Synthesia

KI-Avatare klingen erstmal nach Hollywood-Aufwand — sind aber inzwischen für jedes Unternehmen erreichbar. In diesem Beitrag zeigen wir, wie unser Workflow bei einem Synthesia-Erklärvideo aussieht und warum die Magie nicht in der KI selbst liegt, sondern in der Vorbereitung.

140+ Sprachen verfügbar

230+ Avatare zur Auswahl

80% weniger Produktionszeit

90% weniger Budget

Warum Synthesia?

Der Vergleich

Klassisch vs. KI-basiert

Klassische Videoproduktion mit echtem Schauspieler, Sprecher und Studio kostet schnell fünfstellig pro Minute Endmaterial. Für viele Anfragen — Onboarding, interne Schulungen, mehrsprachige Erklärclips — ist das einfach zu viel.

Synthesia liefert hier ~80 % der gefühlten Qualität bei einem Bruchteil des Aufwands. Vor allem: skalierbar in 140 Sprachen, ohne neuen Dreh.

Der Avatar ist nur das Werkzeug. Die Magie passiert in der Pre-Production.

— Julian Sasse

Unser Workflow in 5 Schritten

Das ist kein Geheimrezept — aber wir haben ihn über viele Projekte verfeinert. Jeder Schritt zählt; das Überspringen führt fast immer zu Mehrarbeit am Ende.

Schritt

Briefing & Zielgruppe

Wer schaut das Video? In welchem Kontext? Auf welchem Gerät? Vertrieb auf LinkedIn ≠ interne Schulung.

Schritt

Skript & Storyboard

Jedes Wort vorher schreiben, radikal kürzen. Pro Satz planen, was im Bild passiert.

Schritt

Avatar & Voice

2–3 Kandidaten testen, 10-Sek-Probe pro Avatar. Stimme & Mimik müssen zur Marke passen.

Schritt

Produktion & Render

Render dauert ca. 5 min pro Minute Endvideo. Wir nutzen die Zeit für den Branding-Layer.

Schritt

Branding-Layer

Lower-Thirds, Callouts, Sounddesign, Intro/Outro — der Unterschied zu Stock-Synthesia.

Schritt

Review & Delivery

Korrekturschleife, finaler Export, optional Untertitel in mehreren Sprachen.

Faustregel

Maximal 150 Wörter pro Minute Endvideo.

Lieber Pausen lassen als Tempo gewinnen wollen — die KI macht keine natürlichen Pausen, das müssen wir steuern.

Der Branding-Layer im Detail

Das ist der Schritt, der unsere Videos von „Stock-Synthesia" unterscheidet. Auf das gerenderte Avatar-Video legen wir eine zweite Schicht in After Effects:

Brand-konforme Lower-Thirds
Animierte Callouts für wichtige Begriffe
Soundbed + Übergangs-Effekte
Custom Intro/Outro mit Brand-Sound
Animierte Datenvisualisierungen
Markenfarben-Korrektur (LUTs)

Production-Setup: Skript, Storyboard und Avatar-Tests laufen parallel.

Was du dafür brauchst

Synthesia Plan Starter ab 30 €/Monat

Audio-Tool DAW (Reaper, Logic) oder Audacity

Compositing After Effects oder DaVinci Resolve

Zeit pro Minute Endvideo ~3 Stunden inkl. Branding-Layer

Empfohlener Output 1080p, H.264, 25–30 fps

Wenn du den letzten Schritt auslagern willst — wir machen das natürlich auch. Zwischen reinem Synthesia-Rohvideo und einem Visora-fertigen Produkt liegen Welten.

Du willst ein eigenes Erklärvideo?

Wir produzieren maßgeschneidert — vom Skript bis zum fertigen Video mit deinem Branding.

Mehr zum Service

So entsteht ein Erklärvideo mit Synthesia.

Warum Synthesia?

Klassisch vs. KI-basiert

Unser Workflow in 5 Schritten

Briefing & Zielgruppe

Skript & Storyboard

Avatar & Voice

Produktion & Render

Branding-Layer

Review & Delivery

Maximal 150 Wörter pro Minute Endvideo.

Der Branding-Layer im Detail

Was du dafür brauchst

Weiter im Journal