Gefährliche Sprachsynthese

Adobe VoCo: Sprachimitation für die Audiobearbeitung 2.0

Foto von Sandra Spönemann

von Sandra Spönemann (@die_spoent_wohl)-

Auf der Adobe Max 2016 in San Diego stellte der Software-Konzern, den User vorrangig mit dem professionellen Bildbearbeitungsprogramm Photoshop in Verbindung bringen, ein neues Projekt im Bereich Audio-Editing vor. 'VoCo' soll in der Lage sein, menschliche Stimmen zu imitieren, um Sprachaufzeichnungen verändern zu können.

Per Texteingabe in ein simples Editor-Feld gibt der Anwender ein, wie der Satz richtig lauten soll.

An einem humorvollen Beispiel erklärte Adobe-Entwickler Zeyu Jin, was das besondere an Projekt 'VoCo' ist: Sprachaufnahmen können im Nachhinein kinderleicht bearbeitet werden. Beispielsweise sollen sich Satzteile problemlos umstellen beziehungsweise neu zusammenstellen lassen - und zwar so, dass der Unterschied nicht oder kaum hörbar ist. Dass dies tatsächlich möglich ist, wurde direkt live demonstriert.

Anhand der wenig schmeichelhaften Tonaufzeichnung "Ich habe meine Hunde und meine Frau geküsst" führt Jin vor, wie VoCo arbeitet. Per Texteingabe in ein simples Editor-Feld gibt der Anwender ein, wie der Satz richtig lauten soll (nämlich doch lieber "Ich habe meine Frau und meine Hunde geküsst") und VoCo setzt die Vorlage automatisch um. Einzelne Wörter oder ganze Satzteile lassen sich auf diese Weise auch ruckzuck komplett aus der Aufnahme entfernen.

Wasserzeichen soll modifizierte Stimmen markieren

Das Ergebnis klingt weit aus weniger künstlich, als gedacht. Mit dieser recht überzeugenden Technologie könnte Adobe den Weg geebnet haben, um sich neben der Bildbearbeitung auch im Bereich Audiobearbeitung eine marktführende Position zu sichern, denn die Einsatzmöglichkeiten von VoCo gehen weit darüber hinaus, was zum Beispiel mit Adobe Premiere in Sachen Tonspur-Editing möglich wäre.

Obwohl die Technologie sehr verlockend ist, wirkt eine optimale Sprachimitation - wie VoCo sie später einmal leisten soll - doch auch gefährlich. Schließlich wird dadurch jeder Anwender in die Lage versetzt, Sprechern die eigenen Worte "in den Mund zu legen". Audioaufnahmen echter Personen werden dabei so einfach veränderbar wie Fotos in Photoshop. Zurzeit benötigt die VoCo-Software noch ungefähr 20 Minuten, um durch Tonbeispiele zu "lernen" und Satzteile flüssig zu imitieren. Als Schutz denkt Adobe an ein Wasserzeichen, das modifizierte Stimmen erkennbar machen soll.

Sag uns deine Meinung!

Um einen Kommentar zu verfassen, melde Dich an oder registriere Dich jetzt auf Netz.de!

Das könnte dich auch interessieren!
Werbung
Ab ins Netz mit dir