Was kann da schon schief gehen?

Adobe kommt mit einer spannenden, neuen Technologie aus dem Knick: VoCo ist eine Art Photoshop für Stimmen. Einer der Entwickler demonstriert das in diesem Video:

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Zusammengefasst: Du importierst eine beliebige Sprachaufnahme in VoCo, das Ding erkennt was gesagt wurde, schreibt so etwas ähnliches wie Untertitel und kannst das Audio dann editieren, indem Du die Untertitel veränderst. Das ist schon krass genug, aber er demonstriert auch, wie er dem Sprecher Dinge in den Mund legt, die der nie gesagt hat. Und wir reden nicht nur über einzelne Wörter (im Video „Jordan“), sondern auch über mehrere („three times“ im Video).

Ich sage es noch mal: Der Typ lässt den Sprecher Wörter sagen, die in der Originalaufnahme nicht vorkommen. Das sind natürlich nur sehr kurze Sachen, insgesamt drei Wörter, aber für mein Ohr ließ sich das vorhin nicht unterscheiden. Um das zu schaffen, braucht der Bursche etwa 20 Minuten Text von eben diesem Sprecher, damit in VoCo in der Lage die Stimme komplett zu synthetisieren.

Ich sehe für die eigene Anwendung einige sehr schicke Möglichkeiten. Podcasten und Radiobeiträge produzieren, obwohl ich krank und ohne Stimme daniederliege zum Beispiel. Aber was sind die ethischen Grenzen davon? Mal ein typischer Fall aus meiner beruflichen Praxis: Irgendein Thema ploppt gerade auf, dazu muss was auf die Antenne und dann heißt es natürlich „Dazu brauchen wir auch eine Reaktion vom Minister“. Wie der Teufel es will, ist der aber gerade nicht zu kriegen und die Pressestelle bietet an, ein abgestimmtes, schriftliches Zitat zu schicken. Für die Zeitung kein Problem und in der Praxis für mich auch nicht, weil ich ihn dann einfach zitieren kann. Wenn es VoCo in den Massenmarkt geschafft hat, zitiere ich dann noch? Oder lasse ich das Zitat von VoCo erzeugen? Ist es dann noch ein Zitat? Anderes Beispiel: In einem Interview antwortet jemand sehr langatmig und die entscheidenden 20 Sekunden passen im Schnitt nicht recht zusammen, das klingt nicht schön. Setze ich dann lieber VoCo ein?

Aber es gibt ja nicht nur den journalistischen Kontext. Mit VoCo können politischen Gegnern, Angeklagten und Geschäftspartnern Dinge in den Mund gelegt werden, die kaum widerlegbar sind. Das Versprechen des Entwicklers am Ende des Videos („Je besser VoCo wird, desto mehr arbeiten wir daran, dass es erkennbar bleibt.“) halte ich für ein Feigenblatt. Es wird immer Möglichkeiten geben, die Erkennung zu umgehen. Wenn ich damit jemandem schaden wollte, würde ich VoCo etwas sagen lassen und die Sprachausgabe über’s Telefon schicken und dort aufnehmen. Wie erkennbar das dann wohl noch sein wird?

Die andere Frage muss natürlich lauten: Wie verfügbar die Software für die Erkennung von VoCo-Texten sein wird. VoCo ist ein krasses Alleinstellungsmerkmal für Adobe, ich könnte mir vorstellen, dass sie das aggressiv vermarkten werden. Aber das sind eben auch profitorientierte Geschäftsleute, bei denen man Software nicht mehr kaufen, sondern nur noch gegen einen monatlichen Betrag nur noch mieten kann. Ob diese Erkennungssoftware genau so günstig sein wird, wie VoCo selbst?

1 comments on Was kann da schon schief gehen?

  1. Für die Kollegen vom Film gibt es auch noch eine passende Ergänzung für Bildmaterial (uns zwar in Echtzeit!). Dann kann der Minister auch noch wahlweise lachen oder drohen. Passend zu dem, was Du ihn da synthetisch sagen lässt:

Kommentare sind geschlossen.