Mama, bist du das?

Gute Nachricht für Video-Telefonie: KI erkennt einzelne Stimmen unter vielen

Geschätzte Lesezeit: ca. 1 Minute

Foto von Benjamin Krämer

von Benjamin Krämer -

Google hat eine neue KI entwickelt, die unter vielen verschiedenen Stimmen, beispielsweise in einer Menschenmenge, einzelne Stimmen isolieren und erkennen kann. Das klingt erst einmal nicht nach einer großen Sache, könnte jedoch Video-Telefonie über beispielsweise Skype qualitativ deutlich verbessern.

Google hat es geschafft, einer seiner KIs beizubringen, einzelne menschliche Stimmen in einer größeren Menge voneinander zu unterscheiden und zu identifizieren. Für uns Menschen ist das bereits relativ leicht, KIs taten sich damit aber relativ schwer. Ein Beispiel ist Alexa, die zwar als sehr intelligent gilt, aber Probleme damit hat Befehle zu verstehen, wenn man durcheinanderredet.

Die Lösung könnte jetzt also aus den Google-Labors kommen: Die Forscher trainierten mittels eines künstlichen neuronalen Netzwerks eine KI darauf, die Gesichter einzelner Sprecher mit ihrer Stimme in Verbindung zu bringen. Dazu stellte man einzelne Personen allein in einen Raum und ließ sie sprechen. Die KI hörte zu und scannte dabei das Gesicht. Stellte man danach alle in einen Raum und ließ sie durcheinanderreden, konnte sie mittels der Ton- und Videoaufnahmen genau herausfinden, wem jeweils welche Stimme zuzuordnen ist.

Google-KI könnte Video-Telefonie und Hörgeräte verbessern

Der jüngste Algorithmentrick funktionierte sogar mit zwei Comedians, die durcheinanderredeten, Faxen und Grimassen machten. Die KI konnte sauber und fehlerfrei beide Stimmen jeweils als getrennte Audiospuren isolieren, und zwar in bester Qualität. Vorstellbar ist, dass solch ein Programm dabei helfen könnte, Software für Video-Telefonie wie Microsofts Skype deutlich zu verbessern, indem sie Nutzer von nervigen Hintergrundgeräuschen befreit und eine klare, leicht verständliche Aufnahme generiert.

Gleichzeitig ist das eine gute Nachricht für Nutzer von Hörgeräten, weil einzelne Töne und Simmen gefiltert und einzeln lauter (oder leiser ...) gestellt werden können. Die potentiellen Möglichkeiten gehen aber noch weiter: zuhörende Kameras, ausgeklügelte Überwachungsmöglichkeiten für Geheimdienste und Privatsphäremissbrauch durch Kriminelle sind denkbar. Wie immer gilt: ein achtsamer Umgang mit neuen KI-Wundern ist unerlässlich.

Wie sich die KI mit den beiden erwähnten Comedians geschlagen hat, seht ihr hier:

Hier erfährst du mehr über: Google

Sag uns deine Meinung!