Vision

Als ich während meiner Fortbildung zu künstlicher Intelligenz Einblick in die Möglichkeiten bekam, die sich mit dieser Technologie bieten, kam ich auf Ideen, welche weiteren Anwendungen man damit wird entwickeln können.

Audio Stem Splitting

Beim Audio Stem Splitting wird eine Tonaufnahme in ihre Bestandteile zerlegt, so dass jede Quelle einen eigenen mono- oder stereo-Kanal bekommt. Das ermöglicht, diese einzelnen Kanäle neu zu bearbeiten.

Anwendungsfälle sind:

Neuer Klang für historische Aufnahmen
Historische Aufnahmen leiden meist unter den schlechten Mikrofonen, die zum Einsatz kamen, und darunter, dass sie heute nur noch in Mono oder Stereo vorliegen. Die Zerlegung in einzelne Kanäle ermöglicht es, die einzelnen Quellen neu abzumischen. Es ist sogar denkbar, dass man den Klang komplett ersetzt, so dass der ursprüngliche Künstler, der wahrscheinlich schon lange nicht mehr lebt, ein modern aufgenommenes Instrument spielt. Die einzelnen Kanäle lassen sich dann wieder zu Stereo- und Surround Sound-Aufnahmen mischen.
Wollen Sie Maria Callas, Enrico Caruso, Bessie Smith und Billie Holiday so hören wie das damalige Publikum? Oder den oft mäßig klingenden Aufnahmen unserer Lieblingsbands aus den 1970er Jahren einen modernen Klang verleihen?
Genug Trainingsdaten sind vorhanden, man müsste sie aber für das supervised learning aufbereiten, was sehr aufwändig ist. Es ist daher wohl leider wenig wahrscheinlich, dass es genug Nachfrage gibt, um die enormen Kosten zu rechtfertigen.
Geräuschfilter für Autisten
Autisten leiden darunter, dass sie die Wahrnehmungen ihrer Umwelt oft nicht filtern können, von den Einflüssen überwältigt sind und sich daher in fremden Umgebungen nicht zurechtfinden. Audio Stem Splitting könnte ihnen diesen Filter bieten.

Neuer Klang für historische Aufnahmen. — [mit KI erstellt] KI ist beim Aufspalten von Audiosignalen traditionellen Algorithmen überlegen.

Es gibt bereits Audio Stem Splitting Applikationen mit KI. Die Ergebnisse sind, nach meiner Beobachtung, für Stimme und Schlagzeug überzeugend, für alle anderen Instrumente dagegen eher enttäuschend. Es gibt daher durchaus noch einiges zu tun. Es wäre mir persönlich eine große Freude, dabei mitzuwirken.

Erkennung von Gefühlen und Stimmungen für die Psychotherapie

Eine wesentliche Kompetenz von Psychotherapeuten ist es, Gefühle und Stimmungen aus den Gesichtern, der Stimme und der Sprache ihrer Patienten zu lesen. Diese Fähigkeiten können aber auch einer KI antrainiert werden. Das wäre dann ein Bestandteil eines virtuellen Psychotherapeuten, der wie ein Chatbot mit dem Patienten Sitzungen durchführt.

Virtuelle Psychotherapeuten könnten die realen Psychotherapeuten entlasten und dem großen Mangel begegnen.

Therapiesitzung mit einem KI-Therapeuten. — [mit KI erstellt] KI-basierte virtuelle Psychotherapie: Ein Blick in die Zukunft der Gesundheitsversorgung, wo KI nicht nur Sprache interpretiert, sondern auch Gesichtsausdrücke und Stimmungen erkennen kann.

Es gibt schon Chatbots, die sich aber bisher nur auf die Sprache beschränken¹. Es gab aber auch mal eine Anwendung namens Emo-Scan², die für Marketing Zwecke Gesichter gelesen hat. Das ist mittlerweile nicht mehr KI-VO-konform. Für die Psychotherapie könnte man das aber nochmal neu evaluieren.

Einen virtuellen Psychotherapeuten, der alle diese Kompetenzen vereint, gibt es aber bisher nicht. Auch das wäre eine spannende Aufgabe, der ich mich gerne widmen würde.

¹Quellen:
Therapie per KI? | Doku HD | ARTE;
Dartmouth's Therabot

²Quellen:
GfK EMO Sensor macht Emotionen auf Marketingaktivitäten messbar;
Softwaregestützte Mimikanalyse zur Messung von Emotionen.