Mit der Einführung von ChatGPT sind Künstliche Intelligenz (KI) und maschinelles Lernen stark in den Fokus gerückt. Insbesondere im Bereich der KI-Stimmen versprechen viele Anbieter, dass ihre künstlichen Stimmen von echten nicht zu unterscheiden sind. Doch wer bereits die KI-Stimme „Adam“ in sozialen Medien gehört hat, weiß, dass diese Behauptung nicht der Realität entspricht. Die KI-Stimmen mögen den reinen Inhalt eines Textes wiedergeben können, jedoch fehlt ihnen die Fähigkeit, diesen mit passender Betonung und Gefühlen anzureichern.
KI-Stimmen: Monoton und künstlich trotz Fortschritte im maschinellen Lernen
Künstliche Intelligenz (KI) wird oft als Etikettenschwindel betrachtet, da die gängigen Sprachmodelle keine echte Intelligenz aufweisen. Stattdessen werden sie durch maschinelles Lernen darauf trainiert, Stimmen anhand umfangreicher Audiomaterialien zu simulieren. Obwohl KI-Stimmen den reinen Inhalt eines Textes wiedergeben können, fehlt ihnen die Fähigkeit, Diktion, Betonungen und Emotionen richtig zu interpretieren und dem Text entsprechend anzupassen.
KI-Stimmen haben heutzutage die Fähigkeit, Texte vorzulesen. Allerdings können sie Betonungen und Emotionen nicht dem Inhalt entsprechend anpassen. Dadurch klingen KI-Stimmen monoton und künstlich. Sie transportieren lediglich den reinen Inhalt eines Textes, ohne ihn mit passender Betonung und Gefühlen zu bereichern. Dies liegt an der fehlenden Diktion und Tonalität, die für die Interpretation des gesprochenen Textes wichtig sind. Professionelle Sprecher sind daher bisher KI-Stimmen überlegen.
Künstliche Intelligenz (KI) hat Schwierigkeiten beim Textverständnis, da ihr persönliche Erfahrungen fehlen, die eine Rolle bei der Interpretation eines Textes spielen könnten. Dies wird anhand des Beispiels deutlich, dass ein einfacher Satz wie „Wie siehst du denn aus?“ je nach Kontext verschiedene Emotionen erfordert. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht, wie Hierstetter erläutert.
Die Wiedergabe des sogenannten Subtexts, der die indirekte Bedeutung eines Textes darstellt und erst durch die richtige Betonung deutlich wird, ist für Künstliche Intelligenz (KI) gegenwärtig nicht möglich. Selbst erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext sofort überzeugend durch ihre Stimme zu vermitteln. In solchen Fällen ist die Unterstützung eines Regisseurs erforderlich, um den Subtext angemessen zu interpretieren.
KI-Stimmen haben Schwierigkeiten, komplexe Regieanweisungen korrekt umzusetzen. Wenn Sie einer KI-Stimme sagen: „Sei etwas abgehoben, aber immer noch nahbar“, kann sie Schwierigkeiten haben, die richtige Interpretation dieser Anweisungen zu finden. Darüber hinaus können KI-Stimmen den Abschluss eines Textes nicht dynamisch anpassen, was zu einer Diskrepanz zwischen den gewünschten und tatsächlichen Betonungen führen kann.
Obwohl sich KI-Stimmen rasant weiterentwickeln, ist Hierstetter skeptisch, dass diese Herausforderungen in absehbarer Zeit bewältigt werden können. Es ist unbestreitbar, dass Fortschritte erzielt werden und die Stimmen immer natürlicher klingen werden. Dennoch bleibt das Problem der falschen Betonungen oder des Fehlens von Betonungen bestehen, was insbesondere bei längeren Texten zu einem monotonen und unnatürlichen Klang führen kann.
Der Missbrauch von Audiomaterial ohne ausreichende Verwertungsrechte kann ernsthafte Konsequenzen nach sich ziehen. Ein Beispiel dafür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme plötzlich in zahllosen TikTok-Videos aufgetaucht ist, ohne dass sie dafür ihre Zustimmung gegeben hatte. Standing hat TikTok erfolgreich in den USA verklagt, da ihre Stimme ohne Erlaubnis verwendet wurde. Es ist daher von großer Bedeutung, sicherzustellen, dass bei der Verwendung von KI-Stimmen die erforderlichen Rechte eingeholt wurden, um mögliche rechtliche Probleme zu vermeiden.
bodalgo.com ist seit 15 Jahren die führende Online-Casting-Plattform für Unternehmen, die auf der Suche nach der idealen Stimme für ihre Projekte sind. Die Plattform bietet eine breite Palette an professionellen Sprechern für Werbung, E-Learning und Image-Filme. Mit beeindruckenden 60.000 abgewickelten Castings hat bodalgo.com bewiesen, dass es ein verlässlicher Partner ist.
Künstliche Intelligenz (KI) hat für die Zukunft der Plattform bodalgo.com keine Bedeutung in Bezug auf die Erzeugung von Stimmen. Allerdings setzen sie KI bereits erfolgreich in anderen Bereichen ein, wie beispielsweise bei der Transkription von Videos und Audios mit bodalgoScripta. Diese KI-Technologie liefert bereits herausragende Ergebnisse. Trotzdem werden KI-Stimmen noch für eine längere Zeit keine ernsthafte Konkurrenz für professionelle Sprecher darstellen.
In der Regel setzen Produktionsstudios eher auf echte Sprecher als auf künstliche Stimmen. Es gibt jedoch Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Hier wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so angepasst, dass sie wie die des verstorbenen Hans Clarin klingt, der dem Kobold Pumuckl über 30 Jahre lang seine Stimme lieh.
Derzeit sind KI-Stimmen noch nicht in der Lage, die Vorteile professioneller Sprecher zu bieten. Sie können Texte nicht richtig interpretieren und Betonungen sowie Emotionen nicht angemessen anpassen, was zu einem monotonen und künstlichen Klang führt. Zudem fehlt ihnen das echte Textverständnis und die Fähigkeit, den Subtext eines Textes zu transportieren. Trotz einiger Fortschritte in der Entwicklung von KI-Stimmen sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher.