Die Herausforderung war nicht gerade klein. Im Juni dieses Jahres kamen zu den Personaltagen der Deutschsprachigen SAP-Anwendergruppe e.V. (DSAG) ausgewiesene HR- und IT-Profis in die OsnabrückHalle. Das Thema des Kongresses: Arbeiten im Personalwesen der Zukunft mit unter anderem einem Themenschwerpunkt „Künstliche Intelligenz“. Und genau hier wollte Shawn Hellmann, Ton- und Medientechniker bei der Marketing Osnabrück GmbH mit großer Begeisterung für KI, etwas umsetzen, womit er schon länger geliebäugelt hatte: Die Echtzeitübersetzung eines englischsprachigen Vortrags auf Deutsch in Form von Untertiteln auf dem großen Screen. Mit KI.
„Da eines der Schwerpunktthemen der Veranstaltung KI war, dachte ich, dass das doch der perfekte Anlass sein könnte, die Sache in Angriff zu nehmen“, sagt Hellmann. So wurden schon existierende Tools auf Verlässlichkeit und Praktikabilität im Veranstaltungskontext getestet. Denn Künstliche Intelligenz, die in Echtzeit übersetzen kann, gibt es bereits. Und Programme, die Tonaufnahmen verschriftlichen, ebenfalls.
Alles muss perfekt passen
„Das kennt jeder heutzutage von seinem Handy, deshalb hört sich das erst mal gar nicht so kompliziert an“, so Hellmann. „Das Problem ist aber, die asynchronen Prozesse von Übersetzung und Transkription mit einer möglichst kurzen Verzögerung zusammenzubringen. Und das nicht nur für den Hausgebrauch, sondern für ein professionelles Veranstaltungsformat, bei dem am Ende alles perfekt passen muss. Die Skalierbarkeit der Anwendungen für Veranstaltungen muss gegeben sein“.
Nach vielen recht unbefriedigenden Versuchen mit ChatGPT, Google Translate, Deepl und anderen bekannten KI-Anwendungen stieß Hellmann schließlich auf Speech Translate. Das Open Source-Tool kann von jedem heruntergeladen und entsprechend den eigenen Bedürfnissen verändert werden.
„Verschiedenste Parameter müssen aber je nach Sprachduktus und SprecherIn angepasst werden“, sagt Hellmann. „Im aktuellen Zustand kann dies leider noch nicht automatisiert erkannt werden, somit muss dies manuell für jede sprechende Person eingestellt werden.“
Schließlich stand für Hellmann fest: Ein Probentermin muss her, um alles genau auf den Referenten abzustimmen. Hellmanns Glück: Jurgen van den Hoogen von der Jheronimus Academy of Data Science in den Niederlanden interessierte sich als Datenanalyst selbst sehr für Hellmanns Vorhaben und war sofort dabei. Ebenso wie Andreas Närmann vom Ausrichter des Kongresses, der Deutschsprachigen SAP-Anwendergruppe.
Speaker van den Hoogen „total geflasht“
Nach kurzer Zeit waren alle mit den in Echtzeit generierten Untertiteln der Rede zufrieden. Die KI konnte van den Hoogens Sprachduktus erkennen, setzte an den richtigen Stellen Punkte und Kommas ein, übersetzte auch komplizierte Fachbegriffe richtig und war mit einer Latenz von lediglich 1,5 Sekunden vom gesprochenen, englischen Wort zum deutschen Text sogar richtig schnell. Auch Jurgen van den Hoogen war Hellmanns Aussage zufolge „total geflasht“.
Ein riesiger Aufwand, der sich Hellmann zufolge aber gelohnt hat. Bis auf wenige, kleine Wackler in der Übersetzung lief alles wie geplant. „Nach dem Vortrag kamen einige der KI-Experten zu mir und wollten wissen, wie die Übersetzung genau umgesetzt wurde.“
Die Vorteile des Tools lagen für alle TeilnehmerInnen sofort auf der Hand: Durch die Verwendung von Untertiteln machen Veranstaltungen einen großen Schritt in Richtung Barrierefreiheit, zudem können Speaker unabhängig von ihren Sprachkenntnissen (oder denen des Publikums) für Events gebucht werden.
Kosten und Datenschutz als Knackpunkt
Nachteile gibt es aber natürlich auch. Da wären zum einen die Kosten, denn Grafikprozessoren mit großem Speicher sind teuer. Auch der Datenschutz muss berücksichtigt werden – schließlich läuft ein Teil des Tools über Google Translate und damit über US-amerikanische Server. „Das bereitet mir immer ein bisschen Bauchschmerzen“, gibt Hellmann zu. Doch so lange es noch keine vernünftige Alternative gebe, müsse man damit leben. Und zwingend das Einverständnis der Person einholen, deren Rede übersetzt werden soll.
Ein weiterer Punkt, an dem noch viel zu tun ist, ist Hellmann zufolge die Fragilität des Tools. Da die Vorbereitung und die Einstellung so aufwändig seien, müsse man sich momentan noch mit einem Vortrag pro Veranstaltungstag begnügen. „Empfehlen kann ich die Anwendung für eine lange Keynote, nicht aber für mehrere kurze Speaker-Slots hintereinander.“
Hinzu kommt: Schon zwei Monate nach dem Kongress war, wie es Hellmann formuliert, sein Tool „schon nicht mehr state of the art“. So habe beispielsweise Samsung mit KI-Live-Übersetzungen erst kürzlich eine sehr gut funktionierende Anwendung geschaffen – zumindest für den Privatgebrauch.
„Wir brauchen eigene Tools für die Veranstaltungsbranche und Leute, die bereit sind, sich mit dem Thema Künstliche Intelligenz intensiv auseinanderzusetzen. Wenn man nicht immer das Ohr auf der Schiene hat, funktioniert das nicht“, sagt Hellmann.
Klar ist: Hellmann wird weiter tüfteln. Auf News in Sachen Veranstaltungstechnik aus Osnabrück darf man also gespannt sein.
Susanne Layh