Transkribieren mit KI-Tools im Test

Bild generiert mit der DALL·E von OpenAI

Interviews auf Knopfdruck transkribieren lassen? Dank KI geht das mit verblüffender Genauigkeit und oft in wenigen Minuten oder gar Sekunden. Fünf Dienste und Programme im Test, die das lästige Abtippen ersparen. Dieser Beitrag ist in Gänze im „medium magazin“ 06/2024  erschienen.

Text: Stefan Mey


Das waren noch Zeiten. Stolz wie Bolle war ich auf meinen laienhaften Transkriptions-Erfolg: Eine Stunde Interview hatte ich in dreieinhalb Stunden abgetippt. Viel Zeit ging für diese stupide Tätigkeit drauf, nach der zudem oft der Arm schmerzte.

Heute erledigt Technologie diese Arbeit, dank Künstlicher Intelligenz mit hoher Genauigkeit. Transkriptions-KIs wurden so lange mit Audio- und Video-Dateien und den dazugehörigen Transkripten trainiert, dass sie fast jede beliebige Aufnahme zielsicher in Text umwandeln können.

Für diese Masterclass haben wir fünf Transkriptions-Tools mit einem aktuellen Gespräch getestet: das 26-minütige Interview der TV-Journalistin San­dra Maischberger mit dem frisch aus dem Amt entlassenen Bundesfinanzminister Christian Lindner. Verglichen werden die jeweils ersten 1.000 Wörter des Transkripts mit einer händisch korrigierten Version. Wir vergleichen in zwei Kategorien:

Zeit: Wir haben genau geschaut, wie lange das jeweilige Tool für die Autotranskription braucht. Dazu haben wir die Zeit des Gesprächs in Relation zur Transkriptionszeit gesetzt. Braucht ein Tool 13 Minuten für das 26-minütige Interview, heißt das: 50 Prozent. Braucht es 52 Minuten, heißt das: 200 Prozent. Hier gilt also: Je höher der Prozentwert, desto langsamer ist das Programm und schneidet in unserem Test schlechter ab.

Fehler: Das Maß aller Dinge dabei ist die „Word Error Rate“ (WER). Man zählt, wie viele Wörter bei einer manuellen Durchsicht korrigiert, gelöscht oder ergänzt werden müssen, und setzt diesen Wert in Relation zur Gesamtzahl der Wörter. Ein Text mit hundert Wörtern, in dem fünf falsch sind, hat also eine WER von 5 Prozent. In unserem Beispiel mit 1.000 Wörtern gibt es pro Fehler einen Abzug in der WER von 0,1 Prozent.

Zieht man die Fehlerquote von 100 ab, erhält man eine Genauigkeit in Prozent. Vorneweg: Alle Dienste und Technologien erreichen mühelos eine Genauigkeit von weit über 90 Prozent. Fast alles stimmt: Rechtschreibung, Grammatik und Satzerkennung. Dialekte sind kein Problem. Fehler gibt es vor allem bei seltenen Fachbegriffen und Namen. „Lindner“ etwa wird korrekt erkannt. „Maischberger“ hingegen interpretieren die Tools kreativ immer wieder anders: „Maisberger“, „Meisch-Berler“, „Maichberger“ oder „Meisterler“.

Nacharbeit bei KI stets erforderlich

Alle getesteten Dienste und Programme verfügen jeweils über einen Text-Editor, der das Transkript mit der ursprünglichen Audioaufnahme verbindet. Man kann einzelne Stellen anklicken und Aufnahme und Transkript vergleichen. Das ist dringend zu empfehlen.

Selbst wenn sich die „Word Error Rate“ im Promillebereich bewegt – Künstliche Intelligenz macht Fehler. Umso mehr, je schlechter die Aufnahmequalität ist. Und wie ChatGPT und andere KI-Bots halluziniert auch Transkriptions-KI mitunter und erfindet Wörter oder Sätze. Das kann etwa bei zu starken Hintergrundgeräuschen oder bei überlappender Sprache passieren.

1. Noscribe

tionen steht aber auch eine frei und kostenlos nutzbare Lösung zur Verfügung: Whisper aus dem Haus OpenAI, das auch für ChatGPT verantwortlich ist. Die Software ist allerdings schwierig zu installieren und zu nutzen und für Leute ohne IT-Background wenig praktikabel.

NoScribe nutzt zwei der insgesamt fünf Whisper-Modelle. Das kostenlose PC-Programm hat der Soziologe Kai Dröge entwickelt. Er lehrt qualitative Sozialforschung an der Hochschule Luzern und hat auch Informatik studiert. Ursprünglich war NoScribe als Hilfsmittel für die sozialwissenschaftliche Forschung gedacht, eignet sich aber auch gut für die journalistische Arbeit.

Das 3,5 Gigabyte große Softwarepaket für das schlichte Programm lädt man von der Programmierplattform GitHub herunter und installiert es. Der Test von NoScribe zeigt: Die beiden verwendeten Modelle unterscheiden sich in puncto Genauigkeit und Geschwindigkeit. Im Modus „precise“ kommt NoScribe auf eine „Word Error Rate“ von 0,8 Prozent. Der „fast“-Modus produziert 26 Fehler – macht 2,6 Prozent.

Ein Manko für Journalistinnen und Journalisten, die schnell arbeiten müssen: NoScribe kostet Zeit. Die Geschwindigkeit einer Transkription hängt bei dem Tool, das auf dem eigenen Gerät arbeitet, vor allem von der verwendeten Hardware und der Auslastung des Gerätes ab. Cloud-basierte Lösungen sind sehr viel schneller. Für die „precise“-Transkription des Lindner-Interviews benötigt NoScribe auf unserem Testgerät 78 Minuten (300 Prozent der Interview-Laufzeit). Im „fast“-Modus sind es 19 Minuten (73 Prozent).

Und das gilt nur für die reine Transkription. Denn die Vorlage Whisper enthält keine eigene Sprechererkennung. Dafür hat Kai Dröge eine externe freie Software eingebunden – und die arbeitet quälend langsam. Allein die Sprechererkennung dauert weitere 78 Minuten. Das heißt: Will man das Lindner-Interview im präzisen Modus mit Sprechererkennung transkribieren, arbeitet der Rechner 156 Minuten lang. Das entspricht 600 Prozent der Interviewdauer.

Wenn Dröge mit NoScribe längere Interviews transkribiert, lässt er den Rechner über Nacht laufen. Was die Arbeit erleichtert: Während der Transkription zeigt das Programm kontinuierlich an, was bisher in Text übertragen wurde. Man kann somit schon während des laufenden Vorgangs Textabschnitte kopieren und bearbeiten.

Im Vergleich zu kommerziellen Diensten könnte auch stören, dass NoScribe kein einziges „äh“ und auch keine Füllwörter herausfiltert. Außerdem generiert das Programm nicht von selbst Textabschnitte. Ohne Sprechererkennung erzeugt das Programm einen großen Textblock. Und: Der Editor ist bei allen kommerziellen Diensten eleganter als bei NoScribe – das kann man bei einem kostenlosen Angebot aber aushalten.

ERGEBNIS NOSCRIBE

Link: github.com/kaixxx/noScribe
Preis: kostenlos
Word Error Rate: 0,8 % (precise), 2,6 % (fast)
Geschwindigkeit: 600 % der Interview-Laufzeit (precise mit Sprechererkennung), 300 % (precise), 73 % (fast)

[….]

Die "Journalistinnen und Journalisten des Jahres 2024": Marcus Bensmann, Justus von Daniels, Anette Dowideit, Gabriela Keller und Jean Peters von Correctiv

Den gesamten Artikel von Stefan Mey mit dem Test von fünf verschiedenen KI-Transkriptionslösungen Noscribe, Turboscribe, Happyscribe, Microsoft Word und Transcribe können Sie im „medium magazin“ 06/24 lesen. Außerdem: Alle Preisträgerinnen und Preisträger in sämtlichen Kategorien der „Journalistinnen und Journalisten des Jahres“ 2024  und das große Titel-Interview mit Justus von Daniels, Anette Dowideit und Jean Peters von Correctiv. Auch in dieser Ausgabe: Der Jahresvorausblick 2025. Zwölf Medienschaffende wagen (nicht ganz ernstgemeinte) Prognosen für das kommende Jahr. Dazu gibt es wieder jede Menge praktischer Tipps, etwa zum unsichtbaren Recherchieren . Das „medium magazin“ 06/24 ist digital oder als Printausgabe hier erhältlich oder im ikiosk.