Der Text zum Ton
Das Team „Digitale Interview-Sammlungen“ der Universitätsbibliothek hat ein sicheres Transkriptions-Tool entwickelt
06.10.2025
Tobias Kilgus (links) und Peter Kompiel (rechts) aus dem Team der Universitätsbibliothek haben gemeinsam mit Marc Altmann und Christian Horvat (beide nicht im Bild) das Transkriptions-Tool ASR4-Memory entwickelt.
Bildquelle: Universitätsbibliothek
„Wer schreibt, der bleibt“, sagt ein Sprichwort. Heute übernimmt das Schreiben die KI, damit Forschende mündlich überlieferte Lebensgeschichten, Reden, Vorträge, Filme sowie Radio- und Fernsehsendungen – kurz: audiovisuelle Forschungsdaten – systematisch auswerten können – und diese im Gedächtnis bleiben. Tobias Kilgus, promovierter Politikwissenschaftler, arbeitet im Team der Universitätsbibliothek an einer interaktiven Forschungs- und Lernplattform für Oral History. Dort finden sich Interviews mit Zwangsarbeiter*innen aus der NS-Zeit oder Berichte über die „Colonia Dignidad“, eine deutsche Sektensiedlung und kriminelle Vereinigung in Chile. Für Forschende hat sein Team die Anwendung „ASR4Memory“ entwickelt, die Audio- und Videomaterial in Text umwandelt.
Herr Kilgus, warum und für welche Forschenden haben Sie „ASR4Memory“ entwickelt?
In Archiven, Universitäten, Museen, Gedenkstätten und Bibliotheken schlummern zahlreiche unerschlossene Sammlungen audiovisueller Quellen. Dazu zählen etwa lebensgeschichtliche Interviews oder Videoaufzeichnungen wissenschaftlicher Vorträge. Das Interesse ist groß, solche wertvollen Ressourcen technisch aufzubereiten, inhaltlich zu analysieren und nach wissenschaftlichen Standards für Forschung und Nachnutzung zugänglich zu machen – auch an vielen Fachbereichen und Instituten der Freien Universität.
Dafür müssen die Audio- oder Videoaufnahmen aber in Form von Transkripten verschriftlicht werden. Bisher geschah das oft von Hand mithilfe spezieller Software, oder kommerzielle Anbieter haben die Transkription übernommen. Das kostet viel Zeit und Geld, zudem wirft die oft cloudbasierte Datenverarbeitung juristische Fragen zu Datenschutz- und Nutzungsrechten auf.
Künstliche Intelligenz (KI) eröffnet inzwischen viele Möglichkeiten, audiovisuelle Inhalte mithilfe automatischer Spracherkennung – auf Englisch: Automatic Speech Recognition, abgekürzt ASR – zu transkribieren. Besonders Open-Source-Anwendungen bieten dank ihrer Flexibilität und der Unterstützung durch die Community großes Potenzial für vielfältige Forschungsvorhaben. Dieses Potenzial haben wir für „ASR4Memory“ genutzt.
Wie sind Sie dabei vorgegangen?
Das Team der Digitalen Interview-Sammlungen in der Abteilung Forschungs- und Publikationsservices hat die Transkriptionsanwendung „ASR4Memory“ an der Universitätsbibliothek entwickelt. Für die Umsetzung haben meine Kollegen Peter Kompiel, Marc Altmann und ich eine Förderung von 4Memory, dem geschichtswissenschaftlichen Konsortium der Nationalen Forschungsdateninfrastruktur (NFDI) bekommen.
Die automatische Transkription stützt sich auf „WhisperX“, eine an der Universität Oxford entwickelte Open-Source-Variante des Spracherkenners „Whisper“ von OpenAI, dem Unternehmen hinter dem bekannten Sprachmodell „ChatGPT“.
Mit der Programmiersprache „Python“ haben wir eine Transkriptionspipeline aufgebaut, die nahtlos alle Arbeitsschritte kombiniert. Sie ist integriert in das Interviewportal „Oral-History. Digital“, eine Erschließungs- und Rechercheplattform für Zeitzeug*innen-Interviews, die die Universitätsbibliothek seit 2020 entwickelt.
Wie funktioniert der Transkriptionsservice?
Über ihren Webbrowser laden Forschende ihre Audio- und Video-Dateien auf die Server der Freien Universität hoch, wo sie sicher und datenschutzkonform verarbeitet und anschließend wieder gelöscht werden. Zuerst wird die Tonspur aus der Mediendatei extrahiert und das Sprachsignal tontechnisch optimiert. Danach folgt die Transkription in der Originalsprache – aktuell sind 30 Sprachen möglich. Ergebnis ist ein Text mit Zeitstempeln, den die Nutzer*innen über eine sichere Datenübertragung herunterladen und flexibel weiterbearbeiten und nachnutzen können. Alternativ können Forschende die Pipeline als Open-Source-Software lokal installieren und für ihre Bedürfnisse anpassen.
Welche Stärken und welche Schwächen hat das Programm?
Die Anwendung liefert herausragende Ergebnisse: Bei deutschsprachigen Aufnahmen mit klarer Audioqualität und wenig Akzent oder Dialekt treten kaum Fehler auf. Jedes gesprochene Wort wird auf die Millisekunde genau mit einem Zeitstempel versehen. Gleichzeitig ist der Datenschutz gewährleistet und das Programm kann mit anderen Systemen nahtlos zusammenarbeiten.
Schwächen der KI-gestützten Transkription zeigen sich allerdings in gelegentlichen „Halluzinationen“: Der Spracherkenner fügt Inhalte ein, die nicht gesagt wurden, sondern aus den Trainingsdaten stammen und nichts mit dem tatsächlichen Gesprochenen zu tun haben. Auch erkennt die Software Personennamen, Fachbegriffe und Orte nicht immer korrekt. Zudem hat sie mit schnellen Sprecherwechseln und parallelem Sprechen oft Mühe. Das Transkript wird außerdem geglättet: Füll- und Bindewörter fehlen häufig, der Satzbau wird korrigiert, Dialekte ins Hochdeutsche umgewandelt. Für manche wissenschaftliche Analysen weicht diese lesefreundliche Glättung zu stark von der gesprochenen Sprache ab.
Können Sie diese Schwächen noch beheben?
Momentan verbessern wir das Spracherkennungsmodell mit fachlich kuratierten und optimal aufbereiteten Trainingsdaten auf einem High-Performance-Computer. Durch das Fine-Tuning wollen wir die Qualität verbessern und die Anzahl schwerwiegender Fehler reduzieren. Außerdem arbeiten wir an speziellen Spracherkennungsmodellen für einzelne Fachdisziplinen. Hierbei kooperieren wir mit dem am Zuse-Institut Berlin angesiedelten Projekt „Geometric Neuroevolution for Fine-tuning Automatic Speech Recognition“ aus dem Exzellenzcluster „MATH+“.
Bald schon wird es möglich sein, die automatisch erstellten Transkripte direkt in der Webanwendung zu korrigieren. Und unsere Nutzer*innen helfen uns mit Feedback und Wünschen dabei, die Anwendung weiter zu verbessern.
Wer arbeitet schon mit „ASR4Memory“?
Verschiedene Einrichtungen und Projekte der Freien Universität sowie der 4Memory-Community haben die Anwendung bereits genutzt. Im Interviewportal und in der Forschungsumgebung „Oral-History.Digital“ wurden zahlreiche Sammlungen automatisch transkribiert, darunter das Archiv „Erlebte Geschichte - Freie Universität“. Auch das Universitätsarchiv, die Charité, der Fachbereich Wirtschaftswissenschaft und das geschichtswissenschaftliche Friedrich-Meinecke-Institut greifen auf das Angebot zurück.
Weitere Nutzer sind unter anderem die Technische Universität Berlin, die FernUniversität in Hagen, die Universität Hamburg, die Österreichische Mediathek, die Staatlichen Archive Bayerns, die Gedenkstätten Gestapokeller und Augustaschacht, die Stiftung Flucht, Vertreibung und Versöhnung, die Bundeskanzler-Helmut-Schmidt-Stiftung, die Forschungsstelle für Zeitgeschichte in Hamburg, die Europa-Universität Flensburg, die Friedrich-Alexander-Universität Erlangen und die Heidelberger Akademie der Wissenschaften.
Im seit 2025 von der DFG geförderten Projekt „Open.Oral-History“ dient die Transkriptionsanwendung dazu, audiovisuelle, urheberrechtlich geschützte Quellen mithilfe von KI-Tools zu anonymisieren und so öffentlich zugänglich zu machen. Mittlerweile ist das Transkriptionsangebot „ASR4Memory“ Bestandteil des offiziellen Serviceportfolios von NFDI4Memory.
Wer kann die Anwendung nutzen und wie?
Wir bieten diesen Service allen FU-Mitgliedern sowie Interviewprojekten und Einrichtungen, die das Interview-Portal „Oral-History.Digital“ nutzen. Mit Interessierten klären wir zunächst, ob ihre Daten für unser Angebot technisch und inhaltlich infrage kommen. Wenn ja, schalten wir für sie den Webzugang frei. Bei Interesse schreiben Sie bitte eine E-Mail an mail@oral-history.digital.
Die Fragen stellte Marion Kuka
Weitere Informationen
Die Freie Universität Berlin beteiligt sich über das geschichtswissenschaftliche Konsortium 4Memory an der Nationalen Forschungsdaten-Infrastruktur (NFDI). Die digitalen Interview-Sammlungen bringen insbesondere die Infrastruktur „Oral-History.Digital“ ein und machen ihre Interviews als audiovisuelle Forschungsdaten für die interdisziplinäre Forschung nutzbar.
Was bietet ASR4Memory?
- Kostenfreie Nutzung: Webanwendung (https://www.fu-berlin.de/asr4memory) für Forschende der FU Berlin und Nutzer*innen des Interviewportals „Oral-History.Digital“
- Open-Source: Software auf Github (https://github.com/asr4memory) verfügbar
- Datenschutz: Datenverarbeitung ausschließlich in der Infrastruktur von „Oral-History.Digital“ (Server der Freien Universität) oder lokale Installation auf eigenem Rechner. Keine Datenverarbeitung auf externen (Cloud-) Servern.
- Performance: schnelle Verarbeitung, qualitativ hochwertige Transkription (geringe Wortfehlerrate).
- Mehrsprachigkeit: Unterstützung von mehr als 30 Sprachen, automatische Sprachdetektion möglich.
- Diarisierung: satzbasierte Erkennung und Annotation der Sprecher*innen.
- Alignierung: millisekundengenaue wortbasierte Zeitstempel für jedes gesprochene Wort zur Synchronisation von Transkript und Audio/Video.
- Segmentlänge: intelligente, dynamisch anpassbare Begrenzung der Zeichen pro Segment.
- Transkriptformate: Export standardisierter Dateitypen wie txt, rtf, odt, ods, pdf, csv, json, vtt, srt, xml (bald auch TEI-XML).