NFDI-Projekt "ASR4Memory"
Automatische Transkription von audiovisuellen Forschungsdaten
Das von der NFDI4Memory geförderte Projekt "ASR4Memory" hat für die Forschungscommunity ein Angebot zur automatischen Transkription von audiovisuellen Forschungsdaten entwickelt. Ein fachlicher Schwerpunkt liegt auf den historisch arbeitenden Geisteswissenschaften.
Mit diesem Service können audiovisuelle Ressourcen aus heterogenen Quellen in verschiedenen Sprachen für unterschiedliche Forschungs-, Nachnutzungs- und Archivierungsszenarien automatisch transkribiert werden. Die Forschungsdaten werden datenschutzkonform ausschließlich auf lokal betriebenen Infrastrukturen der Freien Universität Berlin verarbeitet.
Das bieten wir:In der Forschungscommunity besteht ein großes Interesse, audiovisuelle Bestände technisch zu optimieren, nach wissenschaftlichen Standards in Textform bereitzustellen und inhaltlich zu erschließen sowie bei neuen Projekten die Nachnutzbarkeit mitzudenken. Dieses Angebot ermöglicht es, audiovisuelle Forschungsressourcen – z.B. Zeitzeugeninterviews, Dokumentarfilme oder Tonaufzeichnungen – automatisiert in der Originalsprache (aktuell sind 30 Sprachen möglich) zu transkribieren und somit eine wichtige Grundlage für die wissenschaftliche Erschließung der audiovisuellen Ressourcen zu schaffen.
Der Service setzt – unter fachlich kritischer Auseinandersetzung mit dem Thema „Künstliche Intelligenz“ – Open-Source-basierte Spracherkenner zur automatischen Transkription (ASR) ein. Die audiovisuellen Forschungsressourcen werden in einem ersten Schritt automatisiert in höchstmöglicher Audioqualität aufbereitet, anschließend mit einer bestmöglichen Wortgenauigkeit und Rechenperformance spracherkannt und schließlich nach wissenschaftlichen Standards in zeitkodierte Transkript- und Austauschformate konvertiert.
Die Nutzer*innen erhalten die erzeugten Transkripte in verschiedenen Exportformaten für die weitere Nachnutzung, darunter TXT- und ODS-Dateien zur manuellen Nachbearbeitung, CSV- und JSON-Dateien zur automatischen Datenverarbeitung, VTT- und SRT-Dateien zur Untertitelung von AV-Ressourcen sowie PDF-Dateien zur Langzeitsicherung der Transkripte, zum Teil mit Sprecherauszeichnungen und wort-/satzbasierten Timecodes. Perspektivisch werden auch die Austauschformate TEI/XML und IIIF/AV bereitgestellt. Die Exportformate eignen sich zum Beispiel für den Import in die Recherche- und Erschließungsplattform „Oral-History.Digital“.
Der Leistungsumfang im Überblick- Tool als Web-Service oder Open-Source-Software nutzbar (über CPU oder GPU)
- Datenschutz: Datenverarbeitung ausschließlich in der Infrastruktur von „Oral-History.Digital“ (Server an der Freien Universität) oder Installation und Betrieb auf eigenem Rechner
- Performance: schnelle Verarbeitung, qualitativ hochwertige Transkription (geringe Fehlerrate)
- Mehrsprachigkeit: Unterstützung von mehr als 30 Sprachen, automatische Sprachdetektion möglich
- Diarisierung: satzbasierte Erkennung und Annotation der Sprecher*innen
- Alignierung: millisekundengenaue wortbasierte Zeitstempel zur Synchronisation von Transkript/AV
- Segmentlänge: intelligente, dynamisch anpassbare Begrenzung der Zeichen pro Segment
- Transkriptformate: Export standardisierter Dateitypen wie txt, rtf, odt, ods, pdf, csv, json, vtt, srt, xml
Momentan trainieren wir ein Deep-Learning-basiertes Spracherkennungsmodell mit fachlich kuratierten und optimal aufbereiteten Trainingsdaten auf einem High-Performance Computer (HPC). Ziel dieses Finetunings ist die Verbesserung der Transkriptionsqualität, die Verringerung schwerwiegender Fehler sowie die Erstellung von domänenspezifischen Spracherkennungsmodellen für einzelne Fachdisziplinen.
Im Austausch mit den Nutzenden werden die Bedarfe und Anforderungen der Forschungscommunity sowie Schwächen und Potenziale der Transkriptionspipeline kontinuierlich erfasst, die in unsere Entwicklungsarbeit einfließen.
So können Sie ASR4Memory nutzen:Möchten Sie Ihre audiovisuellen Ressourcen automatisch transkribieren lassen, wenden Sie sich gerne an die u.g. Kontaktadressen. Für die Nutzung von ASR4Memory müssen die zu transkribierenden Ressourcen in gängigen digitalen Medienformaten vorliegen und für Forschungszwecke, bspw. im Rahmen der Plattform „Oral-History.Digital“, eingesetzt werden.
Nach der Klärung, ob Ihre Daten für unser Angebot technisch und inhaltlich infrage kommen und wir diesen Auftrag übernehmen können, werden Sie für den Webzugang freigeschaltet und können die Audio-/Videoressourcen zur Transkription hochladen.
Ihre audiovisuellen Daten werden über die an der FU Berlin betriebene Infrastruktur von „Oral-History.Digital“ transkribiert und anschließend in verschiedenen Transkriptformaten über den Webzugang bereitgestellt.
Hier werden die aktuellen Projektergebnisse publiziert:Projektwebseite: https://www.fu-berlin.de/asr4memory
Github-Repositorien: https://github.com/asr4memory
Weitere Links:Beitrag im Blog von 4Memory, 7.3.2025: "Vom gesprochenen Wort zum Text: KI-gestützte Transkription audiovisueller Forschungsdaten": https://4memory.de/2025/03/07/vom-gesprochenen-wort-zum-text-ki-gestutzte-transkription-audiovisueller-forschungsdaten/
Lunch Break @ 4Memory Incubator Funds, 12.3.2024: https://4memory.de/2024/03/05/lunch-break-4memory-incubator-funds-12-03/
4Memory Incubator Funds 2024: https://4memory.de/4memory-incubator-funds/
ASR4Memory sucht Pilotnutzende: https://4memory.de/2024/03/18/asr4memory-sucht-pilotnutzende
Team:- Projektleitung: Dr. Tobias Kilgus
- Projektmitarbeiter: Peter Kompiel, Marc Altmann, Dr. Christian Horvat