Springe direkt zu Inhalt

Service | Vom Dokument zur Edition - Teil 1: Handschriftenerkennung mit Transkribus

18.01.2024 | 10:00 - 14:00

Ein Angebot der Universitätsbibliothek für Forschende und Lehrende der Freien Universität Berlin

Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, muss das „digitale Paradigma“ bei Konzeption und Realisierung konsequent mitgedacht werden. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.

Am Anfang eines digitalen Editionsprojekts steht in der Regel das Digitalisat einer historischen Handschrift oder eines Drucks. In den letzten Jahren hat sich der Einsatz von sog. HTR-Programmen etabliert, mit deren Hilfe Digitalisate semiautomatisch segmentiert und Texte transkribiert werden können. Unterstützt durch maschinelles Lernen lassen sich hierzu für das vorliegende Material Modelle trainieren, die z. B. auf das Erkennen bestimmter Schriften spezialisiert sind. Im Zentrum dieses Workshops steht die HTR-Plattform Transkribus. Es werden anhand von Beispieldokumenten Schritt für Schritt Dokumentimport, Verwaltung von Dokumentkorpora, Layoutanalyse und HTR-Erkennung erprobt. Des Weiteren werden im erkannten Text Annotationen vorgenommen, die beim Datenexport in das Zielformat, z. B. TEI/XML, übernommen und als Grundlage für die Weiterverarbeitung, z. B. die Überführung der Daten in eine Web-Darstellung, dienen können.

Im Zusammenspiel mit dem Workshop Vom Dokument zur Edition - Teil 2: Textpräsentation mit dem TEI-Publisher wird ein Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.

Diese Veranstaltung ist Teil der Reihe "D4T4 L1T3R4CY".

Weitere Informationen sowie das Anmeldeformular finden Sie hier.

Zeit & Ort

18.01.2024 | 10:00 - 14:00

Garystraße 39
14195 Berlin