Springe direkt zu Inhalt

Forschungsdaten dokumentieren

Diese Handreichung ist Teil einer Reihe ergänzender Materialien zur Forschungsdaten-Policy der Freien Universität Berlin.

Inhaltsverzeichnis

Definition

Die Dokumentation von Forschungsdaten spielt eine zentrale Rolle in der Forschungsdaten-Policy der Freien Universität und ist ein entscheidender Aspekt der FAIR-Prinzipien, die für Findability, Accessibility, Interoperability und Reusability stehen. Diese Prinzipien unterstreichen die Bedeutung einer umfassenden Datendokumentation, die nicht nur für die Forschenden selbst, sondern auch für weitere Projektbeteiligte, Förderinstitutionen, Fachkolleg*innen sowie Nachnutzer*innen von großer Relevanz ist. Eine effektive Datendokumentation umfasst die detaillierte Beschreibung der Daten, ihres Entstehungskontextes, der verwendeten Instrumente und Methoden, wodurch sie über die Informationen hinausgeht, die durch Metadaten bereitgestellt werden. Eine qualitativ hochwertige Dokumentation erhöht die Zitierfähigkeit der Forschungsdaten, fördert ihr Verständnis und schafft Klarheit über mögliche Szenarien ihrer Nachnutzung, im Einklang mit den FAIR-Prinzipien. Unzureichend dokumentierte Datensätze erschweren die Nachnutzung und stehen im Widerspruch zu diesen Prinzipien. Darüber hinaus kann die Dokumentation von Forschungsdaten durch einen Datenmanagementplan unterstützt werden, der die Einhaltung der FAIR-Prinzipien im gesamten Datenlebenszyklus gewährleistet.

Die Informationsplattform forschungsdaten.info bietet eine detaillierte Auflistung der Schlüsselaspekte, die im Rahmen einer umfassenden Datendokumentation berücksichtigt werden sollten, sofern sie für das jeweilige Vorhaben relevant sind. Diese Punkte umfassen die folgenden Elemente:

  • „Forschungsvorhaben (Projekttitel oder Person),
  • Kontext der Erhebung (Projektziele, Hypothesen),
  • Erhebungsmethode (Sampling-Methode, Instrumente, verwendete Hard- und Software, sekundäre Datenquellen, Erhebungsort und Erhebungszeitraum),
  • Struktur der Daten und deren Beziehungen zueinander (wie sind die Daten aufgebaut, was enthalten sie; bei mehreren Datensätzen: wie gehören sie zusammen, welche Daten braucht man, um die anderen Daten richtig zu interpretieren),
  • Qualitätsmaßnahmen (Bereinigung, Gewichtung, Datenprüfung etc.),
  • Erklärungen für Codes und Labels (Codebook),
  • Datenversionen und die enthaltenen Änderungen,
  • Informationen zum Zugang, Nutzungsbedingungen und Vertraulichkeit.“ (vgl. Datendokumentation, forschungsdaten.info, letzte Änderung: 05.05.2023)

Vorgaben und Empfehlungen

Datendokumentation im Kontext der Drittmittelförderung: Anforderungen der Förderer

Viele Förderinstitutionen legen in ihren Anforderungen an Drittmittelanträge mittlerweile großen Wert auf detaillierte Angaben zur Datendokumentation. Ein Beispiel hierfür ist die Deutsche Forschungsgemeinschaft (DFG), die in ihrer „Checkliste zum Umgang mit Forschungsdaten“ spezifische Empfehlungen zur Datendokumentation formuliert:

  • „Welche Ansätze werden verfolgt, um die Daten nachvollziehbar zu beschreiben (z. B. Nutzung vorhandener Metadaten- bzw. Dokumentationsstandards oder Ontologien)?
  • Welche Maßnahmen werden getroffen, um eine hohe Qualität der Daten zu gewährleisten?
  • Sind Qualitätskontrollen vorgesehen und wenn ja, auf welche Weise?
  • Welche digitalen Methoden und Werkzeuge (z. B. Software) sind zur Nutzung der Daten erforderlich?“ (vgl. Checkliste zum Umgang mit Forschungsdaten, letzte Änderung: 21.12.2021)

Datendokumentation im Kontext der FAIR-Prinzipien

Die FAIR-Prinzipien, die sowohl für Forschungsdaten als auch für deren Metadaten gelten, spielen eine entscheidende Rolle bei der Förderung der Nachnutzung von Daten. Das Prinzip I3 ((Meta)data include qualified references to other (meta)data) beispielsweise, welches fordert, dass (Meta-)Daten qualifizierte Verweise auf andere (Meta-)Daten enthalten sollten, ermöglicht eine effiziente Verknüpfung und Vernetzung von Datensätzen. Ein praktischer Anwendungsfall ist die Verbindung eines Datensatzes mit einer separat veröffentlichten Dokumentation über einen persistenten Identifikator. Dies ist besonders nützlich, wenn die Daten regelmäßig aktualisiert werden, während die Dokumentation länger gültig bleibt. Zusätzlich betont das Prinzip R1.2: (Meta)data are associated with detailed provenance die Wichtigkeit der Dokumentation der Datenherkunft, was durch Verlinkung umgesetzt werden kann. Diese Praktiken erhöhen die Transparenz und Nachvollziehbarkeit von Daten, was für die Nachnutzung von Forschungsdaten durch andere Forschende oder für die Verifizierung und Weiterentwicklung wissenschaftlicher Erkenntnisse unerlässlich ist.

Fachspezifische Empfehlungen und Leitlinien

Eine detaillierte Übersicht über fachspezifische Leitlinien bietet die DFG auf ihrer Website an. Diese Leitlinien dienen als wertvolle Ressource für Forschende, um die spezifischen Anforderungen und Best Practices in ihren jeweiligen Fachgebieten zu verstehen. Zur Veranschaulichung fachspezifischer Ansätze im Datenmanagement können der Data Management Expert Guide (DMEG) für die Sozialwissenschaften, bereitgestellt von CESSDA, sowie der Einsatz elektronischer Laborbücher in den Lebenswissenschaften herangezogen werden. Der DMEG bietet umfassende Richtlinien und Best Practices für die effektive Handhabung von Forschungsdaten in den Sozialwissenschaften. In den Lebenswissenschaften hingegen hat sich die Dokumentation in elektronischen Laborbüchern als Standardmethode etabliert, die eine detaillierte und nachvollziehbare Aufzeichnung experimenteller Daten ermöglicht.

Formate und Instrumente der Datendokumentation

Formate

Die Datendokumentation kann in Form einer README-Datei erfolgen, entweder als Textdatei (.txt) oder im Markdown-Format (.md). Die Cornell University bietet ein Template sowie eine Anleitung zur Erstellung einer solchen README-Datei für Forschungsdaten. Üblicherweise wird die README-Datei zusammen mit den Daten veröffentlicht. Bei Veröffentlichungen, die mehrere Dateien oder Verzeichnisse umfassen, empfiehlt es sich, die README-Datei auf der obersten Hierarchieebene zu platzieren. Im institutionellen Repositorium der Freien Universität findet sich ein Beispiel für eine Veröffentlichung, die eine solche README-Datei beinhaltet.

Zusätzlich kann die Dokumentation in Form von Data Dictionaries oder Codebooks erfolgen. Diese enthalten detaillierte Informationen über die verwendeten Variablen, deren Bezeichnungen, Ausprägungen, zulässige Wertebereiche und Codes für fehlende Werte. Ein Data Dictionary kann als Tabelle (z.B. im .csv-Format) oder als Textdatei (z.B. .txt oder .pdf) erstellt werden. Einige Dateiformate, wie .dta (STATA) oder .sav (SPSS), erlauben die direkte Integration solcher Informationen in den Datensatz.

In Disziplinen, in denen Laborbücher häufig verwendet werden, wie beispielsweise in den Lebenswissenschaften, kann die Datendokumentation auch in Form eines elektronischen Laborbuchs (ELN) erfolgen. Für Angehörige dieser Fachbereiche bietet die Freie Universität den Dienst Labfolder an.

Versionierung

Auch die Versionierung von Dateien sollte etablierten Regeln folgen, wie sie beispielsweise in den GESIS-Leitlinien (Abschnitt Versionierung von Datensätzen, S.41f) zu finden sind. Die Versionierung ermöglicht die Nachverfolgung und Dokumentation aller Änderungen, die an einem Datensatz vorgenommen wurden. Dies ist essentiell für die Transparenz und Reproduzierbarkeit wissenschaftlicher Arbeiten. Außerdem erleichtert die Versionierung die Zusammenarbeit innerhalb von Teams, da Änderungen von verschiedenen Beteiligten klar zugeordnet und nachvollzogen werden können. Außerdem erhöht sie die Datensicherheit, da bei Bedarf auf frühere Datenstände zurückgegriffen werden kann, etwa im Fall von Datenkorruption oder fehlerhaften Aktualisierungen. Schließlich fördert die Versionierung eine effiziente und systematische Datenpflege und -verwaltung, indem sie hilft, den Überblick über verschiedene Entwicklungsstufen eines Projekts zu behalten.

Normdaten und kontrollierte Vokabulare

Für die Beschreibung der Daten sollten Normdaten und kontrollierte Vokabulare verwendet werden. Die Beschreibung sorgt für eine einheitliche und standardisierte Erfassung von Informationen, was zu einer erhöhten Datenkonsistenz führt. Zweitens erleichtert sie das Auffinden und den Austausch von Daten, indem sie eine gemeinsame Sprache für die Beschreibung bereitstellt. Dies ist besonders wichtig in multidisziplinären Forschungsgebieten, wo unterschiedliche Terminologien verwendet werden können. Drittens unterstützt die Verwendung von Normdaten und kontrollierten Vokabularen die Interoperabilität zwischen verschiedenen Datenbanken und Informationssystemen. Schließlich verbessern sie die Qualität der Datenanalyse und -auswertung, da sie eine präzise und eindeutige Zuordnung von Daten ermöglichen.

Für die Suche nach passenden Vokabularen stellt die Plattform BARTOC.org ein wertvolles Werkzeug dar. Diese Online-Ressource bietet einen umfangreichen Katalog von kontrollierten Vokabularen, Thesauri und Klassifikationssystemen, die in verschiedenen Forschungsbereichen und Disziplinen Anwendung finden können. Durch die Nutzung von BARTOC.org können Forschende und Datenmanager effizient und gezielt Vokabulare identifizieren, die für die spezifischen Anforderungen ihrer Daten und Projekte am besten geeignet sind.

Dokumentationssprache

Als Dokumentationssprache wird in der Regel die englische Sprache empfohlen, bzw. die Sprache, in der die Daten vorliegen. Die englischsprachige Dokumentation stellt eine breitere Zugänglichkeit und Verständlichkeit der Daten auf globaler Ebene sicher. Dies erleichtert die internationale Zusammenarbeit, da Forschende weltweit auf die Daten zugreifen und diese effektiv nutzen können, unabhängig von ihrer geografischen oder sprachlichen Herkunft. Zudem erhöht die englische Dokumentation die Sichtbarkeit und Zitierfähigkeit der Forschungsdaten in der globalen wissenschaftlichen Gemeinschaft.

Benennungsregeln

In Forschungsvorhaben, die eine große Anzahl an (ähnlichen) Dateien hervorbringen, ist die Etablierung einheitlicher Benennungsregeln von großem Nutzen. Diese Regeln tragen zur klaren Strukturierung und leichteren Auffindbarkeit von Dateien bei. Es ist wichtig, dass diese Benennungsregeln sorgfältig dokumentiert werden, um Konsistenz und Transparenz zu gewährleisten. Eine gängige Praxis ist die Aufnahme dieser Richtlinien in einer README-Datei, die zentral hinterlegt wird. Ein Beispiel hierfür kann im Refubium eingesehen werden, welches die Anwendung der Benennungsregeln in der Praxis illustriert.

Das Team FDM der Universitätsbibliothek unterstützt Sie bei Fragen rund um die Themen Forschungsdaten, FDM und Datendokumentation (forschungsdaten@fu-berlin.de). Zuletzt geändert: 14.12.2023