Projektdurchführung
FDM im laufenden Forschungsprozess gewährleistet den durchdachten und strukturierten Umgang mit Forschungsdaten im wissenschaftlichen Arbeitsalltag. Dazu zählt die organisierte Ablage und Verwaltung der Daten, eine Speicher- und Backupstrategie ebenso wie die Dokumentation der Forschungsdaten.
Forschungsdaten organisieren
-
Ordnerstrukturen
Überlegen Sie sich eine sinnvolle Ablagestruktur für Ihre Dateien, die möglichst einfach einzuhalten und gleichzeitig eindeutig nachvollziehbar ist – auch zu einem späteren Zeitpunkt. Jede Datei sollte ohne Umschweife auffindbar und eindeutig gekennzeichnet sein. Ein bewährter Richtwert ist eine Ordnersystematik mit maximal vier Ebenen und nicht viel mehr als zehn Elementen pro Ordner.
Je nach Forschungsprojekt und dem Charakter Ihrer Daten bieten sich unterschiedliche Herangehensweisen an, etwa Systematiken nach Erhebungsmethoden, Datentypen, Verarbeitungsschritten, Personen, Orten, zeitlichen Einordnungen usw. Die Ordnerstruktur sollte sich vor allem an den Workflows und Routinen in Ihrem Projekt ausrichten. Wenn die alltägliche Navigation durch Ihre Ordner zeitaufwändig oder nicht intuitiv ist, sollten Sie Ihre Systematik überdenken. Stimmen Sie sich dabei unbedingt eng mit Ihren Mitarbeiter*innen ab.
-
Dateinamen
Ähnliches gilt für die Benennung Ihrer Dateien. Dateinamen sollte eindeutig sein, Hinweise auf den Inhalt und den Status der Dateiinhalte geben und Möglichkeiten zur Sortierung bieten. Achten Sie darauf, dass Dateinamen nicht zu lang werden. Trennen Sie durch Binde- und Unterstriche oder Groß- und Kleinbuchstraben. Verwenden Sie keine Leerzeichen, Punkte oder Sonderzeichen in den Dateinamen. Der Dateiname MS_Sample17_Clean_19-11-06 könnte beispielsweise signalisieren, dass es sich um die am 6.11.2019 bereinigte Probe Nr. 17 von Manfred Schmidt handelt. Namenskonventionen sollten stringent eingehalten und nur nach Absprache geändert werden.
-
Weitere praktische Hinweise zu diesem Thema finden Sie hier:
- UK Data Service: Organising https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/organising/
- Verbund Forschungsdaten Bildung: Dateien benennen und organisieren https://www.forschungsdaten-bildung.de/datei-benennung#Dateiorganisation-Ordnerstruktur
- FDM-Support der LU Hannover: Folien zum Vertiefungskurs "Datenorganisation und Projektablage" https://www.fdm.uni-hannover.de/fileadmin/fdm/Dokumente/Schulungsunterlagen/Schulungsunterlagen_FDM_VertiefungDatenorganisation_Folien.pdf
- Recker, Jonas; Brislinger, Evelyn (2019): Dateiorganisation in empirischen Forschungsprojekten. In: Uwe Jensen, Sebastian Netscher und Katrin Weller (Hg.): Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten. Opladen, Berlin, Toronto: Verlag Barbara Budrich, S. 81–95 https://doi.org/10.3224/84742233.06
- Wageningen University & Research: Organising files and folders https://www.wur.nl/en/Value-Creation-Cooperation/WDCC/Data-Management-WDCC/Doing/Organising-files-and-folders.htm
- Briney, Kristin (2020): File Naming Convention Worksheet https://resolver.caltech.edu/CaltechAUTHORS:20200601-161923247
- Santaguida (2010): Folder and File Naming Convention – 10 Rules for Best Practice https://www.exadox.com/files/pdf/en/Folder-File-Naming-Convention-10Rules-Best-Practice.pdf
-
Versionskontrolle
Wenn Sie Dateien verändern ist es häufig sinnvoll, frühere Zustände weiterhin vorzuhalten und mit Dateiversionen zu arbeiten. So könnten Sie die Datei bspw. mit einer fortlaufenden Versionsnummer im Dateinamen versehen (siehe oben) oder Versionsangaben innerhalb von Dateien (etwa im header) hinterlegen. Halten Sie Versionssprünge und die damit verbundenen Arbeitsschritte in ihrer Datendokumentation fest (siehe unten). Insbesondere bei Projekten mit mehreren beteiligten Personen sollten Sie sich darüber verständigen, welche Bedeutung ein Versionssprung hat und wie dieser dargestellt und dokumentiert wird.
-
Weitere Hinweise zur Versionskontrolle finden sie hier:
- IANUS research data center: Versionskontrolle https://ianus-fdz.de/versionskontrolle
- UK Data Service: Versioning https://www.ukdataservice.ac.uk/manage-data/format/versioning
-
Dateiformate
Wählen Sie Dateiformate bewusst aus. Grundsätzlich lässt sich zwischen proprietären und offenen Formaten unterscheiden. Proprietäre Formate haben die Nachteile, dass sie häufig für eine bestimmte Verarbeitungssoftware entwickelt wurden und unter Umständen aus technischen oder rechtlichen Gründen nicht ohne Weiteres in andere Umgebungen migriert werden können. Falls die Software nicht mehr gepflegt wird oder Ihre Nutzungslizenz ausläuft können Sie schlimmstenfalls nicht mehr auf Ihre Daten zugreifen. Dies hemmt nicht nur die Interoperabilität von Daten, also die Nutzbarkeit in unterschiedlichen technischen Kontexten, sondern ist insbesondere für die Langzeitarchivierung ein großes Problem. Wie können wir möglichst sicherstellen, dass unsere Daten auch in zehn, zwanzig oder gar fünfzig Jahren noch lesbar sind?
-
Wir empfehlen Ihnen, Ihre Daten in offenen Formaten mit verbreiteten und anerkannten Spezifikationen abzuspeichern, oder auf die in Ihrer Disziplin gängigen Formate zu vertrauen. Sie finden detaillierte Angaben zu bevorzugten Dateiformaten und weitere Hinweise auf diesen Seiten:
- Data Archiving and Network Services: File formats https://dans.knaw.nl/en/about/services/easy/information-about-depositing-data/before-depositing/file-formats
- UK Data Service: Recommended formats https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats
- Forschungsdaten.info: Formate erhalten https://www.forschungsdaten.info/themen/bewahren-und-nachnutzen/formate-erhalten/
- Handout: How do I make my spreadsheet FAIR? https://www.forschungsdaten.uni-bonn.de/de/files/handout-how-do-i-make-my-spreadsheet-fair/at_download/file
Wir beraten sie jederzeit gerne zu Fragen von Datenorganisation: [Email protection active, please enable JavaScript.]
Speicherung und Sicherheit
-
Speicher- und Backupstrategien
Der Verlust von ungesicherten Forschungsdaten kann frustrierende Doppelarbeit nach sich ziehen, Publikationen gefährden oder im schlimmsten Fall ein ganzes Forschungsprojekt torpedieren. Ein Unglück mit dem Heißgetränk am Laptop, die Tasche mit dem USB-Stick in der U-Bahn liegenlassen, die Datei mit dem letzten Arbeitsstand überschrieben – Missgeschicke dieser Art können niemals ausgeschlossen werden. Aber mit einer durchdachten Speicher- und Backupstrategie lässt sich der angerichtete Schaden in den meisten Fällen minimieren.
Wo und in welcher Form Sie ihre Daten am besten ablegen und bearbeiten hängt in erster Linie von Ihren Forschungsdaten und Arbeitsroutinen ab. Verlassen Sie sich grundsätzlich nicht auf einzelne Geräte oder externe Datenträger. Häufig ist ein Cloudspeicher empfehlenswert, der die Synchronisation zwischen Geräten und Nutzer*innen automatisch bewerkstelligt. Achten Sie dabei jedoch auf Aspekte wie Nutzungsbedingungen, Verschlüsselungstechnologien und Serverstandorte. Bei vielen Projekten kommen weitere Erwägungen hinzu, etwa zur Verschlüsselung und Zugriffskontrolle besonders schützenswerter Daten, zur Handhabung großer Datenmengen oder zu einem gestuften Rechte- und Rollenmanagement zwischen unterschiedlichen Mitarbeiter*innen.Auch Backupstrategien variieren zwischen Projekten. Welche Daten wollen Sie in welcher Regelmäßigkeit sichern? Um was für Datenmengen handelt es sich dabei? Wie viele Wiederherstellungszeitpunkte sollten für wie lange vorgehalten werden? Als Faustregel sollten Sie mindestens drei Kopien Ihrer Daten auf mindestens zwei unterschiedlichen Speichermedien vorhalten, von denen sich mindestens eine Kopie an einem anderen Standort (d.h. Brandabschnitt) befindet. Damit sind Sie gegen die allermeisten Unglücke und Missgeschicke ganz gut gewappnet.
-
Speicherlösungen an der Universität Bonn
Als Angehörige der Universität Bonn können Sie auf verschiedene Angebote des Hochschulrechenzentrums zurückgreifen:
- Persönlicher Sciebo Speicher auf der NRW-weiten Campuscloud Sciebo (standardmäßig 30GB): https://www.hrz.uni-bonn.de/de/services/datenablage-fileservices/sciebo-2
- Sciebo-Projektboxen (auch kollaborativ nutzbar, bis zu 2TB): https://www.sciebo.de/anleitung/pbox.html
- Persönlicher Speicher auf der Forschungsdateninfrastruktur (FDI) (standardmäßig 100GB): https://www.hrz.uni-bonn.de/de/services/datenablage-fileservices/forschungsdateninfrastruktur
- Projektspeicher auf der Forschungsdateninfrastruktur (FDI) (auch kollaborativ nutzbar, standardmäßig 50 TB): https://www.hrz.uni-bonn.de/de/services/datenablage-fileservices/forschungsdateninfrastruktur
- Transfer großer Dateien: Gigamove 2.0, von RWTH Aachen (bis zu 100GB Dateigröße) https://www.hrz.uni-bonn.de/de/services/datenablage-fileservices/gigamove
- uniVM - virtuelle Maschinen für Institute: (CentOS, Ubuntu, Debian, Windows Server) monatliche Kosten (1,20€/CPU; 0,48€/GB RAM; 0,04€/GB SSD; ggf. 2,52€ Lizenzgebühr für Windows) https://www.hrz.uni-bonn.de/de/services/serverhosting-housing/virtuelle-maschinen-fuer-institute
Weiterführende Hinweise bieten die folgenden Ressourcen:
- CESSDA Training Ressources: Backup https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/4.-Store/Backup
- CESSDA Training Ressources: Security https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/4.-Store/Security
- UK Data Service: Document your data https://ukdataservice.ac.uk/learning-hub/research-data-management/#document-your-data
- Venkatamaran & Moura (2020): Raw data, backup and versioning: What you need to know to preserve your research data https://doi.org/10.5281/zenodo.4041556
Forschungsdaten dokumentieren
Die Dokumentation von Arbeitsschritten ist ein Kernelement der Guten Wissenschaftlichen Praxis. Sie ist für die Nachvollziehbarkeit und Reproduzierbarkeit von Forschungsergebnissen unerlässlich, und hilft nicht nur interessierten Dritten, sondern auch den Forschenden selber, um die eigene Methodik auch im Nachhinein verstehen und ggf. wiederholen zu können. Wenn digitale Daten ein zentraler Gegenstand Ihrer Forschungsarbeit sind, lohnt sich eine strukturierte Datendokumentation. Nicht dokumentierte Daten sind im schlimmsten Fall wertlos, weil Ihre Aussagekraft nicht mehr zu beurteilen ist.
Die Dokumentation Ihrer Daten könnte folgende Inhalte umfassen:
Datenerhebung
- Für welches Forschungsprojekt und welche Fragestellung(en) wurden die Daten generiert?
- Wann, wo und durch wen wurden die Daten erhoben?
- Welche Methoden, Verfahren und ggf. Messinstrumente kamen dabei zu Einsatz?
Datenstruktur
- Was ist der Inhalt der Daten? (Interviews, Temperaturmessungen, Börsennotationen, Textkodierungen, Laborproben)
- Was ist die Datengrundlage und Reichweite (z.B. Verhältnis zur Grundgesamtheit, Stichprobenform)
- Umfang der Daten (Anzahl der erhobenen „Fälle“ oder „Ereignisse“, Beschreibung von erhobenen Merkmalen und Variablen)
- Erläuterungen von Codes, Klassifikationen, Variablennamen, Nummerierungen etc.
- Beschreibung der Softwareumgebung (Betriebssystem, eingesetzte Programme, Versionen)
- Angaben zu Ordnerstrukturen, Dateinamen, Versionskontrolle und Formaten (siehe oben)
Datenverarbeitung
- Maßnahmen der Qualitätssicherung und Datenbereinigung
- Ggf. Verfahren der Anonymisierung und Pseudonymisierung
- Prozessierung und Verarbeitung (Konvertierung, Formatierung, Normalisierung etc.)
- Auswertung (Analyseschritte und Untersuchungsmethoden)
- Aufbereitung und Visualisierungstechniken
Für die praktische Umsetzung der Dokumentation kommen verschiedene Wege infrage. Während grundsätzlich eine frei formulierte Dokumentation in Editoren oder Textverarbeitungsprogrammen immer möglich ist, bieten viele prominente Software-Pakete auch interne Lösungen zur Dokumentation an, bspw. über Beschreibungsfelder für einzelne Datensätze. Je nach Umfang und Charakter Ihres Projekts arbeiten sie besser mit einer projektweiten Dokumentation oder mit verschiedenen Dokumentationen für einzelne Dateien oder Dateigruppen. Welche Dokumentationstechnik sich am besten eignet ist auch stark abhängig von der jeweiligen Disziplin. In den Laborwissenschaften werden z.B. zunehmend Elektronische Laborbücher eingesetzt, die extra für die Dokumentation von Labortätigkeiten entwickelt werden.
Machen Sie sich frühzeitig Gedanken zum Umfang und zur Durchführung Ihrer Datendokumentation. Mit Hinblick auf die Nachnutzbarkeit Ihrer Daten ist es häufig empfehlenswert, sich dabei auch an den Anforderungen relevanter Metadatenstandards (siehe Abschnitt zu Metadatenvergabe unter Forschungsdaten Publizieren) und den Anforderungen geeigneter Repositorien zu orientieren.
Für eine grundlegende Daten-Dokumentation bieten wir ein Readme-Template an, das sie gerne für Ihre Datensätze verwenden können.
Sie können sich mit Fragen zur Datendokumentation auch gerne an uns wenden: [Email protection active, please enable JavaScript.]
Weitere Hinweise finden Sie bei den folgenden Quellen:
- Wageningen University & Research: Data Documentation https://www.wur.nl/en/Value-Creation-Cooperation/WDCC/Data-Management-WDCC/Doing/Data-Documentation.htm
- ZBW, GESIS, RatSWD: Datensätze dokumentieren https://auffinden-zitieren-dokumentieren.de/dokumentieren/a-daten-dokumentieren/
- Forschungsdaten-Bildung: Webinar – Dokumentation & Metadaten https://www.youtube.com/watch?v=YMJOhxvlmL0
- UK Data Service: Document your data https://www.ukdataservice.ac.uk/manage-data/document.aspx
- Forschungsdaten.info: Datendokumentation https://www.forschungsdaten.info/themen/beschreiben-und-dokumentieren/datendokumentation/
Bildquellen:
Attic: Bill Kasman 2014 & Scott Arneman 2009
File Names: Randall Munroe
File Formats: Bezjak et al. (2018): Open Science Training Handbook
Backup: verändert nach Foto von Kaboompics from Pexels.com
Dead Chef: Auke Herrema
Folders Icon: Bharat from the Noun Project
Backup Icon: ProSymbols from the Noun Project
Documentatin Icon: Juicy Fish from the Noun Project
Materialien: