Publiceren in data-repositories
Om wetenschappelijke kennis zoals publicaties, data, software en methoden, vrij beschikbaar en herbruikbaar te maken, is het vaak gewenst om de onderzoeksgegevens te publiceren in data-repositories. Dit maakt onderzoeksresultaten beter zichtbaar, verifieerbaar en herbruikbaar, hetgeen de impact van het onderzoek verhoogt.
Wat zijn data-repositories?
Een data-repository is een digitale omgeving waar onderzoeksgegevens veilig en duurzaam worden opgeslagen, beheerd en open of op basis van vastgestelde voorwaarden beschikbaar worden gesteld. Dit laatste kan worden geregeld door een licentie toe te kennen aan de dataset.
Generieke data-repositories en domeinspecifieke data-repositories
Data-repositories zijn grofweg onder te verdelen in twee soorten.
- Generieke data-repositories zijn ontworpen om een breed scala aan datatypes en -formaten te ondersteunen (bijvoorbeeld tekstbestanden, video-opnames en JSON). In dit type repositories worden geen vakinhoudelijke standaarden of metadata-eisen gehanteerd. Hierdoor bieden deze repositories veel flexibiliteit.
- Domeinspecifieke repositories zijn gericht op een specifiek vakgebied. Deze repositories zijn ontworpen om data uit een specifiek onderzoeksdomein op te slaan. Daarbij wordt gebruik gemaakt van specifieke metadatastandaarden en dataformats die passen bij de behoeften van een vakgebied.
Keuze voor een data-repository
De keuze voor een generieke of een domeinspecifieke repository hangt af van verschillende factoren, zoals de aard van de data, of de data voor een of meerdere vakgebieden relevant zijn en de eisen die worden gesteld ten aanzien van standaarden of formats voor opslag en hergebruik.
De keuze kan ook worden bepaald door de eisen van onderzoeksfinanciers, die steeds vaker verwachten dat de repository een persistent identifier (bijvoorbeeld DOI) toekent aan de dataset of eisen dat de repository CoreTrustSeal-gecertificeerd is.
Vaak kunnen de datastewards van je hogeschool behulpzaam zijn bij de keuze voor een geschikte data-repository.
Beschikbare data-repositories
Er zijn honderden data-repositories beschikbaar, waarvan er veel met behulp van de website Re3data.org kunnen worden gevonden. Dit is een wereldwijd register met onderzoeksrepositories uit verschillende academische disciplines dat streeft naar een betere zichtbaarheid en toegankelijkheid van onderzoeksgegevens, en naar een cultuur van delen. Re3data bestaat sinds 2012.
Ook op de website van Hanze is een mooie overzicht te vinden van bruikbare data-repositories.
Datadocumentatie en metadata
Wanneer je publiceert in een data-repository is het van belang om te zorgen voor duidelijke datadocumentatie en metadata.
Door onderzoeksgegevens te voorzien van datadocumentatie worden deze gegevens begrijpelijk, herbruikbaar, vindbaar en betrouwbaar gemaakt voor degenen die de data-repository raadplegen.
Datadocumentatie kan bestaan uit informatie over het onderzoeksproject zelf en de dataset die wordt gepubliceerd. Datadocumentatie kan ook betrekking hebben op de verschillende bestanden in de dataset en specifieke informatie bieden over de data.
De datadocumentatie wordt vaak vastgelegd in een README-file, dat belangrijke informatie bevat over het project en de gepubliceerde dataset. Het README-file zorgt ervoor dat gebruikers snel begrijpen hoe ze de (gepubliceerde) gegevens kunnen gebruiken, begrijpen en hergebruiken.
Tevens kan er ook een codeboek worden opgenomen waarin onder andere variabelen en afkortingen worden uitgelegd. Dit codeboek heeft bij voorkeur een duurzaam formaat (bijvoorbeeld csv) ten behoeve van de import in software zoals bijvoorbeeld R of Python.
Metadata dient om de datasets vindbaar, toegankelijk en herbruikbaar te maken voor gebruikers. Metadata wordt vaak gezien als informatie over de data. Iedere repository heeft een (eigen) metadatastandaard die moet worden ingevuld wanneer de dataset wordt aangeleverd bij de repository.
Daarbij kan er de metadata op drie niveaus worden vastgelegd:
- Op projectniveau biedt de metadata informatie over het onderzoek, zoals een uniek onderzoeks-ID, titel en korte samenvatting, start- en einddatum en betrokken organisatie/rollen (lectoraat, verantwoordelijke lector, hoofdonderzoeker en overige onderzoekers), trefwoorden en projectnummer.
- Op bestandsniveau (dataset of resultaat) geeft de metadata informatie over de titel van een dataset, datum van uploaden, geografische gegevens, context en methoden van dataverzameling, structuur van de dataset, kwaliteits- en validatieprocedures, versiebeheer, juridische/privacy-afspraken en hergebruik (zoals een DOI), gebruiksrechten, bewaartermijnen en vernietiging.
- Op dataniveau geeft de metadata informatie over details die specifiek gaan over de inhoud van een dataset: variabelen en waarden, inwinningsmethode, verwerkingsmethode, gebruikte codes/classificaties, acroniemen, ontbrekende waarden en afgeleide data. Dit alles bij voorkeur ingebed in het databestand of als apart begeleidend bestand.
Meer informatie
Bekijk onderstaande filmpjes voor meer informatie over het publiceren van data in data-repositories.
- Finding reputable data repositories (DocEnhance)
- Knowledge clip: Data repositories (UGent Open Science)
Zie ook de DCC-PO kennispagina Publiceren van onderzoeksdata.
Voorbeelden van een README-file en codeboek kun je vinden via de volgende link: 10.5281/zenodo.7701727.