Anonimiseren en pseudonimiseren
Het anonimiseren en pseudonimiseren van je data behoren tot de belangrijkste beveiligingsmaatregelen bij het werken met persoonsgegevens in onderzoek. Deze pagina beschrijft het verschil tussen beide maatregelen en geeft praktische tips voor het anonimiseren en pseudonimiseren van je onderzoeksgegevens.
Anonieme data
In overweging 26 van de AVG worden anonieme gegevens als volgt gedefinieerd:
"gegevens die geen betrekking hebben op een geïdentificeerde of identificeerbare natuurlijke persoon of op persoonsgegevens die zodanig anoniem zijn gemaakt dat de betrokkene niet of niet meer identificeerbaar is"
Bij het volledig anoniem maken van gegevens worden persoonsgegevens dusdanig bewerkt dat het onmogelijk is deze te herleiden naar individuele personen – zowel direct als indirect. De data zijn dus ook niet herleidbaar tot individuen als je jouw dataset combineert met andere gegevens of datasets. Het eindresultaat van die bewerkingen is een dataset met anonieme gegevens.
Wanneer zijn data echt anoniem?
De AVG stelt dat gegevens echt anoniem zijn als het redelijkerwijs onmogelijk is personen te identificeren. Je houdt hierbij rekening met beperkingen in kosten en tijd, maar ook met de mogelijkheden van huidige technologie en (te voorziene) toekomstige technologische ontwikkelingen. Kort gezegd, breng de risico's goed in kaart en minimaliseer deze zoveel mogelijk.
Het anoniem maken van gegevens vereist vrijwel altijd minimaal het volgende:
- verwijder alle direct identificeerbare gegevens
- verwijder indirect identificeerbare gegevens die niet essentieel zijn voor hergebruik van de data
- verlaag het detailniveau van indirect identificeerbare gegevens (bijvoorbeeld door aggregatie)
- verwijder indirecte identificatoren met een hoog openbaarmakingsrisico, zoals ongebruikelijke kenmerken of ongebruikelijke bevindingen
De volgende drie criteria helpen je om te bepalen of data nog identificeerbaar kunnen zijn:
- een persoon is te individualiseren door singling out
- het is relatief eenvoudig om verschillende bestanden/gegevens in verband te brengen met een individu en zo zijn identiteit te achterhalen (linkability)
- informatie over een individu is af te leiden (inference)
Voorbeelden van risico's
Een combinatie van indirect identificeerbare gegevens kan leiden tot identificatie van een respondent; bijvoorbeeld onderzoek naar de uitdagingen bij het vinden van een partner van mensen met een rolstoel die leven op het platteland. In gehuchten kan al snel sprake zijn van een ‘singling-out effect’ als er maar één rolstoelgebruiker in een gehucht woont. In zo'n geval is het aan te raden om een hoger aggregatieniveau van de data te kiezen door bijvoorbeeld data van deelnemers te groeperen naar regio of provincie in plaats van het exacte dorp of gehucht.
Datasets met zeer specifieke beroepsomschrijvingen kunnen leiden tot identificatie van de respondenten. Beroepsomschrijvingen als ‘marketingexpert', ‘verkoper’ of 'leraar' zijn meestal algemeen genoeg in grotere instellingen, maar niet in een bedrijf met slechts één verkoper of marketingsexpert. Voor bepaalde beroepen/rollen zal een hoog identificatierisico vrijwel altijd het geval zijn: 'directeur van bedrijf X' of 'voorzitter van vereniging Y'.
Gepseudonimiseerde data
De AVG definieert pseudonimisering in art. 4 als volgt:
"het verwerken van persoonsgegevens op zodanige wijze dat de persoonsgegevens niet meer aan een specifieke betrokkene kunnen worden gekoppeld zonder dat er aanvullende gegevens worden gebruikt, mits deze aanvullende gegevens apart worden bewaard en technische en organisatorische maatregelen worden genomen om ervoor te zorgen dat de persoonsgegevens niet aan een geïdentificeerde of identificeerbare natuurlijke persoon worden gekoppeld"
Gepseudonimiseerde data zijn deze nog steeds herleidbaar tot geïdentificeerde personen, echter wel met een lager risicoprofiel dan ruwe/direct identificeerbare persoonsgegevens. Daarom wordt het pseudonimiseren van persoonsgegevens in de AVG ook nadrukkelijk benoemd als een belangrijke privacyrisicoverlagende beveiligingsmaatregel.
Risico's bij pseudonimiseren
In onderzoek moet je er rekening mee houden dat gepseudonimiseerde gegevens in combinatie met andere (publieke) gegevens toch herleid kunnen worden tot een persoon, zeker in combinatie met big data, AI, machine learning of andere geavanceerdere technieken.
Wanneer je onderzoek doet met ruwe of gepseudonimiseerde persoonsgegevens dan dien je maatregelen te nemen om de privacy van deelnemers optimaal te waarborgen en risico's zoveel mogelijk te minimaliseren. Wil je de data uiteindelijk publiek maken, dan moeten deze anoniem gemaakt worden!
Pseudonimiseren in de praktijk
Hoe pas je pseudonimiseren in de praktijk toe? De volgende pagina van de Universiteit Gent geeft duidelijke uitleg en voorbeelden:
AVG: Hoe pseudonimiseer ik mijn data?
Je vindt op deze pagina informatie over het maken van een pseudoniem, data scheiden, data generaliseren en het pseudonimiseren van kwalitatieve en kwantitatieve data.