Les dades anònimes tenen un paper important en el context de la recerca en àrees com la medicina, la demografia, el màrqueting, l’economia, l’estadística i moltes altres.
- Introducció
- Tipus d’anonimització de dades
- Pseudonimització
- Reidentificació
- A tenir en compte
- Exemples
- Exercici pel futur
Introducció
Les dades anònimes constitueixen aquella informació que:
- No fa referència a persones físiques identificades o identificables
- Fa referència dades personals que s’anonimitzen de tal manera que deixen de ser identificables».
Els conjunts de dades que inclouen dades personals poden contenir identificadors directes i indirectes, cosa que permet que s’identifiqui o que es pugui identificar una persona física:
-
Un identificador directe és la informació específica que es pot atribuir a un individu, com ara el seu nom o un número d’identificació.
-
Un identificador indirecte (també anomenat quasiidentificador) és qualsevol dada (per exemple, una ubicació geogràfica en un moment determinat o una opinió sobre un tema concret) que es podria utilitzar, bé de manera individual o combinada amb altres quasiidentificadors, per algú que tingui coneixements sobre aquell individu amb la finalitat de reidentificar-lo en el conjunt de dades.
L’anonimització de dades transforma els identificadors de tal manera que no es puguin enllaçar fàcilment a un individu específic.
Aquesta taula de notes, en que en el camp NIF només apareixen els 5 últims dígits, són dades anònimes?
NIF | Nota |
---|---|
…1456K | 8,3 |
…2322M | 5,2 |
No, tal com veurem més endavant.
Tipus d’anonimització de dades
L’anonimització de dades és una categoria paraigua que inclou 6 tipus bàsics d’anonimització de dades.
Emmascarament de dades
L’emmascarament de dades consisteix en substituïr els identificadors com números de targeta de crèdit, números del permís de conduir i números de la Seguretat Social, per caràcters, dígits o símbols sense significat — o per dades emmascarades aparentment realistes, però fictícies.
Emmascara aquestes dades:
NIF | Nota |
---|---|
…456K | 8,3 |
…322M | 5,2 |
NIF | Nota |
---|---|
AAA | 8,3 |
ACF | 5,2 |
Pseudonimització
La pseudonimització anonimitza les dades substituint qualsevol informació identificadora per un identificador pseudònim.
Pseudonimitza aquestes dades:
Cognom | Nom | Nota |
---|---|---|
Puig Serra | Jordi | 8,3 |
Soler Vilanova | Laia | 5,2 |
Nom | Nota |
---|---|
Tortuga | 8,3 |
Pardal | 5,2 |
Agregació de dades
En generar dades agregades normalment desapareixen els identificadors.
Generació aleatòria de dades
La generació aleatòria de dades, que barreja dades aleatòriament per …
Generalització de dades
La generalització de dades consisteix a generalitzar els identificadors com adreces, edats, etc.
Per exemple, l’edat de 55 anys es pot generalitzar a un grup d’edat 50–60 o a adults de mitjana edat.
Generalitza aquestes dades:
Codi Postal | Edat | Catòlic |
---|---|---|
08015 | 34 | Sí |
08015 | 21 | No |
08029 | 47 | Sí |
08028 | 29 | No |
Codi Postal | Edat | Catòlic |
---|---|---|
08 | 30 | Sí |
08 | 20 | No |
08 | 40 | Sí |
08 | 20 | No |
Intercanvi de dades
L’intercanvi de dades substitueix valors de dades reals per uns altres de ficticis, però similars.
Per exemple un nom real, com Eva Vila, es pot substituir per un de fictici, com Maria de Montpeller.
O una adreça real, com avinguda Diagonal 256, es pot substituir per una de fictícia, com avinguda Potenkim 2.
Pseudonimització
La pseudonimització no és el mateix que l’anonimització
La pseudonimització és el tractament de dades personals de manera que no puguin atribuir-se a un interessat sense utilitzar informació addicional, sempre que aquesta informació addicional figuri per separat i estigui subjecta a mesures tècniques i organitzatives destinades a garantir que les dades personals no s’atribueixin a una persona física identificada o identificable.
Això significa que l’ús d’«informació addicional» pot comportar la identificació dels individus; per aquest motiu, les dades personals pseudonimitzades també són dades personals.
Per contra, les dades anònimes no es poden associar amb un individu en particular. Un cop les dades són realment anònimes i els individus deixen de ser identificables, deixen d’estar incloses en l’àmbit d’aplicació del Protecció de dades - Reglament general de protecció de dades.
El xifratge no és anonimització
El xifratge no constitueix una tècnica d’anonimització, però pot ser una bona eina de pseudonimització.
El procés de xifratge utilitza claus secretes per transformar la informació de tal manera que es redueixi el risc d’ús indegut i, al mateix temps, es mantingui la confidencialitat durant un període de temps determinat. Atès que la informació original ha de ser accessible, les transformacions aplicades pels algoritmes de xifratge estan dissenyades per ser reversibles, cosa que es coneix com a desxifratge.
Les claus privades que s’utilitzen per al desxifratge són la «informació addicional» que pot fer que les dades siguin llegibles i, en última instància, que la identificació sigui possible.
En teoria, es podria considerar que l’eliminació de la clau de xifratge de les dades xifrades les convertiria en anònimes, però no és així. No es pot donar per fet que les dades xifrades no puguin desxifrar-se només perquè es digui que la clau de desxifratge s’ha «esborrat» o és «desconeguda». Hi ha molts factors que afecten la confidencialitat de les dades xifrades, en particular a llarg termini. Entre aquests factors hi ha la solidesa de l’algoritme de xifratge i de la clau, les fuites d’informació, els problemes d’implementació, la quantitat de dades xifrades o els avenços tecnològics (per exemple, la computació quàntica: Quantum Computing and Cryptography).
Reidentificació
Les dades anonimitzades no poden garantir l’anonimat complet, ja que existeix l’amenaça de reidentificació, especialment quan es combinen amb fonts d’accés públic.
Per tant, has de considerar acuradament els riscos i les limitacions de les teves eines i processos d’anonimització quan treballes amb dades personals delicades.
Al llarg dels anys, hi ha hagut diversos exemples de processos d’anonimització que s’han dut a terme de manera incompleta o errònia, cosa que comporta la reidentificació dels individus.
A continuació tens alguns exemples de reidentificació de dades:
-
How To Break Anonymity of the Netflix Prize Dataset. L’any 2006, un servei de reproducció en streaming de pel·lícules va publicar un conjunt de dades que contenia 10 milions de valoracions de pel·lícules fetes per 500.000 clients al·legant que era anònim, però posteriorment es va descobrir que n’hi havia prou amb conèixer unes poques dades sobre el subscriptor per poder-lo identificar en el registre d’aquell conjunt de dades.
Les dades no sempre es poden anonimitzar
No sempre és possible reduir el risc de reidentificació per sota d’un llindar definit prèviament i mantenir, al mateix temps, la utilitat d’un conjunt de dades per a un tractament específic.
L’anonimització és un procés que intenta trobar l’equilibri adequat entre la reducció del risc de reidentificació i el manteniment de la utilitat d’un conjunt de dades per als fins previstos. Tanmateix, en funció del context o de la naturalesa de les dades, els riscos de reidentificació podrien no mitigar-se prou. Aquesta situació pot donar-se quan el nombre total de possibles individus («univers de subjectes») és massa reduït (per exemple, un conjunt de dades anònim que contingui només els 705 membres del Parlament Europeu), quan les categories de dades són tan diferents entre els individus que és possible individualitzar-los (per exemple, l’empremta digital del dispositiu dels sistemes que van accedir a un lloc web determinat) o quan el conjunt de dades inclou un nombre elevat d’atributs demogràfics (Estimating the success of re-identifications in incomplete datasets using generative models) o dades de localització (Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data).
L’anonimització no és permanent
Existeix el risc que certs processos d’anonimització puguin revertir-se en el futur. Les circumstàncies poden canviar amb el temps i els nous avenços tècnics i la disponibilitat d’informació addicional poden posar en perill processos d’anonimització previs.
Els recursos informàtics i les noves tecnologies (o nous usos de tecnologies ja existents) disponibles per a un atacant que intenti reidentificar un conjunt de dades anònim van canviant amb el temps. Avui dia, el núvol proporciona una capacitat de computació assequible a nivells i preus impensables fa anys. En el futur, els ordinadors quàntics també podrien alterar el que actualment es considera «mitjans acceptables» (Quantum computing and cryptography. Issue 2, 2020).
A més, la divulgació de dades addicionals al llarg dels anys (per exemple, en una filtració de dades personals) pot permetre que dades anteriorment anònimes s’atribueixin a persones identificades. La divulgació de registres de moltes dècades d’antiguitat que continguin dades molt sensibles (per exemple, antecedents penals) podria continuar tenint un efecte força perjudicial per a un individu o els seus familiars (Anonymisation).
L’anonimització no sempre redueix a zero la probabilitat de reidentificació d’un conjunt de dades
El procés d’anonimització i la manera com s’apliqui tindran una influència directa en la probabilitat de riscos de reidentificació.
Un procés d’anonimització sòlid té com a objectiu reduir el risc de reidentificació per sota d’un determinat llindar. Aquest llindar dependrà de diversos factors, com ara els controls de mitigació existents (cap en el context de divulgació pública), la repercussió en la privadesa dels individus en cas de reidentificació, els motius i la capacitat d’un atacant per reidentificar les dades External guidance on the implementation of the European Medicines Agency policy on the publication of clinical data for medicinal products for human use).
Tot i que una anonimització del 100% és l’objectiu més desitjable des del punt de vista de la protecció de dades personals, en alguns casos no és possible i s’ha de contemplar un risc residual de reidentificació.
A tenir en compte
L’anonimització és un concepte que es pot medir i mesurar
L’expressió «dades anònimes» no s’ha d’entendre com si els conjunts de dades poguessin etiquetar-se com a anònims o no. Hi ha una probabilitat que els registres de qualsevol conjunt de dades és reidentifiquin en funció de la possibilitat d’individualitzar-los. Qualsevol procés sòlid d’anonimització avaluarà el risc de reidentificació, que s’ha de gestionar i controlar al llarg del temps (De-identification Guidelines for Structured Data).
Excepte en casos específics en què les dades estiguin molt generalitzades (per exemple, un conjunt de dades que compti el nombre de visitants d’un lloc web per país en un any), el risc de reidentificació no es pot considerar mai nul.
L’anonimització no es pot automatitzar totalment
És possible utilitzar eines automàtiques durant el procés d’anonimització, però, atesa la importància del context en l’avaluació d’aquest procés, la intervenció de l’expert humà és necessària.
Al contrari, requereix una anàlisi del conjunt de dades original, els seus fins previstos, les tècniques que s’han d’aplicar i el risc de reidentificació de les dades resultants (Opinion 05/2014 on Anonymisation Techniques).
Tot i que la identificació i eliminació dels identificadors directes (també coneguda com a «emmascarament») constitueix una part important del procés d’anonimització, sempre ha d’anar acompanyada d’una anàlisi cautelosa que cerqui altres fonts d’identificació (indirecta) (en general, a través de quasiidentificadors).
Mentre que trobar els identificadors directes és quelcom trivial, els identificadors indirectes, en canvi, no sempre són obvis, i el fet de no detectar-los pot donar lloc a la reversió del procés (és a dir, la reidentificació), amb conseqüències per a la privadesa dels individus.
L’automatització podria ser clau en alguns passos del procés d’anonimització, com ara l’eliminació d’identificadors directes o l’aplicació coherent d’un procediment de generalització sobre una variable (Automated Anonymization of Text Documents).
Per contra, sembla poc probable que un procés totalment automatitzat pugui identificar quasiidentificadors en diferents contextos o decidir com maximitzar la utilitat de les dades aplicant tècniques específiques a variables concretes.
L’anonimització no inutilitza les dades
Un procés d’anonimització adequat manté la funcionalitat de les dades per a un fi determinat.
L’objectiu de l’anonimització és evitar que s’identifiqui els individus d’un conjunt de dades. Les tècniques d’anonimització sempre restringiran les formes en què es pot utilitzar el conjunt de dades resultant. Per exemple, agrupar les dates de naixement en intervals d’un any reduirà el risc de reidentificació i, al mateix temps, la utilitat del conjunt de dades en alguns casos. Això no vol dir que les dades anònimes siguin inútils, sinó que la seva utilitat dependrà de la finalitat i del risc de reidentificació que s’accepti.
D’altra banda, les dades personals no es poden emmagatzemar de manera permanent més enllà del que estipuli la seva finalitat original, a l’espera d’una oportunitat en què puguin resultar útils per a altres fins. La solució per a alguns responsables del tractament podria ser l’anonimització, en què les dades personals es poden independitzar i descartar del conjunt de dades, mentre que la resta del conjunt continua conservant un significat útil. Un exemple podria ser l’anonimització dels registres d’accés a un lloc web, si només es conserva la data d’accés i la pàgina a la qual s’ha accedit, però no la informació sobre qui hi ha accedit.
El principi de «minimització de dades» exigeix que el responsable del tractament determini si cal tractar dades personals per assolir un objectiu concret, o si aquest objectiu es pot aconseguir també amb dades anònimes.
En alguns casos, això pot conduir a la conclusió que l’anonimització de les dades no s’ajusta a la finalitat prevista. En aquest cas, el responsable del tractament haurà de decidir entre tractar les dades personals (i utilitzar, per exemple, la pseudonimització) i aplicar el RGPD, o no tractar les dades de cap manera.
Seguir un procés d’anonimització que altres han utilitzat amb èxit no farà que la nostra organització obtingui resultats equivalents
Els processos d’anonimització s’han d’adaptar a la naturalesa, l’abast, el context i les finalitats del tractament, així com als riscos de diversa probabilitat i gravetat per als drets i llibertats de les persones físiques.
L’anonimització no es pot aplicar com si se seguís una recepta, perquè el context (naturalesa, abast, context i finalitats del tractament de les dades) probablement difereixi d’una circumstància a una altra i d’una organització a una altra. Un procés d’anonimització pot tenir un risc de reidentificació per sota d’un determinat llindar quan les dades només es posen a disposició d’un nombre limitat de destinataris, mentre que el risc de reidentificació pot no assolir aquest llindar quan les dades es posen a disposició del públic en general.
Pot haver-hi diferents conjunts de dades disponibles en diferents contextos. Aquests podrien creuar-se amb les dades anònimes, cosa que afectaria el risc de reidentificació. Per exemple, a Suècia, la informació relativa a les dades personals dels contribuents està disponible de manera pública, mentre que a Espanya no ho està. Per tant, encara que els conjunts de dades que inclouen informació de ciutadans espanyols i suecs s’anonimitzessin seguint el mateix procediment, els riscos de reidentificació podrien ser diferents.
Sempre existeix un risc o un interès a saber a qui s’atribueixen aquestes dades
Les dades personals tenen un valor en si mateixes, tant per als propis individus com per a tercers. La reidentificació d’un individu podria tenir una repercussió greu pel que fa als seus drets i llibertats.
Els atacs contra l’anonimització poden materialitzar-se en forma d’intents deliberats de reidentificació, intents involuntaris de reidentificació, bretxes de seguretat o divulgació de dades al públic (Anonymizing Health Data, p. 29-33). La probabilitat que algú intenti reidentificar un individu només es refereix al primer tipus. No es pot descartar la possibilitat que algú reidentifiqui almenys una persona en un conjunt de dades, ja sigui per curiositat, per casualitat o per un interès real (per exemple, recerca científica, periodisme o activitat delictiva: A Systematic Review of Re-Identification Attacks on Health Data).
Pot ser difícil avaluar amb precisió l’impacte de la reidentificació en la vida privada d’una persona, perquè sempre dependrà del context i de la informació que es correlacioni. Per exemple, la reidentificació d’un interessat en el context aparentment inofensiu de les seves preferències cinematogràfiques podria portar a inferir les inclinacions polítiques o l’orientació sexual d’aquesta persona (Robust De-anonymization of Large Sparse Datasets).
Exemples
Linkage attack
El risc d’un atac d’enllaç és el motiu més important pel qual només eliminar noms ja no funciona (avui dia) com a mètode d’anonimització. En un atac d’enllaç, l’atacant combina les dades originals amb altres fonts de dades accessibles per identificar de manera unívoca una persona i conèixer informació (sovint sensible) sobre aquesta persona.
La clau aquí és la disponibilitat d’altres recursos de dades que existeixen ara o que poden existir en el futur. Pensa en tu mateix. Quantes de les teves dades personals es poden trobar a Facebook, Instagram o LinkedIn que podrien ser potencialment utilitzades en un atac d’enllaç?
Antigament, la disponibilitat de dades era molt més limitada, cosa que explica parcialment per què l’eliminació de noms era suficient per preservar la privadesa de les persones. Menys dades disponibles implica menys oportunitats per enllaçar dades. Tanmateix, ara som participants (actius) en una economia impulsada per les dades, on la quantitat de dades creix a un ritme exponencial.
Sweeney (2002) va demostrar en un article acadèmic com va poder identificar i recuperar dades mèdiques sensibles d’individus enllaçant un conjunt de dades públic de “visites hospitalàries” amb el registre públic de votants als Estats Units. Ambdós conjunts es consideraven correctament anonimitzats mitjançant l’eliminació de noms i altres identificadors directes.
A continuació tens la taula Hospital visits:
Visit date | Gender | Date of birth | Ethnicity | Zip Code | Diagnosis | Procedure | Medication |
---|
I la de Voting registrar:
Name | Address | Zip Code | Gender | Date of Birth | Phone Number |
---|
Basant-se només en els tres paràmetres Zip Code
, Gender
i Date of Birth
, va mostrar que es podia reidentificar el 87% de tota la població dels EUA fent coincidir els atributs esmentats entre tots dos conjunts de dades.
A Polars aprendràs com pots combinar els dos conjunts de dades de manera molt fàcil i ràpida.
A més, va demostrar que es podia identificar el 18% de tota la població dels EUA només tenint accés a un conjunt de dades amb informació sobre Home country
, Gendef
i Date of birth
.
Pensa en les fonts públiques esmentades, com Facebook, LinkedIn o Instagram. El teu país, gènere i data de naixement són visibles, o altres usuaris ho poden deduir?
Informed individuals
Un altre risc d’eliminar només identificadors directes, com ara els noms, sorgeix quan persones informades disposen d’un coneixement o informació superior sobre els trets o el comportament d’individus concrets del conjunt de dades. Basant-se en aquest coneixement, l’atacant pot ser capaç d’enllaçar registres de dades específics amb persones reals.
Un exemple d’atac a un conjunt de dades mitjançant coneixement superior és el cas dels taxis de Nova York, on Atockar (2014) va poder desemmascarar individus concrets. El conjunt de dades emprat contenia tots els trajectes de taxi de Nova York, enriquit amb atributs bàsics com les coordenades d’inici, les coordenades de final, el preu i la propina del trajecte.
Una persona informada que coneix Nova York va poder deduir viatges de taxi cap al club per a adults ‘Hustler’. Filtrant la ‘ubicació de finalització’, va inferir les adreces exactes d’inici i, d’aquesta manera, va identificar diversos visitants habituals. De manera similar, es poden deduir trajectes de taxi quan es coneix l’adreça del domicili de l’individu. L’hora i la ubicació de diverses estrelles de cinema famoses es van descobrir en llocs de xafarderies. Després d’enllaçar aquesta informació amb les dades de taxis de NYC, va ser fàcil deduir els seus trajectes, l’import que van pagar i si van deixar propina.
Mira l’article original Riding with the Stars: Passenger Privacy in the NYC Taxicab Dataset
Data as a fingerprint
Una línia d’argumentació habitual és «aquestes dades no valen res» o «ningú pot fer res amb aquestes dades». Això sovint és una concepció errònia. Fins i tot les dades més innocents poden formar una «empremta digital» única i ser utilitzades per reidentificar persones. És el risc que deriva de la creença que les dades en si mateixes són inútils, quan no és així.
El risc d’identificació augmentarà amb l’increment de dades, de la IA i d’altres eines i algorismes que permeten descobrir relacions complexes en les dades. En conseqüència, fins i tot si ara el teu conjunt de dades no es pot desvetllar i presumiblement és inútil per a persones no autoritzades avui, potser demà no ho serà.
Un bon exemple és el cas en què Netflix va voler fer crowdsourcing del seu departament d’R+D introduint una competició oberta per millorar el seu sistema de recomanació de pel·lícules. «Qui millori l’algorisme de filtratge col·laboratiu per predir les valoracions d’usuaris sobre films guanya un premi d’1.000.000 de dòlars». Per donar suport a la comunitat, Netflix va publicar un conjunt de dades que només contenia els atributs bàsics següents: userID, pel·lícula, data de la valoració i valoració (sense més informació sobre l’usuari o la pel·lícula).
UserID | Movie | Date of grade | Grade |
---|---|---|---|
123456789 | Mission impossible | 10-12-2008 | 4 |
En aïllat, les dades semblaven inútils. En formular la pregunta «Hi ha alguna informació de clients al conjunt de dades que s’hagi de mantenir privada?», la resposta va ser:
«No, s’ha eliminat tota la informació identificativa dels clients; només queden les valoracions i les dates. Això s’ajusta a la nostra política de privacitat…»
Tanmateix, Narayanan (2008), de la Universitat de Texas a Austin, va demostrar el contrari. La combinació de les valoracions, la data de la valoració i la pel·lícula d’un individu forma una empremta digital cinematogràfica única. Pensa en el teu propi comportament a Netflix. Quantes persones creus que han vist exactament el mateix conjunt de pel·lícules? Quantes les van veure en les mateixes dates?
La qüestió principal és com fer coincidir aquesta empremta. Va ser força senzill. A partir de la informació del conegut lloc de valoració de pel·lícules IMDb (Internet Movie Database), es podia formar una empremta similar. En conseqüència, es podien reidentificar individus.
Tot i que el comportament de visualització de pel·lícules potser no es consideri informació sensible, pensa en el teu propi comportament: et molestaria si es fes públic? Exemples que Narayanan ofereix al seu article són les preferències polítiques (valoracions de «Jesus of Nazareth» i «The Gospel of John») i les preferències sexuals (valoracions de «Bent» i «Queer as Folk»), que es podien deduir fàcilment.
Exercici pel futur
L’any 2013, la Comissió de Taxis i Limusines de la ciutat de Nova York va publicar un fitxer de dades amb més de 173 milions de trajectes individuals en taxi que contenien la ubicació de recollida i destí, els horaris i els números de llicència suposadament anonimitzats. El conjunt de dades no es va anonimitzar correctament i, per tant, era possible identificar els números de llicència originals i, fins i tot, els conductors d’aquells taxis.
Has de replicar On Taxis and Rainbows - Lessons from NYC’s improperly anonymized taxi logs … si ja has fet les activitats Polars i Seguretat - Criptografia 🐯.