C’è posta per tech | Intelligenza Artificiale. La privacy differenziale non è un mostro a tre teste!
Abstract della tesi del Master in Intelligenza aritificiale, diritto ed etica delle tecnologie emergenti dell’Università Europea di Roma
di Valentina Arena
Viviamo in una società dipendente dalle informazioni, viviamo in quella che viene definita dai maggiori filosofi di questo tempo infosfera.
Un enorme quantità di dati processati, quotidianamente, dalle nuove tecnologie e dai social network che sempre di più condizionano la nostra esistenza.
Un mondo in cui si registra, si scrive e si memorizza tutto, ancor prima di valutare ciò che effettivamente serve ed è veramente importante; si condivide tanto senza conoscerne i rischi e valutarne le implicazioni e si cancella sempre meno.
Se questa sovrabbondanza di dati, per un verso, rappresenta un’opportunità straordinaria di miglioramento della società e delle relazioni tra le persone (rivoluzionando entrambe); per un altro, innesca implicazioni negative connesse alla messa in circolo di informazioni preziose e vantaggiose, pertanto, appetibili per altri soggetti.
In questo contesto, agli addetti ai lavori, è attribuito il compito di individuare i rimedi più adeguati per tutelare queste informazioni.
Per quanto possa sembrare complicato, e non lo è, proverò a spiegare una tecnica piuttosto “recente” utilizzata, oggi, dai grandi colossi informatici. Per fare due nomi Google ed Apple in cui ogni giorno ci imbattiamo.
Il suo nome è privacy differenziale e no, non è un mostro a tre teste! E’ piuttosto una strana misura innovativa e funzionale alla protezione delle nostre informazioni.
Prima di renderla comprensibile è imprescindibile aprire una piccola parentesi su due concetti: 1. anonimizzazione e 2. randomizzazione da cui, tra l’altro, tutto parte.
Partiamo con il primo.
Che significa rendere anonimo qualcosa o qualcuno?
Beh, non dobbiamo scomodare grandi matematici o studiosi della materia per comprendere che anonimizzare voglia dire nascondere l’identità di qualcuno alla quale, dunque, non si potrebbe più risalire.
Il secondo fa, invece, riferimento al concetto di casualità. Almeno una volta nella vita, a tutti, è capitato di affermare la presente frase: “ho scelto questo ristorante, così…. random”.
Ebbene, tecnicamente, le due nozioni sono sorelle e vediamo perché.
Con l’anonimizzazione viene interrotta l’associazione diretta o indiretta con il soggetto cui quel dato si riferisce.
La randomizzazione, dal canto suo, produce lo stesso risultato introducendo però una cosa in più per giungere all’obiettivo: l’elemento di causalità, cioè il fattore random (definito rumore tecnicamente).
Questa doverosa premessa mi consente di accendere i riflettori su una circostanza. Sebbene si nasconda l’informazione di partenza, purtroppo, non possiamo decretare con una percentuale di certezza del 100% che proprio quel dato, nascosto, trapeli.
Si è assistito infatti piuttosto recentemente a casi di ri-associazione a causa di una sempre maggiore diffusione delle nostre informazioni sul web e che consentono agli informatici smanettoni di risalire alle informazioni complete.
Una tecnica che garantisce rispetto alle altre una maggiore difficoltà di re-identificazione al soggetto cui il dato si riferisce è appunto la privacy differenziale che appartiene alla famiglia della randomizzazione (quella che applica il fattore random/causalità) e che per funzionare bene necessita di una quantità di dati piuttosto importante.
Il procedimento che segue è a grandi linee il seguente:
Poniamo che, ad un campione di persone, venga fatta una domanda, per la quale sono ammesse solo due risposte “si” oppure “no”.
Prima di raccogliere la risposta, si inserisce del “rumore” cioè altre informazioni random (a caso) che materialmente sporcano il dato nascondendo l’identità di chi ha generato le informazioni.
Come vengono inserite queste informazioni ulteriori e a caso?
Lanciando metaforicamente una monetina.
Se viene “testa” verrà registrata la vera risposta. Se viene “croce”, si rilancia una seconda; se viene “testa” allora si registra “si”, se viene “croce” si raccoglie la risposta inversa cioè “no”.
Il “lancio della monetina” è l’esatta esplicazione del concetto di random il quale, attraverso il principio di casualità consente di oscurare i dati reali e, quindi, di non identificare il soggetto cui appartengono.
Per concludere l’analisi sul tema poteva essere utile fornire un esempio di applicazione pratica nel quale, magari, ci siamo imbattuti in diverse occasioni ma non ne abbiamo mai compreso il funzionamento.
Ebbene, ecco svelato l’arcano.
L’immagine in evidenza descrive RAPPOR (Randomized Aggregatable Privacy-Preserving Ordinal Response) un tool integrato in Chrome utilizzato per analizzare e realizzare grafici di dati. Se sulla barra di ricerca digitate il nome del vostro locale preferito, qualora quest’ultimo avesse deciso di implementarlo, potreste rendervi conto dei giorni e delle ore in cui presso quell’esercizio risulta esserci più afflusso. Incrociando i dati che, ogni giorno, diamo in pasto alla rete RAPPOR anonimizza i dati degli utenti prima di analizzarli, consentendo agli sviluppatori di Chrome di leggerli senza poter risalire alle abitudine o ai comportamenti del singolo utente.