I dati sintetici: una risorsa per la privacy?

Articolo header

Nel corso della prima giornata della 9a edizione del Congresso dell’Associazione, un tema, in particolare, ha suscitato grande interesse e sollevato diversi interrogativi fra i partecipanti: l’utilizzo dei dati sintetici (“synthetic data”). Come è classificata e regolamentata questa tipologia di dati? Si tratta di dati anonimi? Possono effettivamente costituire una risorsa per la tutela dei dati personali?





Qualche dato

Secondo un recente studio condotto da Grand View Research, società di consulenza e ricerche di mercato che fornisce rapporti di ricerca utilizzati da rinomate istituzioni accademiche e da alcune delle più importanti aziende a livello globale, il mercato dei dati sintetici ha raggiunto un valore superiore ai 163 milioni di dollari nel 2022, in netta crescita rispetto ai poco più di 123 milioni registrati nel 2021. Le proiezioni indicano che questo mercato continuerà a svilupparsi e si stima che possa raggiungere la cifra di 1,79 miliardi entro il 2030. Questo trend di crescita sta attirando l’attenzione di media e istituzioni: negli USA il MIT Technology Review ha classificato la sintetizzazione dei dati come una delle dieci tecnologie più innovative del 2022, mentre Forbes l’ha inclusa tra le cinque tendenze principali nell’ambito della Data Science; anche in Europa l’EDPS, nel report “TechSonar 2022-2023”, ha inserito i dati sintetici fra le tecnologie emergenti che necessitano di essere monitorate e, proprio a tal fine, ha messo a disposizione una apposita dashboard:

La dashboard EDPS evidenzia il crescente interesse nei confronti dei dati sintetici

L’interesse nei confronti dei dati sintetici è esploso, quindi, negli ultimi anni, con l’avvento dei più recenti sistemi di Artificial Intelligence (AI), ma non rappresenta una novità assoluta: la prima menzione del termine risale al 1993, in un articolo pubblicato sul “Journal of Official Statistics” da Donald B. Rubin, professore di statistica di Harvard, mentre stava affrontando l’analisi dei dati di un censimento. Ma cosa si intende, quindi con il termine dati sintetici?


Definizione e processo di sintesi

L’EDPS (European Data Protection Supervisor), definisce i dati sintetici come “dati artificiali generati da dati originali e da un modello addestrato a riprodurre le caratteristiche e la struttura dei dati originali”. Si tratta, in parole povere, di dati che non sono raccolti a partire da un’interazione con il mondo reale ma che sono in tutto e per tutto equiparabili, per caratteristiche e completezza, a dati autentici riferiti a persone esistenti. Il processo di generazione, chiamato anche “sintesi”, può essere eseguito utilizzando diverse tecniche che sfruttano l’Intelligenza Artificiale ed il “machine learning”, compresi gli algoritmi di “deep learning”.

Più nel dettaglio, il processo di sintesi si compone di due, fondamentali, elementi:

  1. Un data set di informazioni personali. Si tratta dei dati originali e reali, di cui i dati sintetici riproducono le proprietà statistiche. Il data set di partenza può includere identificatori indiretti, quali, ad esempio, sesso, razza, figli, stato di fumatore, orientamento sessuale, o identificatori diretti, quali, ad esempio, i dati anagrafici, l’immagine del viso, il profilo genetico;
  2. Un sistema di Intelligenza Artificiale Generativa (AI generativa o GenAI), composto da un algoritmo utilizzato per generare dati sintetici artificiali partendo dal data set di dati originali di cui sopra.

A questi elementi si deve necessariamente aggiungere anche un sistema di controllo finale sui dati generati, in grado di garantire che i dati sintetici risultanti non siano dati personali effettivi (ovvero appartenenti a persone realmente esistenti).


Data synthesis vs data anonymization 

Alla luce di quanto detto, risultano evidenti le peculiarità del processo di sintesi dei dati, rispetto al processo di anonimizzazione dei dati.

  • Anonimizzazione significa modificare i dati personali in modo irreversibile e permanente, seguendo le migliori pratiche generalmente accettate, per garantire che nessun individuo possa essere identificato in alcun modo, direttamente o indirettamente;
  • Sintesi significa creare dati artificiali che non corrispondono a informazioni relative a persone realmente esistenti.

I dati sintetici, pertanto, non sono dati anonimi e non sono un sottoinsieme di un processo di anonimizzazione: con l’anonimizzazione, infatti, si impedisce o non si consente più l’identificazione dell’interessato, mentre con i dati artificiali si estrae valore da un determinato set di informazioni personali, creando una nuova generazione di dati che non risultano riconducibili ad alcun soggetto interessato realmente esistente.


Perché ricorrere alla sintesi dei dati? AI e framework normativo 

Uno dei principali impieghi del processo di sintesi – che è altresì uno dei motivi per i quali sta riscuotendo molti consensi – è l’addestramento dell’intelligenza artificiale. Amazon sfrutta i dati sintetici per addestrare Alexa; American Express, con i synthetic data, sta perfezionando i modelli di AI per il rilevamento delle frodi; J.P. Morgan se ne avvale per sviluppare algoritmi intelligenti per i servizi finanziari; John Deere, Tesla, Uber, Google ricorrono ai dati sintetici per il training dell’AI alla base dei sistemi di guida autonoma.

  • I dati sintetici, quindi, sono particolarmente utili per l’addestramento di algoritmi di apprendimento automatico che necessitano di un’immensa quantità di dati di addestramento, che possono essere costosi o con limitazioni nell’uso. I dati sintetici possono aiutare le aziende e i ricercatori a creare archivi di dati necessari per addestrare e persino pre-addestrare i modelli di apprendimento automatico, una tecnica definita “transfer learning”.
  • Al tempo stesso, le applicazioni della sintesi dei dati in correlazione all’addestramento dei sistemi di AI, possono rappresentare la chiave per garantire la conformità al Regolamento europeo sull’Intelligenza Artificiale (AI Act), entrato nella fase finale di discussione e negoziazione. Proprio l’ultima versione dell’AI Act, infatti, cita i dati sintetici come uno strumento utile ad effettuare un training sicuro ed etico dei modelli di AI.


Aspetti positivi, fra competitività, sicurezza e privacy

Oltre a favorire l’addestramento in sicurezza dei sistemi di AI, i dati sintetici si prestano a molteplici applicazioni innovative, in grado di elevare la competitività delle imprese riducendo i costi, i rischi e le limitazioni derivanti dal ricorso a dati reali. La sintesi di dati, inoltre, viene inclusa nella famiglia delle cosiddette “privacy-enhancing technologies” (PETs), tecnologie utili per rafforzare o migliorare la protezione dei dati personali. Nel rapporto datato marzo 2023 “Emerging privacy enhancing technologies”, l’Organizzazione economica internazionale per la cooperazione e lo sviluppo economico (“OECD”) include i dati sintetici fra i c.d. “strumenti di offuscamento”. Nel corso del processo di data synthesis, infatti, l’algoritmo generativo – se adeguatamente impostato – non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo viene a crearsi un set di dati artificiali completamente slegato dalla fonte originale.

In specifici settori, l’utilizzo dei dati sintetici come PET, consentirà, entro il 2025, di abbattere la raccolta dei dati personali dei clienti, permettendo di evitare il 70% delle sanzioni per violazioni delle norme sulla privacy (dati tratti dal report “Emerging Technologies: When and How to Use Synthetic Data” di Gartner Inc., società per azioni tra le più importanti nel settore della consulenza strategica, ricerca di mercato e analisi dei dati).


Criticità da presidiare 

Finora abbiamo illustrato gli aspetti positivi derivanti dal ricorso ai dati sintetici. Vi sono però anche profili potenzialmente critici da considerare:

  • Ambiguità giuridica

L’uso dei dati sintetici sarà condizionato dai regimi legali che si svilupperanno in tutto il mondo. Per tale ragione è essenziale abituarsi a mantenere un approccio di diritto comparato alla compliance;

  • Bias

Alcuni studi sui dati sintetici hanno evidenziato che, se i dati artificiali imitano da vicino il data set di informazioni originali, è probabile che riproducano gli stessi pregiudizi, influenzando l’equità e l’accuratezza dei sistemi di intelligenza artificiale.

  • Elaborazione di dati reali

Il processo di sintesi include necessariamente, in partenza, l’elaborazione di alcuni dati reali, che costituiscono il data set iniziale utile a definire parametri realistici per gli insiemi di dati sintetici. Quando i dati originali possono essere collegati a persone identificate o identificabili, pertanto, la produzione di set di dati sintetici sarà soggetta alle leggi sulla privacy applicabili.

  • Re-identificazione

Ultimo ma non per importanza, il tema della re-identificazione. Recenti ricerche hanno dimostrato, infatti, che gli strumenti di produzione sintetica talvolta generano dati artificiali fin troppo simili a quelli di partenza, alimentando rischi di re-identificazione.


Creare dati realistici senza esporre dati privati o senza il rischio di re-identificazione può essere difficile. Al tempo stesso, la mancanza di precisione nei dati sintetici può ostacolarne l’effettiva utilità. Le organizzazioni dovranno quindi trovare un equilibrio tra utilità effettiva e data protection. Come fare?


Soluzioni: DPIA, “privacy assurance assessment” e controllo del DPO

In conclusione, i dati sintetici possono rappresentare una grande risorsa per la protezione dei dati personali ma solo se il relativo utilizzo viene adeguatamente presidiato. Sussistono, infatti, rischi la cui gravità varia in base alla qualità del processo di sintesi.

Pertanto, è fondamentale:

  1. agire con cautela e adottare un approccio controllato in tutte le fasi della sintesi, sin dalla progettazione del processo;
  2. coinvolgere il DPO sin dalla progettazione del processo;
  3. effettuare una valutazione a garanzia della privacy (“privacy assurance assessment”) per assicurare che i dati sintetici prodotti non siano effettivamente riconducibili a dati personali;
  4. condurre la valutazione d’impatto privacy (“DPIA”), obbligatoria al fine di mitigare i rischi individuati con adeguate misure di sicurezza;
  5. ottenere il parere finale del DPO.

 

Il tema dei dati sintetici è estremamente attuale e la cornice di riferimento normativa non è ancora stata definita. La 9a edizione del Congresso ASSO DPO è stata l’occasione per intraprendere un proficuo dibattito. Se non l’hai ancora fatto e desideri unirti al confronto, ti invitiamo ad aderire all’Associazione, cliccando qui.


Fonti: 

Altre news