/GT_Anonymization

Anonymization_GT

Primary LanguageJupyter Notebook

GT_Anonymization

Anonymization: GT (Groupe de Travail)

PROPOSAL FOR A PROCEDURE FOR THE ANONYMISATION OF SURVEY DATA : CASE OF THE ACADEMIC SURVEY ON YOUTH WELFARE AND ECONOMIC OPPORTUNITIES IN KORHOGO (2024)

This is a study on data anonymization realised

By Al Aziz N'Golo COULIBALY & Issa DJIBRILLA

Economists Statisticians at ENSEA (Ecole Nationale Superieure de Statistique et d'Economie Appliquée, Abidjan-Côte d'Ivoire)

Supervisor : Mr. Stephane N'ZI

Teacher at ENSEA

we used google collab to run the codes inside the notebook

if you need the questionnaire and the data used, please send a mail to : aziz.coulibaly@ensea.edu.ci or issa.djibrilla@ensea.edu.ci

ABSTRACT

This research explores the challenges and opportunities related to data protection, with a particular focus on survey data anonymization. The objective is to propose an anonymization procedure that integrates methods such as Statistical Disclosure Control (SDC) and advancements in synthetic data generation, while considering legal and ethical requirements. A proposed anonymization procedure utilizes SDC and synthetic data generation models (GANs and Gaussian copulas), based on a contextual data preparation inspired by the SDC procedure. The effectiveness of the methods is compared to ensure individual privacy and data utility. The results show that generative models are superior to SDC in terms of privacy. However, they tend to overestimate or underestimate certain dependencies between variables. This makes traditional SDC a suitable procedure for SUF-type anonymizations, while generative models, notably Copula GAN and TVAE, are well-suited for PUF. This study contributes to the advancement of privacy protection practices in social surveys by proposing solutions to reconcile privacy and data sharing for research.

RESUME

Cette étude explore les défis et les opportunités liés à la protection des données, avec un accent particulier sur l'anonymisation des données d'enquêtes. L'objectif est de proposer une procédure d'anonymisation intégrant des méthodes telles que le Contrôle de Divulgation Statistique (SDC) et les avancées en matière de production de données synthétiques, tout en tenant compte des exigences légales et éthiques. Une procédure d'anonymisation est proposée en utilisant le SDC et les modèles de génération de données synthétiques (GAN et copules Gaussiennes) en se basant sur une préparation contextuelle des données inspirée de la procédure SDC. L'efficacité des méthodes est comparée pour garantir la confidentialité des individus et l'utilité des données. Les résultats montrent que les modèles génératifs sont supérieurs au SDC en termes de confidentialité. Cependant, ils ont tendance à surestimer ou sous-estimer certaines dépendances entre les variables. Cela fait du SDC classique, une procédure adaptée aux anonymisations de type SUF et des modèles génératifs, notamment le Copula GAN et la TVAE adaptées aux PUF. Cette étude contribue à l'avancement des pratiques de protection de la vie privée dans les enquêtes sociales, en proposant des solutions pour concilier confidentialité et partage de données pour la recherche