Javascript must be enabled to continue!

Machine learning methods for privacy protection : leakage measurement and mechanisms design

Méthodes d'apprentissage machine pour la protection de la vie privée : mesure de leakage et design des mécanismes Ces dernières années, l'intelligence artificielle et l'apprentissage machine (ML) ont été de plus en plus présents dans d'innombrables aspects de notre vie quotidienne. Dans cette thèse de doctorat, nous étudions comment les notions de théorie de l'information et de ML peuvent être utilisées pour mieux mesurer et comprendre les informations divulguées par les données et/ou les modèles, et pour concevoir des solutions visant à protéger la confidentialité des informations partagées. Nous explorons d'abord l'application du ML pour estimer l'information leakage d'un système. Nous envisageons un scénario black-box dans lequel les éléments internes du système sont inconnus, ou trop compliqués à analyser, et les seules informations disponibles sont des paires de données input-output. Les travaux précédents se sont concentrés sur le comptage des fréquences pour estimer les probabilités conditionnelles d'input-output (frequentist approach), cependant cette méthode n'est pas précise lorsque le domaine des outputs possibles est large. Pour surmonter cette difficulté, l'estimation par ML de l'erreur du classificateur idéal (Bayes) a récemment été étudiée et sa précision supérieure, grâce à la capacité des modèles à apprendre la correspondance input-output, a été démontré. Cependant, la Bayes vulnerability ne convient que pour décrire des attaques one-try. Une mesure plus générale est la g-vulnerability, qui englobe plusieurs types d'adversaires, avec des objectifs et des capacités différents. Nous proposons donc une nouvelle approche basée sur la ML, qui repose sur le pre-processing des données, pour effectuer une estimation black-box de la g-vulnerability, en étudiant formellement la capacité d'apprentissage pour toutes les distributions de données et en évaluant les performances dans divers contextes expérimentaux. Dans la deuxième partie de cette thèse, nous abordons le problème de l'obscurcissement des informations sensibles tout en préservant leur utilité, et nous proposons une approche de ML inspirée du paradigme generative adversarial nets. L'idée est de mettre en place deux réseaux : le générateur, qui essaie de produire un mécanisme d'obscurcissement optimal pour protéger les données, et le classificateur, qui essaie de désobstruer les données. En laissant les deux réseaux se concurrencer, le mécanisme améliore son degré de protection, jusqu'à ce qu'un équilibre soit atteint. Nous appliquons notre méthode au cas de la location privacy, et nous effectuons des expériences sur des données synthétiques et sur des données réelles provenant de le dataset Gowalla. La performance du mécanisme d'obfuscation obtenu est évaluée en fonction de l'erreur de Bayes, qui représente l'adversaire le plus fort possible. Enfin, nous considérons que, dans les problèmes de classification, nous essayons de prévoir les classes en observant les valeurs des caractéristiques qui représentent les échantillons d'entrée. Les valeurs des classes et des caractéristiques peuvent être considérées respectivement comme des inputs secrètes et des outputs observables d'un système. Par conséquent, la mesure de information leakage d'un tel système est une stratégie permettant de distinguer les caractéristiques les plus et les moins informatives. La théorie de l'information peut être considérée comme un concept utile pour cette tâche, car le pouvoir de prédiction découle de la corrélation, c'est-à-dire de l'information mutuelle, entre les features et les labels. Nous comparons l'information mutuelle basée sur l'entropie de Shannon à celle basée sur la min-entropy de Rényi, tant du point de vue théorique qu'expérimental, en montrant qu'en général, les deux approches sont incomparables, dans le sens où, selon l'ensemble de données considéré, parfois la méthode basée sur l'entropie de Shannon surpasse celle basée sur la min-entropie de Rényi et parfois le contraire se produit.

Agence Bibliographique de l'Enseignement Supérieur

Marco Romanelli

2026

Title: Machine learning methods for privacy protection : leakage measurement and mechanisms design

Description:

Dans cette thèse de doctorat, nous étudions comment les notions de théorie de l'information et de ML peuvent être utilisées pour mieux mesurer et comprendre les informations divulguées par les données et/ou les modèles, et pour concevoir des solutions visant à protéger la confidentialité des informations partagées.

Nous explorons d'abord l'application du ML pour estimer l'information leakage d'un système.

Nous envisageons un scénario black-box dans lequel les éléments internes du système sont inconnus, ou trop compliqués à analyser, et les seules informations disponibles sont des paires de données input-output.

Les travaux précédents se sont concentrés sur le comptage des fréquences pour estimer les probabilités conditionnelles d'input-output (frequentist approach), cependant cette méthode n'est pas précise lorsque le domaine des outputs possibles est large.

Pour surmonter cette difficulté, l'estimation par ML de l'erreur du classificateur idéal (Bayes) a récemment été étudiée et sa précision supérieure, grâce à la capacité des modèles à apprendre la correspondance input-output, a été démontré.

Cependant, la Bayes vulnerability ne convient que pour décrire des attaques one-try.

Une mesure plus générale est la g-vulnerability, qui englobe plusieurs types d'adversaires, avec des objectifs et des capacités différents.

Nous proposons donc une nouvelle approche basée sur la ML, qui repose sur le pre-processing des données, pour effectuer une estimation black-box de la g-vulnerability, en étudiant formellement la capacité d'apprentissage pour toutes les distributions de données et en évaluant les performances dans divers contextes expérimentaux.

Dans la deuxième partie de cette thèse, nous abordons le problème de l'obscurcissement des informations sensibles tout en préservant leur utilité, et nous proposons une approche de ML inspirée du paradigme generative adversarial nets.

L'idée est de mettre en place deux réseaux : le générateur, qui essaie de produire un mécanisme d'obscurcissement optimal pour protéger les données, et le classificateur, qui essaie de désobstruer les données.

En laissant les deux réseaux se concurrencer, le mécanisme améliore son degré de protection, jusqu'à ce qu'un équilibre soit atteint.

Nous appliquons notre méthode au cas de la location privacy, et nous effectuons des expériences sur des données synthétiques et sur des données réelles provenant de le dataset Gowalla.

La performance du mécanisme d'obfuscation obtenu est évaluée en fonction de l'erreur de Bayes, qui représente l'adversaire le plus fort possible.

Enfin, nous considérons que, dans les problèmes de classification, nous essayons de prévoir les classes en observant les valeurs des caractéristiques qui représentent les échantillons d'entrée.

Les valeurs des classes et des caractéristiques peuvent être considérées respectivement comme des inputs secrètes et des outputs observables d'un système.

Par conséquent, la mesure de information leakage d'un tel système est une stratégie permettant de distinguer les caractéristiques les plus et les moins informatives.

La théorie de l'information peut être considérée comme un concept utile pour cette tâche, car le pouvoir de prédiction découle de la corrélation, c'est-à-dire de l'information mutuelle, entre les features et les labels.

Nous comparons l'information mutuelle basée sur l'entropie de Shannon à celle basée sur la min-entropy de Rényi, tant du point de vue théorique qu'expérimental, en montrant qu'en général, les deux approches sont incomparables, dans le sens où, selon l'ensemble de données considéré, parfois la méthode basée sur l'entropie de Shannon surpasse celle basée sur la min-entropie de Rényi et parfois le contraire se produit.

Back

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Multiple Water and Sand Leakage Model Tests for Shield Tunnels

Water and sand leakage in shield tunnels has become more of a research interest in recent years. On the other hand, accidents involving underground engineering can take many forms ...

Privacy Risk in Recommender Systems

Nowadays, recommender systems are mostly used in many online applications to filter information and help users in selecting their relevant requirements. It avoids users to become o...

Augmented Differential Privacy Framework for Data Analytics

Abstract Differential privacy has emerged as a popular privacy framework for providing privacy preserving noisy query answers based on statistical properties of databases. ...

Application Status and Prospect of Data Privacy Protection Technology

This article aims to explore the current application status and future prospects of data privacy protection technology, analyze the challenges faced by current data privacy, explor...

Design

Conventional definitions of design rarely capture its reach into our everyday lives. The Design Council, for example, estimates that more than 2.5 million people use design-related...

THE SECURITY AND PRIVACY MEASURING SYSTEM FOR THE INTERNET OF THINGS DEVICES

The purpose of the article: elimination of the gap in existing need in the set of clear and objective security and privacy metrics for the IoT devices users and manufacturers and a...

Differential privacy learned index

Indexes are fundamental components of database management systems, traditionally implemented through structures like B-Tree, Hash, and BitMap indexes. These index structures map ke...

Email:
Password:

Email:

Machine learning methods for privacy protection : leakage measurement and mechanisms design

Related Results