Javascript must be enabled to continue!

Learning from imbalanced data : an application to bank fraud detection

Apprentissage dans un contexte déséquilibré : une application à la détection de fraude bancaire La détection de fraudes et d'anomalies, ou plus généralement l’apprentissage dans un contexte déséquilibré, est une tâche très souvent rencontrée dans de nombreuses applications industrielles.Détecter ces anomalies revêt un enjeu majeur dans notre société actuelle de par ses conséquences économiques.La société BLITZ Business Services est confrontée à ce type de problématique dans le cadre de la lutte contre la fraude par chèques. Ces fraudes représentent 0.4% des transactions pour ses clients mais des millions d'euros de pertes par an.Les données de fraudes sont difficiles pour la plupart des algorithmes actuels de par cette sous-représentativité des fraudes par rapport aux non-fraudes. Les techniques d'analyse sont aussi diverses et variées que la nature des fraudes rencontrées et vont de la stratégie de ré-échantillonnage, de l’apprentissage de représentation, l’optimisation de mesures appropriées à un contexte déséquilibré ou encore la construction d’algorithmes de classification combinant plusieurs autres algorithmes.Cette thèse se veut éclectique, à l’image des techniques présentes dans l'état de l'art, et se divise en deux grands axes : (i) une approche dite géométrique dans laquelle nous proposons des algorithmes d'apprentissage de métrique pour la classification de données et (ii) une approche par sensibilité aux coûts que nous utilisons à la fois dans un but théorique mais aussi pratique.Notre première contribution repose sur l'apprentissage de modèles locaux autour de fraudes avérées afin de construire des zones à risque. Elle part du postulat qu'une nouvelle fraude a de très grandes chances d'apparaître à proximité d'une fraude connue. Une étude théorique accompagne cet algorithme permettant d'assurer que le nombre de faux positifs générés par l'algorithme reste contrôlé.Dans notre deuxième contribution, nous proposons une version de l'algorithme des k plus proches voisins plus adaptée au contexte déséquilibré. Dans cette étude, essentiellement expérimentale, nous nous proposons d'étudier la façon dont doit être modifiée la distance d'un nouvel exemple à une fraude afin d'optimiser une mesure adaptée à ce contexte : la F-mesure, par le biais de la validation croisée. Cette mesure est au centre de notre troisième contribution qui se veut principalement théorique. Nous proposons de dériver une borne sur la F-mesure optimale à partir de la propriété de pseudo-linéarité de cette mesure, des erreurs effectuées par l'hypothèse apprise et d'une approche par sensibilité aux coûts. Ces bornes théoriques obtenues sont ensuite utilisées pour construire un algorithme itératif d'optimisation de la F-mesure, algorithme qui est tout aussi performant que ces concurrents.Notre quatrième et dernière contribution est industrielle et a pour but de combiner l'utilisation de modèles à base d'arbres et de sensibilité aux coûts pour améliorer le système existant de la société BLITZ en proposant un système d'optimisation des bénéfices de ses clients.

Agence Bibliographique de l'Enseignement Supérieur

Guillaume Metzler

2026

Title: Learning from imbalanced data : an application to bank fraud detection

Description:

Détecter ces anomalies revêt un enjeu majeur dans notre société actuelle de par ses conséquences économiques.

La société BLITZ Business Services est confrontée à ce type de problématique dans le cadre de la lutte contre la fraude par chèques.

Ces fraudes représentent 0.

4% des transactions pour ses clients mais des millions d'euros de pertes par an.

Les données de fraudes sont difficiles pour la plupart des algorithmes actuels de par cette sous-représentativité des fraudes par rapport aux non-fraudes.

Les techniques d'analyse sont aussi diverses et variées que la nature des fraudes rencontrées et vont de la stratégie de ré-échantillonnage, de l’apprentissage de représentation, l’optimisation de mesures appropriées à un contexte déséquilibré ou encore la construction d’algorithmes de classification combinant plusieurs autres algorithmes.

Cette thèse se veut éclectique, à l’image des techniques présentes dans l'état de l'art, et se divise en deux grands axes : (i) une approche dite géométrique dans laquelle nous proposons des algorithmes d'apprentissage de métrique pour la classification de données et (ii) une approche par sensibilité aux coûts que nous utilisons à la fois dans un but théorique mais aussi pratique.

Notre première contribution repose sur l'apprentissage de modèles locaux autour de fraudes avérées afin de construire des zones à risque.

Elle part du postulat qu'une nouvelle fraude a de très grandes chances d'apparaître à proximité d'une fraude connue.

Une étude théorique accompagne cet algorithme permettant d'assurer que le nombre de faux positifs générés par l'algorithme reste contrôlé.

Dans notre deuxième contribution, nous proposons une version de l'algorithme des k plus proches voisins plus adaptée au contexte déséquilibré.

Dans cette étude, essentiellement expérimentale, nous nous proposons d'étudier la façon dont doit être modifiée la distance d'un nouvel exemple à une fraude afin d'optimiser une mesure adaptée à ce contexte : la F-mesure, par le biais de la validation croisée.

Cette mesure est au centre de notre troisième contribution qui se veut principalement théorique.

Nous proposons de dériver une borne sur la F-mesure optimale à partir de la propriété de pseudo-linéarité de cette mesure, des erreurs effectuées par l'hypothèse apprise et d'une approche par sensibilité aux coûts.

Ces bornes théoriques obtenues sont ensuite utilisées pour construire un algorithme itératif d'optimisation de la F-mesure, algorithme qui est tout aussi performant que ces concurrents.

Notre quatrième et dernière contribution est industrielle et a pour but de combiner l'utilisation de modèles à base d'arbres et de sensibilité aux coûts pour améliorer le système existant de la société BLITZ en proposant un système d'optimisation des bénéfices de ses clients.

Back

The rapid expansion of the fintech sector has brought with it an increasing demand for robust and sophisticated fraud detection systems capable of managing large volumes of financi...

ANALISIS PENGARUH FAKTOR-FAKTOR PENYEBAB FRAUD DI SEKTOR PEMERINTAHAN KOTA BANJARBARU

Abstract: Government agencies as budget users, implementers of popular programs and activities, are indicated to be real perpetrators of fraud. Some conditions in the work environm...

Enhancing fraud detection in accounting through AI: Techniques and case studies

The integration of artificial intelligence (AI) into accounting has significantly transformed the landscape of fraud detection. Traditional methods, while effective to some extent,...

SCREENING DAN EVALUASI PROGRAM BANK SAMPAH KOTA YOGYAKARTA

Pendahuluan: Badan Lingkungan Hidup (DLH) Kota Yogyakarta Sejak Tahun 2009 mengembangkan program bank sampah sebagai salah satu kegiatan yang dilaksanakan oleh Sub Bidang Daur Ulan...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

PENCEGAHAN FRAUD PADA PT. ARTHA TRIMITRA EXPOTAMA

We found that there was an increase in profits at Partners Expo after the decline in the COVID-19 pandemic. The increase in PT Artha Trimitra Expotama's revenue is one of the thing...

Pengaruh Fraud Pentagon terhadap Financial Statement Fraud

Abstract. This study aims to determine banking companies that experience financial statement fraud using pentagon fraud theory. Pentagon fraud has five factors that influence the c...

CORPORATE SOCIAL RESPONSIBILITY PRACTICES: A STUDY ON THE LISTED PRIVATE COMMERCIAL BANKS OF BANGLADESH

This study aims to monitor the CSR activities and determine the nature and the level of CSR contribution of PCBs. In most developed countries, corporate social responsibility (CSR)...

Email:
Password:

Email:

Learning from imbalanced data : an application to bank fraud detection

Related Results