Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Learning from imbalanced data : an application to bank fraud detection

View through CrossRef
Apprentissage dans un contexte déséquilibré : une application à la détection de fraude bancaire La détection de fraudes et d'anomalies, ou plus généralement l’apprentissage dans un contexte déséquilibré, est une tâche très souvent rencontrée dans de nombreuses applications industrielles.Détecter ces anomalies revêt un enjeu majeur dans notre société actuelle de par ses conséquences économiques.La société BLITZ Business Services est confrontée à ce type de problématique dans le cadre de la lutte contre la fraude par chèques. Ces fraudes représentent 0.4% des transactions pour ses clients mais des millions d'euros de pertes par an.Les données de fraudes sont difficiles pour la plupart des algorithmes actuels de par cette sous-représentativité des fraudes par rapport aux non-fraudes. Les techniques d'analyse sont aussi diverses et variées que la nature des fraudes rencontrées et vont de la stratégie de ré-échantillonnage, de l’apprentissage de représentation, l’optimisation de mesures appropriées à un contexte déséquilibré ou encore la construction d’algorithmes de classification combinant plusieurs autres algorithmes.Cette thèse se veut éclectique, à l’image des techniques présentes dans l'état de l'art, et se divise en deux grands axes : (i) une approche dite géométrique dans laquelle nous proposons des algorithmes d'apprentissage de métrique pour la classification de données et (ii) une approche par sensibilité aux coûts que nous utilisons à la fois dans un but théorique mais aussi pratique.Notre première contribution repose sur l'apprentissage de modèles locaux autour de fraudes avérées afin de construire des zones à risque. Elle part du postulat qu'une nouvelle fraude a de très grandes chances d'apparaître à proximité d'une fraude connue. Une étude théorique accompagne cet algorithme permettant d'assurer que le nombre de faux positifs générés par l'algorithme reste contrôlé.Dans notre deuxième contribution, nous proposons une version de l'algorithme des k plus proches voisins plus adaptée au contexte déséquilibré. Dans cette étude, essentiellement expérimentale, nous nous proposons d'étudier la façon dont doit être modifiée la distance d'un nouvel exemple à une fraude afin d'optimiser une mesure adaptée à ce contexte : la F-mesure, par le biais de la validation croisée. Cette mesure est au centre de notre troisième contribution qui se veut principalement théorique. Nous proposons de dériver une borne sur la F-mesure optimale à partir de la propriété de pseudo-linéarité de cette mesure, des erreurs effectuées par l'hypothèse apprise et d'une approche par sensibilité aux coûts. Ces bornes théoriques obtenues sont ensuite utilisées pour construire un algorithme itératif d'optimisation de la F-mesure, algorithme qui est tout aussi performant que ces concurrents.Notre quatrième et dernière contribution est industrielle et a pour but de combiner l'utilisation de modèles à base d'arbres et de sensibilité aux coûts pour améliorer le système existant de la société BLITZ en proposant un système d'optimisation des bénéfices de ses clients.
Agence Bibliographique de l'Enseignement Supérieur
Title: Learning from imbalanced data : an application to bank fraud detection
Description:
Apprentissage dans un contexte déséquilibré : une application à la détection de fraude bancaire La détection de fraudes et d'anomalies, ou plus généralement l’apprentissage dans un contexte déséquilibré, est une tâche très souvent rencontrée dans de nombreuses applications industrielles.
Détecter ces anomalies revêt un enjeu majeur dans notre société actuelle de par ses conséquences économiques.
La société BLITZ Business Services est confrontée à ce type de problématique dans le cadre de la lutte contre la fraude par chèques.
Ces fraudes représentent 0.
4% des transactions pour ses clients mais des millions d'euros de pertes par an.
Les données de fraudes sont difficiles pour la plupart des algorithmes actuels de par cette sous-représentativité des fraudes par rapport aux non-fraudes.
Les techniques d'analyse sont aussi diverses et variées que la nature des fraudes rencontrées et vont de la stratégie de ré-échantillonnage, de l’apprentissage de représentation, l’optimisation de mesures appropriées à un contexte déséquilibré ou encore la construction d’algorithmes de classification combinant plusieurs autres algorithmes.
Cette thèse se veut éclectique, à l’image des techniques présentes dans l'état de l'art, et se divise en deux grands axes : (i) une approche dite géométrique dans laquelle nous proposons des algorithmes d'apprentissage de métrique pour la classification de données et (ii) une approche par sensibilité aux coûts que nous utilisons à la fois dans un but théorique mais aussi pratique.
Notre première contribution repose sur l'apprentissage de modèles locaux autour de fraudes avérées afin de construire des zones à risque.
Elle part du postulat qu'une nouvelle fraude a de très grandes chances d'apparaître à proximité d'une fraude connue.
Une étude théorique accompagne cet algorithme permettant d'assurer que le nombre de faux positifs générés par l'algorithme reste contrôlé.
Dans notre deuxième contribution, nous proposons une version de l'algorithme des k plus proches voisins plus adaptée au contexte déséquilibré.
Dans cette étude, essentiellement expérimentale, nous nous proposons d'étudier la façon dont doit être modifiée la distance d'un nouvel exemple à une fraude afin d'optimiser une mesure adaptée à ce contexte : la F-mesure, par le biais de la validation croisée.
Cette mesure est au centre de notre troisième contribution qui se veut principalement théorique.
Nous proposons de dériver une borne sur la F-mesure optimale à partir de la propriété de pseudo-linéarité de cette mesure, des erreurs effectuées par l'hypothèse apprise et d'une approche par sensibilité aux coûts.
Ces bornes théoriques obtenues sont ensuite utilisées pour construire un algorithme itératif d'optimisation de la F-mesure, algorithme qui est tout aussi performant que ces concurrents.
Notre quatrième et dernière contribution est industrielle et a pour but de combiner l'utilisation de modèles à base d'arbres et de sensibilité aux coûts pour améliorer le système existant de la société BLITZ en proposant un système d'optimisation des bénéfices de ses clients.

Related Results

Advanced frameworks for fraud detection leveraging quantum machine learning and data science in fintech ecosystems
Advanced frameworks for fraud detection leveraging quantum machine learning and data science in fintech ecosystems
The rapid expansion of the fintech sector has brought with it an increasing demand for robust and sophisticated fraud detection systems capable of managing large volumes of financi...
ANALISIS PENGARUH FAKTOR-FAKTOR PENYEBAB FRAUD DI SEKTOR PEMERINTAHAN KOTA BANJARBARU
ANALISIS PENGARUH FAKTOR-FAKTOR PENYEBAB FRAUD DI SEKTOR PEMERINTAHAN KOTA BANJARBARU
Abstract: Government agencies as budget users, implementers of popular programs and activities, are indicated to be real perpetrators of fraud. Some conditions in the work environm...
SCREENING DAN EVALUASI PROGRAM BANK SAMPAH KOTA YOGYAKARTA
SCREENING DAN EVALUASI PROGRAM BANK SAMPAH KOTA YOGYAKARTA
Pendahuluan: Badan Lingkungan Hidup (DLH) Kota Yogyakarta Sejak Tahun 2009 mengembangkan program bank sampah sebagai salah satu kegiatan yang dilaksanakan oleh Sub Bidang Daur Ulan...
Pengaruh Fraud Pentagon terhadap Financial Statement Fraud
Pengaruh Fraud Pentagon terhadap Financial Statement Fraud
Abstract. This study aims to determine banking companies that experience financial statement fraud using pentagon fraud theory. Pentagon fraud has five factors that influence the c...
Machine Learning-Powered Financial Fraud Detection: Building Robust Predictive Models for Transactional Security
Machine Learning-Powered Financial Fraud Detection: Building Robust Predictive Models for Transactional Security
The advances in financial fraud schemes create serious challenges for the institutions responsible for securing monetary transactions in the USA. With the spread of digital payment...
CORPORATE SOCIAL RESPONSIBILITY PRACTICES: A STUDY ON THE LISTED PRIVATE COMMERCIAL BANKS OF BANGLADESH
CORPORATE SOCIAL RESPONSIBILITY PRACTICES: A STUDY ON THE LISTED PRIVATE COMMERCIAL BANKS OF BANGLADESH
This study aims to monitor the CSR activities and determine the nature and the level of CSR contribution of PCBs. In most developed countries, corporate social responsibility (CSR)...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Identifying causes and potential consequences of financial fraud
Identifying causes and potential consequences of financial fraud
Introduction. The article claims that due to the rapid growth of financial relations, advancement of globalization processes, the impact of IT and the Internet on financial perform...

Back to Top