Javascript must be enabled to continue!

Interpretable Algorithms for Regression : Theory and Applications

Algorithmes interprétables pour la régression : théorie et applications Cette thèse a été motivée par la volonté de créer un algorithme interprétable en analyse de la régression. Dans un premier temps, nous nous sommes concentrés sur les algorithmes interprétables les plus courants : les algorithmes à bases de règles de décisions. Malheureusement, les conditions théoriques sur ces algorithmes engendrent une perte d'interprétabilité lorsque la dimension augmente. Partant du principe que moins il y a de règles, meilleure est l'interprétabilité, nous avons introduit une nouvelle famille d'algorithmes à base d'un petit nombre de règles dites significatives. Ce principe a été traduit en une mesure d'interprétabilité permettant la comparaison entre algorithmes générant des règles. Nous avons ensuite introduit une nouvelle méthode pour générer des estimateurs interprétables de la fonction de régression. L'idée repose sur la notion de recouvrements des données. L'objectif est de construire à partir des données un recouvrement de l'espace des variables explicatives au lieu d'imposer une partition comme pour les algorithmes à bases de règles usuels. Chaque élément du recouvrement est sélectionné selon un critère de significativité ou d'insignifiance. Les éléments significatifs servent à décrire le modèle et les éléments insignifiants permettent d'obtenir un recouvrement. Une partition est construite à partir du recouvrement pour définir une prédiction. La méthode prédit la variable d'intérêt comme l'espérance conditionnelle empirique sur les cellules de la partition activées par les variables explicatives correspondantes. Ainsi, ces prédictions sont identiques à celles issues d'algorithmes de partitionnement dépendant des données et s'interprètent comme un minimiseur du risque empirique. Nous prouvons ainsi que de telles méthodes fournissent des estimateurs consistants de la fonction de régression sans utiliser la condition de rétrécissement des cellules qui apparaît dans la littérature. Ce faisant, nous réduisons le nombre d'éléments du recouvrement et nous améliorons l'interprétabilité du modèle obtenu. À partir de cette théorie, nous avons développé deux algorithmes. Le premier, Covering Algorithm (CA), est un algorithme rendant interprétable Random Forests (RF), un algorithme vu comme une boîte noire non-interprétable. L'algorithme extrait des règles obtenues par RF un recouvrement de règles significatives et insignifiantes. Le second, Rule Induction Covering Estimator (RICE), ne conçoit que des règles significatives et insignifiantes contrairement à (CA). RICE en sélectionne un petit ensemble pour former un recouvrement. Les règles significatives sont utilisées pour interpréter le modèle et le recouvrement permet de définir un estimateur de la fonction de régression qui, sous certaines conditions, est consistant. Enfin, une version open-source du code est disponible sur GitHub.

Agence Bibliographique de l'Enseignement Supérieur

Vincent Margot

2026

Title: Interpretable Algorithms for Regression : Theory and Applications

Description:

Algorithmes interprétables pour la régression : théorie et applications Cette thèse a été motivée par la volonté de créer un algorithme interprétable en analyse de la régression.

Dans un premier temps, nous nous sommes concentrés sur les algorithmes interprétables les plus courants : les algorithmes à bases de règles de décisions.

Malheureusement, les conditions théoriques sur ces algorithmes engendrent une perte d'interprétabilité lorsque la dimension augmente.

Partant du principe que moins il y a de règles, meilleure est l'interprétabilité, nous avons introduit une nouvelle famille d'algorithmes à base d'un petit nombre de règles dites significatives.

Ce principe a été traduit en une mesure d'interprétabilité permettant la comparaison entre algorithmes générant des règles.

Nous avons ensuite introduit une nouvelle méthode pour générer des estimateurs interprétables de la fonction de régression.

L'idée repose sur la notion de recouvrements des données.

L'objectif est de construire à partir des données un recouvrement de l'espace des variables explicatives au lieu d'imposer une partition comme pour les algorithmes à bases de règles usuels.

Chaque élément du recouvrement est sélectionné selon un critère de significativité ou d'insignifiance.

Les éléments significatifs servent à décrire le modèle et les éléments insignifiants permettent d'obtenir un recouvrement.

Une partition est construite à partir du recouvrement pour définir une prédiction.

La méthode prédit la variable d'intérêt comme l'espérance conditionnelle empirique sur les cellules de la partition activées par les variables explicatives correspondantes.

Ainsi, ces prédictions sont identiques à celles issues d'algorithmes de partitionnement dépendant des données et s'interprètent comme un minimiseur du risque empirique.

Nous prouvons ainsi que de telles méthodes fournissent des estimateurs consistants de la fonction de régression sans utiliser la condition de rétrécissement des cellules qui apparaît dans la littérature.

Ce faisant, nous réduisons le nombre d'éléments du recouvrement et nous améliorons l'interprétabilité du modèle obtenu.

À partir de cette théorie, nous avons développé deux algorithmes.

Le premier, Covering Algorithm (CA), est un algorithme rendant interprétable Random Forests (RF), un algorithme vu comme une boîte noire non-interprétable.

L'algorithme extrait des règles obtenues par RF un recouvrement de règles significatives et insignifiantes.

Le second, Rule Induction Covering Estimator (RICE), ne conçoit que des règles significatives et insignifiantes contrairement à (CA).

RICE en sélectionne un petit ensemble pour former un recouvrement.

Les règles significatives sont utilisées pour interpréter le modèle et le recouvrement permet de définir un estimateur de la fonction de régression qui, sous certaines conditions, est consistant.

Enfin, une version open-source du code est disponible sur GitHub.

Back

Related Results

Learning Theory and Approximation

The workshop Learning Theory and Approximation , organised by Kurt Jetter (Stuttgart-Hohenheim), Steve Smale (Berkeley) and Ding-Xuan Zhou (...

Theory of integrals computing from fast oscillating functions

We present a general theory of computation integrals of highly oscillatory functions (IHOF) in various classes of subintegral functions with the use of a net information operator o...

Comparative Analysis of Classical and Quantum Machine Learning Algorithms in Breast Cancer Classification

Abstract This study presents a comparison between classical machine learning (ML) algorithms and their quantum-enhanced counterparts in classifying scikit’s breast ...

Integrating quantum neural networks with machine learning algorithms for optimizing healthcare diagnostics and treatment outcomes

The rapid advancements in artificial intelligence (AI) and quantum computing have catalyzed an unprecedented shift in the methodologies utilized for healthcare diagnostics and trea...

BI-INTERPRETATION IN WEAK SET THEORIES

AbstractIn contrast to the robust mutual interpretability phenomenon in set theory, Ali Enayat proved that bi-interpretation is absent: distinct theories extending ZF are never bi-...

Assessment of Chlorophyll-a Algorithms Considering Different Trophic Statuses and Optimal Bands

Numerous algorithms have been proposed to retrieve chlorophyll-a concentrations in Case 2 waters; however, the retrieval accuracy is far from satisfactory. In this research, seven ...

Extending Post-Interpretive Criticism: Additional Diagnostic Indices for Enhanced Phenomenological Fidelity in Art Criticism

This paper extends Post-Interpretive Criticism (PIC) by introducing a second layer of diagnostic indices designed to evaluate the phenomenological fidelity of art criticism. While ...

An Empirical Comparison of Interpretable Models to Post-Hoc Explanations

Recently, some effort went into explaining intransparent and black-box models, such as deep neural networks or random forests. So-called model-agnostic methods typically approximat...

Email:
Password:

Email: