Javascript must be enabled to continue!

Estimation et sélection de modèle pour le modèle des blocs latents

Le but de la classification est de partager des ensembles de données en sous-ensembles les plus homogènes possibles, c'est-à-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables. Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non. Dans cette thèse, nous avons d'abord proposé des conditions suffisantes pour obtenir l'identifiabilité. Dans un second temps, nous avons étudié deux algorithmes proposés pour contourner le problème de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010). En particulier, nous avons analysé la combinaison des deux et mis en évidence des raisons pour lesquelles les algorithmes dégénèrent (terme utilisé pour dire qu'ils renvoient des classes vides). En choisissant des lois a priori judicieuses, nous avons ensuite proposé une adaptation bayésienne permettant de limiter ce phénomène. Nous avons notamment utilisé un échantillonneur de Gibbs dont nous proposons un critère d'arrêt basé sur la statistique de Brooks-Gelman (1998). Nous avons également proposé une adaptation de l'algorithme Largest Gaps (Channarond et al. (2012)). En reprenant leurs démonstrations, nous avons démontré que les estimateurs des labels et des paramètres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini. De plus, nous avons proposé une méthode pour sélectionner le nombre de classes en ligne et en colonne dont l'estimation est également consistante à condition que le nombre de ligne et de colonne soit très grand. Pour estimer le nombre de classes, nous avons étudié le critère ICL (Integrated Completed Likelihood) dont nous avons proposé une forme exacte. Après avoir étudié l'approximation asymptotique, nous avons proposé un critère BIC (Bayesian Information Criterion) puis nous conjecturons que les deux critères sélectionnent les mêmes résultats et que ces estimations seraient consistantes ; conjecture appuyée par des résultats théoriques et empiriques. Enfin, nous avons comparé les différentes combinaisons et proposé une méthodologie pour faire une analyse croisée de données.

Agence Bibliographique de l'Enseignement Supérieur

Vincent Brault

2026

Title: Estimation et sélection de modèle pour le modèle des blocs latents

Description:

Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables.

Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes.

Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM.

Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non.

Dans cette thèse, nous avons d'abord proposé des conditions suffisantes pour obtenir l'identifiabilité.

Dans un second temps, nous avons étudié deux algorithmes proposés pour contourner le problème de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010).

En particulier, nous avons analysé la combinaison des deux et mis en évidence des raisons pour lesquelles les algorithmes dégénèrent (terme utilisé pour dire qu'ils renvoient des classes vides).

En choisissant des lois a priori judicieuses, nous avons ensuite proposé une adaptation bayésienne permettant de limiter ce phénomène.

Nous avons notamment utilisé un échantillonneur de Gibbs dont nous proposons un critère d'arrêt basé sur la statistique de Brooks-Gelman (1998).

Nous avons également proposé une adaptation de l'algorithme Largest Gaps (Channarond et al.

(2012)).

En reprenant leurs démonstrations, nous avons démontré que les estimateurs des labels et des paramètres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini.

De plus, nous avons proposé une méthode pour sélectionner le nombre de classes en ligne et en colonne dont l'estimation est également consistante à condition que le nombre de ligne et de colonne soit très grand.

Pour estimer le nombre de classes, nous avons étudié le critère ICL (Integrated Completed Likelihood) dont nous avons proposé une forme exacte.

Après avoir étudié l'approximation asymptotique, nous avons proposé un critère BIC (Bayesian Information Criterion) puis nous conjecturons que les deux critères sélectionnent les mêmes résultats et que ces estimations seraient consistantes ; conjecture appuyée par des résultats théoriques et empiriques.

Enfin, nous avons comparé les différentes combinaisons et proposé une méthodologie pour faire une analyse croisée de données.

Back

Related Results

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

De la poésie à la peinture

La poésie et la peinture étaient toujours deux différentes expressions de l’esprit et de l’âme de l’homme qui sont dédiées à présenter absolument chacune à sa façon ce qui était di...

Avant-propos

L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

Socioanthropologie

Le contexte actuel tel que le dessinent les tendances lourdes de ce troisième millénaire convie à interpeller les outils des science sociales forgés précédemment. La compréhension ...

“Un estudio multimodal y dinámico de los conocimientos numéricos de estudiantes de primer grado”

En esta tesis profundizamos el estudio de la cognición y comunicación numérica de niños y niñas de primeros grados de la escuela primaria en la zona andina rionegrina. Desde un enf...

Modelling household activities in instrumented dwellings

Modélisation de l’activité des ménages dans le bâtiment résidentiel instrumenté Il a été démontré que le comportement des occupants est l'un des principaux facteurs...

Email:
Password:

Email: