Javascript must be enabled to continue!

Statistical learning for omics association and interaction studies based on blockwise feature compression

Apprentissage statistique pour les études d'association et d'interactions entre données omiques fondée sur une approche de compression structurée Depuis la dernière décennie le développement rapide des technologies de génotypage a profondément modifié la façon dont les gènes impliqués dans les troubles mendéliens et les maladies complexes sont cartographiés, passant d'approches gènes candidats aux études d'associations pan-génomique, ou Genome-Wide Association Studies (GWASs). Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes. Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas dans les études familiales traditionnelles.D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs. Cependant, à cause de la grande dimension des données, ces procédures de tests classiques sont souvent sujettes à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs. Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n’ayant qu'un faible effet sur le phénotype.De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multi-factorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée. Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,...Les principaux objectifs de cette thèse sont de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus. Plus précisément, nous avons développé deux nouvelles approches: la première exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance de détection dans le cadre des tests d'hypothèses tandis que la seconde est adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère.

Agence Bibliographique de l'Enseignement Supérieur

Florent Guinot

2026

Title: Statistical learning for omics association and interaction studies based on blockwise feature compression

Description:

Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes.

Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas dans les études familiales traditionnelles.

D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs.

Cependant, à cause de la grande dimension des données, ces procédures de tests classiques sont souvent sujettes à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs.

Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n’ayant qu'un faible effet sur le phénotype.

De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multi-factorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée.

Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,.

Les principaux objectifs de cette thèse sont de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus.

Plus précisément, nous avons développé deux nouvelles approches: la première exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance de détection dans le cadre des tests d'hypothèses tandis que la seconde est adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère.

Back

Abstract Thoracic outlet syndrome (TOS) is a complex and often overlooked condition caused by the compression of neurovascular structures as they pass through the thoracic outlet. ...

Provocative Tests in Diagnosis of Thoracic Outlet Syndrome: A Narrative Review

Abstract Thoracic outlet syndrome (TOS) is a group of conditions caused by the compression of the neurovascular bundle within the thoracic outlet. It is classified into three main ...

Are Cervical Ribs Indicators of Childhood Cancer? A Narrative Review

Abstract A cervical rib (CR), also known as a supernumerary or extra rib, is an additional rib that forms above the first rib, resulting from the overgrowth of the transverse proce...

Deep learning-based Point Cloud Compression

Compression de nuages de points par apprentissage profond Les nuages de points deviennent essentiels dans de nombreuses applications et les progrès des technologies...

Benchmarking multi-omics integrative clustering methods for subtype identification in colorectal cancer

Abstract Background and objectives Colorectal cancer (CRC) represents a heterogeneous malignancy that has concerned global burden of incidence and mortality. The tradition...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Multi-omics Data Integration by Generative Adversarial Network

Accurate disease phenotype prediction plays an important role in the treatment of heterogeneous diseases like cancer in the era of precision medicine. With the advent of high throu...

Exploring the classification of cancer cell lines from multiple omic views

Background Cancer classification is of great importance to understanding its pathogenesis, making diagnosis and developing treatment. The accumulation of extensive o...

Email:
Password:

Email:

Statistical learning for omics association and interaction studies based on blockwise feature compression

Related Results