Javascript must be enabled to continue!

Predicting the natural yeast phenotypic landscape with machine learning

Prédire le paysage phénotypique naturel de la levure par machine learning L'étude des caractères complexes des organismes joue un rôle important dans divers domaines, notamment en biologie évolutive, en médecine, ou encore en agriculture. La compréhension des facteurs génétiques impliqués dans le contrôle de ces caractéristiques peut ainsi être d'une grande importance. Notamment, la plupart des caractéristiques liées aux maladies sont complexes et l'identification de nouvelles cibles médicamenteuses peut conduire à des méthodes de traitement nouvelles et améliorées. De même, en agriculture, l'identification de loci génétiques associés à des caractéristiques intéressantes, telles que le rendement, l'adaptabilité et la résistance, peut contribuer à améliorer la productivité et la qualité des cultures. De plus, la variation génétique présente au niveau de la population peut grandement contribuer à la variance des caractères phénotypiques qui eux aussi peuvent être de grande importance. Dans cette thèse, nous étudions la variation au niveau de la population de plus de 200 caractères complexes dans une collection naturelle de Saccharomyces cerevisiae comprenant 1011 souches. L'étude peut être divisée en trois parties principales. Dans la première partie, nous décrivons les modèles de corrélation globale entre les 223 phénotypes, en mettant en évidence certaines corrélations inattendues entre des phénotypes non apparentés. En outre, nous avons quantifié la corrélation entre les distances génétiques et phénotypiques des souches et ses variations entre les différents clades. Dans la deuxième partie, nous identifions les marqueurs génétiques associés aux 223 phénotypes à l'aide d'études d'association à l'échelle du génome (GWAS). Nous avons pu ainsi confirmer que les modèles observés au niveau du phénome de la population se reflétaient au niveau génomique, un plus grand nombre de variants génétiques significativement associés étant partagés entre les phénotypes les plus corrélés et vice versa. Enfin, la dernière partie est consacrée à la prédiction du phénome à partir de diverses données génomiques et phénomiques. Nous avons développé une ``pipeline" d'apprentissage automatique (GenPhen) qui met en œuvre l'automatisation du processus d'optimisation que ça soit des paramètres ou des hyperparamètres du modèle afin d'obtenir le modèle le plus proche des phénotypes individuels. En outre, la pipeline intègre quatre méthodes d'apprentissage automatique linéaires et non linéaires. Nous fournissons une comparaison de la capacité des différents modèles pour la prédiction des phénotypes avec différents types de prédicteurs en entrée, y compris le pangénome, les polymorphismes de nucléotides simples (SNP), la transcriptomique, la protéomique, etc.Enfin, nous avons mis en œuvre des modèles d'apprentissage automatique multicibles capables de prédire l'ensemble du phénome avec une précision globale comparable à celle des prédictions de phénotypes individuels. Dans l'ensemble, nous avons montré que les prédictions varient fortement en fonction du phénotype et que la plupart des caractères sont fortement polygéniques, c'est-à-dire qu'ils sont contrôlés par un grand nombre de facteurs génétiques ayant des effets très faibles. De manière générale, notre étude donne un aperçu de l'utilité des différentes méthodes d'apprentissage automatique pour la prédiction des phénotypes complexes, elle permet aussi la comparaison de différents types de prédicteurs pour la hiérarchisation des données expérimentales requises pour les prédictions. De plus, elle permet l'interprétation des modèles d'apprentissage automatique pour comprendre les mécanismes biologiques sous-jacents qui contrôlent les caractères.

Agence Bibliographique de l'Enseignement Supérieur

Sakshi Khaiwal

2026

Title: Predicting the natural yeast phenotypic landscape with machine learning

Description:

La compréhension des facteurs génétiques impliqués dans le contrôle de ces caractéristiques peut ainsi être d'une grande importance.

Notamment, la plupart des caractéristiques liées aux maladies sont complexes et l'identification de nouvelles cibles médicamenteuses peut conduire à des méthodes de traitement nouvelles et améliorées.

De même, en agriculture, l'identification de loci génétiques associés à des caractéristiques intéressantes, telles que le rendement, l'adaptabilité et la résistance, peut contribuer à améliorer la productivité et la qualité des cultures.

De plus, la variation génétique présente au niveau de la population peut grandement contribuer à la variance des caractères phénotypiques qui eux aussi peuvent être de grande importance.

Dans cette thèse, nous étudions la variation au niveau de la population de plus de 200 caractères complexes dans une collection naturelle de Saccharomyces cerevisiae comprenant 1011 souches.

L'étude peut être divisée en trois parties principales.

Dans la première partie, nous décrivons les modèles de corrélation globale entre les 223 phénotypes, en mettant en évidence certaines corrélations inattendues entre des phénotypes non apparentés.

En outre, nous avons quantifié la corrélation entre les distances génétiques et phénotypiques des souches et ses variations entre les différents clades.

Dans la deuxième partie, nous identifions les marqueurs génétiques associés aux 223 phénotypes à l'aide d'études d'association à l'échelle du génome (GWAS).

Nous avons pu ainsi confirmer que les modèles observés au niveau du phénome de la population se reflétaient au niveau génomique, un plus grand nombre de variants génétiques significativement associés étant partagés entre les phénotypes les plus corrélés et vice versa.

Enfin, la dernière partie est consacrée à la prédiction du phénome à partir de diverses données génomiques et phénomiques.

Nous avons développé une ``pipeline" d'apprentissage automatique (GenPhen) qui met en œuvre l'automatisation du processus d'optimisation que ça soit des paramètres ou des hyperparamètres du modèle afin d'obtenir le modèle le plus proche des phénotypes individuels.

En outre, la pipeline intègre quatre méthodes d'apprentissage automatique linéaires et non linéaires.

Nous fournissons une comparaison de la capacité des différents modèles pour la prédiction des phénotypes avec différents types de prédicteurs en entrée, y compris le pangénome, les polymorphismes de nucléotides simples (SNP), la transcriptomique, la protéomique, etc.

Enfin, nous avons mis en œuvre des modèles d'apprentissage automatique multicibles capables de prédire l'ensemble du phénome avec une précision globale comparable à celle des prédictions de phénotypes individuels.

Dans l'ensemble, nous avons montré que les prédictions varient fortement en fonction du phénotype et que la plupart des caractères sont fortement polygéniques, c'est-à-dire qu'ils sont contrôlés par un grand nombre de facteurs génétiques ayant des effets très faibles.

De manière générale, notre étude donne un aperçu de l'utilité des différentes méthodes d'apprentissage automatique pour la prédiction des phénotypes complexes, elle permet aussi la comparaison de différents types de prédicteurs pour la hiérarchisation des données expérimentales requises pour les prédictions.

De plus, elle permet l'interprétation des modèles d'apprentissage automatique pour comprendre les mécanismes biologiques sous-jacents qui contrôlent les caractères.

Back

In the good old days, before civilisation and artificial eating habits caught up with mankind, the majority of people in the world got all the Vitamin B and protein their bodies ne...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Scent of a killer: How killer yeast boost its dispersal

Vector-borne parasites often manipulate hosts to attract uninfected vectors. For example, parasites causing malaria alter host odor to attract mosquitoes. Here we discuss the ecolo...

Frequency of Common Chromosomal Abnormalities in Patients with Idiopathic Acquired Aplastic Anemia

Objective: To determine the frequency of common chromosomal aberrations in local population idiopathic determine the frequency of common chromosomal aberrations in local population...

CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021

The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...

Cassava pulp can be nutritionally improved by yeast and various crude protein levels fed to cattle

Context Dietary supplementation especially feed residues improve by yeast affected rumen fermentation. ...

CRABTREE POZİTİF VE CRABTREE NEGATİF MAYA TÜRLERİNDE GCR1 GENİNİN IN SILICO ANALİZİ

The use of fermentation in the presence of oxygen and at high glucose concentrations is referred to as the Crabtree effect. Yeast species that have the Crabtree effect are called C...

AMINO ACID PROFILING OF YEAST CREAM; A POTENTIAL PROTEIN ENRICHED INGREDIENT FOR POULTRY FEED

Yeast cream, an extremely good source of single cell protein (SCP), is formed as a by-product after the fermentation of molasses by Saccharomyces cerevisiae in bioethanol industry....

Email:
Password:

Email:

Predicting the natural yeast phenotypic landscape with machine learning

Related Results