Javascript must be enabled to continue!
Predicting the natural yeast phenotypic landscape with machine learning
View through CrossRef
Prédire le paysage phénotypique naturel de la levure par machine learning
L'étude des caractères complexes des organismes joue un rôle important dans divers domaines, notamment en biologie évolutive, en médecine, ou encore en agriculture. La compréhension des facteurs génétiques impliqués dans le contrôle de ces caractéristiques peut ainsi être d'une grande importance. Notamment, la plupart des caractéristiques liées aux maladies sont complexes et l'identification de nouvelles cibles médicamenteuses peut conduire à des méthodes de traitement nouvelles et améliorées. De même, en agriculture, l'identification de loci génétiques associés à des caractéristiques intéressantes, telles que le rendement, l'adaptabilité et la résistance, peut contribuer à améliorer la productivité et la qualité des cultures. De plus, la variation génétique présente au niveau de la population peut grandement contribuer à la variance des caractères phénotypiques qui eux aussi peuvent être de grande importance. Dans cette thèse, nous étudions la variation au niveau de la population de plus de 200 caractères complexes dans une collection naturelle de Saccharomyces cerevisiae comprenant 1011 souches. L'étude peut être divisée en trois parties principales. Dans la première partie, nous décrivons les modèles de corrélation globale entre les 223 phénotypes, en mettant en évidence certaines corrélations inattendues entre des phénotypes non apparentés. En outre, nous avons quantifié la corrélation entre les distances génétiques et phénotypiques des souches et ses variations entre les différents clades. Dans la deuxième partie, nous identifions les marqueurs génétiques associés aux 223 phénotypes à l'aide d'études d'association à l'échelle du génome (GWAS). Nous avons pu ainsi confirmer que les modèles observés au niveau du phénome de la population se reflétaient au niveau génomique, un plus grand nombre de variants génétiques significativement associés étant partagés entre les phénotypes les plus corrélés et vice versa. Enfin, la dernière partie est consacrée à la prédiction du phénome à partir de diverses données génomiques et phénomiques. Nous avons développé une ``pipeline" d'apprentissage automatique (GenPhen) qui met en œuvre l'automatisation du processus d'optimisation que ça soit des paramètres ou des hyperparamètres du modèle afin d'obtenir le modèle le plus proche des phénotypes individuels. En outre, la pipeline intègre quatre méthodes d'apprentissage automatique linéaires et non linéaires. Nous fournissons une comparaison de la capacité des différents modèles pour la prédiction des phénotypes avec différents types de prédicteurs en entrée, y compris le pangénome, les polymorphismes de nucléotides simples (SNP), la transcriptomique, la protéomique, etc.Enfin, nous avons mis en œuvre des modèles d'apprentissage automatique multicibles capables de prédire l'ensemble du phénome avec une précision globale comparable à celle des prédictions de phénotypes individuels. Dans l'ensemble, nous avons montré que les prédictions varient fortement en fonction du phénotype et que la plupart des caractères sont fortement polygéniques, c'est-à-dire qu'ils sont contrôlés par un grand nombre de facteurs génétiques ayant des effets très faibles. De manière générale, notre étude donne un aperçu de l'utilité des différentes méthodes d'apprentissage automatique pour la prédiction des phénotypes complexes, elle permet aussi la comparaison de différents types de prédicteurs pour la hiérarchisation des données expérimentales requises pour les prédictions. De plus, elle permet l'interprétation des modèles d'apprentissage automatique pour comprendre les mécanismes biologiques sous-jacents qui contrôlent les caractères.
Title: Predicting the natural yeast phenotypic landscape with machine learning
Description:
Prédire le paysage phénotypique naturel de la levure par machine learning
L'étude des caractères complexes des organismes joue un rôle important dans divers domaines, notamment en biologie évolutive, en médecine, ou encore en agriculture.
La compréhension des facteurs génétiques impliqués dans le contrôle de ces caractéristiques peut ainsi être d'une grande importance.
Notamment, la plupart des caractéristiques liées aux maladies sont complexes et l'identification de nouvelles cibles médicamenteuses peut conduire à des méthodes de traitement nouvelles et améliorées.
De même, en agriculture, l'identification de loci génétiques associés à des caractéristiques intéressantes, telles que le rendement, l'adaptabilité et la résistance, peut contribuer à améliorer la productivité et la qualité des cultures.
De plus, la variation génétique présente au niveau de la population peut grandement contribuer à la variance des caractères phénotypiques qui eux aussi peuvent être de grande importance.
Dans cette thèse, nous étudions la variation au niveau de la population de plus de 200 caractères complexes dans une collection naturelle de Saccharomyces cerevisiae comprenant 1011 souches.
L'étude peut être divisée en trois parties principales.
Dans la première partie, nous décrivons les modèles de corrélation globale entre les 223 phénotypes, en mettant en évidence certaines corrélations inattendues entre des phénotypes non apparentés.
En outre, nous avons quantifié la corrélation entre les distances génétiques et phénotypiques des souches et ses variations entre les différents clades.
Dans la deuxième partie, nous identifions les marqueurs génétiques associés aux 223 phénotypes à l'aide d'études d'association à l'échelle du génome (GWAS).
Nous avons pu ainsi confirmer que les modèles observés au niveau du phénome de la population se reflétaient au niveau génomique, un plus grand nombre de variants génétiques significativement associés étant partagés entre les phénotypes les plus corrélés et vice versa.
Enfin, la dernière partie est consacrée à la prédiction du phénome à partir de diverses données génomiques et phénomiques.
Nous avons développé une ``pipeline" d'apprentissage automatique (GenPhen) qui met en œuvre l'automatisation du processus d'optimisation que ça soit des paramètres ou des hyperparamètres du modèle afin d'obtenir le modèle le plus proche des phénotypes individuels.
En outre, la pipeline intègre quatre méthodes d'apprentissage automatique linéaires et non linéaires.
Nous fournissons une comparaison de la capacité des différents modèles pour la prédiction des phénotypes avec différents types de prédicteurs en entrée, y compris le pangénome, les polymorphismes de nucléotides simples (SNP), la transcriptomique, la protéomique, etc.
Enfin, nous avons mis en œuvre des modèles d'apprentissage automatique multicibles capables de prédire l'ensemble du phénome avec une précision globale comparable à celle des prédictions de phénotypes individuels.
Dans l'ensemble, nous avons montré que les prédictions varient fortement en fonction du phénotype et que la plupart des caractères sont fortement polygéniques, c'est-à-dire qu'ils sont contrôlés par un grand nombre de facteurs génétiques ayant des effets très faibles.
De manière générale, notre étude donne un aperçu de l'utilité des différentes méthodes d'apprentissage automatique pour la prédiction des phénotypes complexes, elle permet aussi la comparaison de différents types de prédicteurs pour la hiérarchisation des données expérimentales requises pour les prédictions.
De plus, elle permet l'interprétation des modèles d'apprentissage automatique pour comprendre les mécanismes biologiques sous-jacents qui contrôlent les caractères.
Related Results
British Food Journal Volume 49 Issue 8 1947
British Food Journal Volume 49 Issue 8 1947
In the good old days, before civilisation and artificial eating habits caught up with mankind, the majority of people in the world got all the Vitamin B and protein their bodies ne...
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
BACKGROUND
As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...
Scent of a killer: How killer yeast boost its dispersal
Scent of a killer: How killer yeast boost its dispersal
Vector-borne parasites often manipulate hosts to attract uninfected
vectors. For example, parasites causing malaria alter host odor to
attract mosquitoes. Here we discuss the ecolo...
Cassava pulp can be nutritionally improved by yeast and various crude protein levels fed to cattle
Cassava pulp can be nutritionally improved by yeast and various crude protein levels fed to cattle
Context Dietary supplementation especially feed residues improve by yeast affected rumen fermentation. Aims The aim of the present experiment was to determine the nutritive...
CRABTREE POZİTİF VE CRABTREE NEGATİF MAYA TÜRLERİNDE GCR1 GENİNİN IN SILICO ANALİZİ
CRABTREE POZİTİF VE CRABTREE NEGATİF MAYA TÜRLERİNDE GCR1 GENİNİN IN SILICO ANALİZİ
The use of fermentation in the presence of oxygen and at high glucose concentrations is referred to as the Crabtree effect. Yeast species that have the Crabtree effect are called C...
Phenotypic integration may constrain phenotypic plasticity in plants
Phenotypic integration may constrain phenotypic plasticity in plants
Phenotypic plasticity is essential for plant adaptation to changing environments but some factors limit its expression, causing plants to fail in producing the best phenotype for a...
GIS-based landscape design research
GIS-based landscape design research
Landscape design research is important for cultivating spatial intelligence in landscape architecture. This study explores GIS (geographic information systems) as a tool for landsc...
Lamin A, lamin B, and lamin B receptor analogues in yeast.
Lamin A, lamin B, and lamin B receptor analogues in yeast.
Previous studies have shown that turkey erythrocyte lamin B is anchored to the nuclear envelope via a 58-kD integral membrane protein termed p58 or lamin B receptor (Worman H. J., ...

