Javascript must be enabled to continue!
Statistique des comparaisons de génomes complets bactériens
View through CrossRef
La génomique comparative est l'étude des relations structurales et fonctionnelles entre des génomes appartenant à différentes souches ou espèces. Cette discipline offre ainsi la possibilité d'étudier et de comprendre les processus qui façonnent les génomes au cours de l'évolution. Dans le cadre de cette thèse, nous nous sommes intéressés à la génomique comparative des bactéries et plus particulièrement aux méthodes relatives à la comparaison des séquences complètes d'ADN des génomes bactériens. Ces dix dernières années, le développement d'outils informatiques permettant de comparer des génomes entiers à l'échelle de l'ADN est devenu une thématique de recherche à part entière. Actuellement, il existe de nombreux outils dédiés à cette tâche. Cependant, jusqu'à présent, la plupart des efforts ont été dirigés vers la réduction du temps de calcul et l'optimisation de la mémoire au détriment de l'évaluation de la qualité des résultats obtenus. Pour combler ce vide, nous avons travaillé sur différents problèmes statistiques soulevés par la comparaison de génomes complets bactériens. Notre travail se divise en deux axes de recherche. Dans un premier temps, nous nous sommes employés à évaluer la robustesse des alignements de génomes complets bactériens. Nous avons proposé une méthode originale fondée sur l'application de perturbations aléatoires sur les génomes comparés. Trois scores différents sont alors calculés pour estimer la robustesse des alignements de génomes à différentes échelles, allant des nucléotides aux séquences entières des génomes. Notre méthode a été expérimentée sur des données génomiques bactériennes réelles. Nos scores permettent d'identifier à la fois les alignements robustes et non robustes. Ils peuvent être employés pour corriger un alignement ou encore pour comparer plusieurs alignements obtenus à partir de différents outils. Dans un second temps, nous avons étudié le problème de la paramétrisation des outils de comparaisons de génomes entiers. En effet, la plupart des outils existants manquent à la fois de documentation et de valeurs par défaut fiables pour initialiser leurs paramètres. Conséquemment, il y a un besoin crucial de méthodes spécifiques pour aider les utilisateurs à définir des valeurs appropriées pour les paramètres de ces outils. Une grande partie des outils de comparaisons de génomes complets est fondée sur la détection des matches (mots communs exacts). Le paramètre essentiel pour ces méthodes est la longueur des matches à considérer. Au cours de cette thèse, nous avons développé deux méthodes statistiques pour estimer une valeur optimale pour la taille des matches. Notre première approche utilise un modèle de mélange de lois géométriques pour caractériser la distribution de la taille des matches obtenus lorsque l'on compare deux séquences génomiques. La deuxième approche est fondée sur une approximation de Poisson de la loi du comptage des matches entre deux chaînes de Markov. Ces méthodes statistiques nous permettent d'identifier facilement une taille optimale de matches à la fois pour des séquences simulées et pour des données génomiques réelles. Nous avons également montré que cette taille optimale dépend des caractéristiques des génomes comparés telles que leur taille, leur composition en base ou leur divergence relative. Cette thèse représente une des toutes premières études dont l'objectif est d'évaluer et d'améliorer la qualité des comparaisons des génomes complets. L'intérêt et les limites de nos différentes approches sont discutés et plusieurs perspectives d'évolution sont proposées.
Title: Statistique des comparaisons de génomes complets bactériens
Description:
La génomique comparative est l'étude des relations structurales et fonctionnelles entre des génomes appartenant à différentes souches ou espèces.
Cette discipline offre ainsi la possibilité d'étudier et de comprendre les processus qui façonnent les génomes au cours de l'évolution.
Dans le cadre de cette thèse, nous nous sommes intéressés à la génomique comparative des bactéries et plus particulièrement aux méthodes relatives à la comparaison des séquences complètes d'ADN des génomes bactériens.
Ces dix dernières années, le développement d'outils informatiques permettant de comparer des génomes entiers à l'échelle de l'ADN est devenu une thématique de recherche à part entière.
Actuellement, il existe de nombreux outils dédiés à cette tâche.
Cependant, jusqu'à présent, la plupart des efforts ont été dirigés vers la réduction du temps de calcul et l'optimisation de la mémoire au détriment de l'évaluation de la qualité des résultats obtenus.
Pour combler ce vide, nous avons travaillé sur différents problèmes statistiques soulevés par la comparaison de génomes complets bactériens.
Notre travail se divise en deux axes de recherche.
Dans un premier temps, nous nous sommes employés à évaluer la robustesse des alignements de génomes complets bactériens.
Nous avons proposé une méthode originale fondée sur l'application de perturbations aléatoires sur les génomes comparés.
Trois scores différents sont alors calculés pour estimer la robustesse des alignements de génomes à différentes échelles, allant des nucléotides aux séquences entières des génomes.
Notre méthode a été expérimentée sur des données génomiques bactériennes réelles.
Nos scores permettent d'identifier à la fois les alignements robustes et non robustes.
Ils peuvent être employés pour corriger un alignement ou encore pour comparer plusieurs alignements obtenus à partir de différents outils.
Dans un second temps, nous avons étudié le problème de la paramétrisation des outils de comparaisons de génomes entiers.
En effet, la plupart des outils existants manquent à la fois de documentation et de valeurs par défaut fiables pour initialiser leurs paramètres.
Conséquemment, il y a un besoin crucial de méthodes spécifiques pour aider les utilisateurs à définir des valeurs appropriées pour les paramètres de ces outils.
Une grande partie des outils de comparaisons de génomes complets est fondée sur la détection des matches (mots communs exacts).
Le paramètre essentiel pour ces méthodes est la longueur des matches à considérer.
Au cours de cette thèse, nous avons développé deux méthodes statistiques pour estimer une valeur optimale pour la taille des matches.
Notre première approche utilise un modèle de mélange de lois géométriques pour caractériser la distribution de la taille des matches obtenus lorsque l'on compare deux séquences génomiques.
La deuxième approche est fondée sur une approximation de Poisson de la loi du comptage des matches entre deux chaînes de Markov.
Ces méthodes statistiques nous permettent d'identifier facilement une taille optimale de matches à la fois pour des séquences simulées et pour des données génomiques réelles.
Nous avons également montré que cette taille optimale dépend des caractéristiques des génomes comparés telles que leur taille, leur composition en base ou leur divergence relative.
Cette thèse représente une des toutes premières études dont l'objectif est d'évaluer et d'améliorer la qualité des comparaisons des génomes complets.
L'intérêt et les limites de nos différentes approches sont discutés et plusieurs perspectives d'évolution sont proposées.
Related Results
REGULAR ARTICLES
REGULAR ARTICLES
L. Cowen and
C. J.
Schwarz
657Les Radio‐tags, en raison de leur détectabilitéélevée, ...
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...
Résumés des conférences JRANF 2021
Résumés des conférences JRANF 2021
able des matières
Résumés. 140
Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140
RPF 1 Rappel des unités de doses. 140
RPF 2 Risques déterministes et stochastique...
Avant-propos
Avant-propos
L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...
How chromosomal rearrangements shape genomes : a computational and mathematical study
How chromosomal rearrangements shape genomes : a computational and mathematical study
Comment les réarrangements chromosomiques façonnent les génomes : étude par modélisation et simulations
Les origines de la complexité des génomes, ainsi que les dét...
Anthropologie et archéologie
Anthropologie et archéologie
Les parcours sinueux qu’ont suivis l’anthropologie et l’archéologie en Amérique du Nord depuis une cinquantaine d’années démontrent des intérêts convergents pour la connaissance et...
Antibiotic resistance profiles of uropathogenic bacterial isolates in Haut-Sassandra Region, Côte d’Ivoire from January 2019 to December 2022
Antibiotic resistance profiles of uropathogenic bacterial isolates in Haut-Sassandra Region, Côte d’Ivoire from January 2019 to December 2022
Background: The escalating issue of bacterial resistance is a profound universal peril. This looming crisis has evolved from a mere forecast to a tangible reality globally. Urinar...
Probabilités et statistique inférentielle: approche sondage versus approche modèle
Probabilités et statistique inférentielle: approche sondage versus approche modèle
La statistique enseignée dans le secondaire ou à l'université en France ne traite quasiment que des variables réelles et repose sur la modélisation probabiliste et l'échantillonnag...

