Javascript must be enabled to continue!

Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares

La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017.

Agence Bibliographique de l'Enseignement Supérieur

Nicolas Garcelon

2026

Title: Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares

Description:

La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques.

Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus.

Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement.

La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.

), des zones de texte libre dans les formulaires électroniques.

Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares.

En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude.

Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique.

Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle.

Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs.

Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué.

À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage.

Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus.

Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017.

Back

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Avant-propos

L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...

Trust evaluation for stream data services based on data quality and service performance

Évaluation de la fiabilité des services de flux données en se basant sur la qualité de données et la performance du service Ces dernières années ont été marquées pa...

Anthropologie et archéologie

Les parcours sinueux qu’ont suivis l’anthropologie et l’archéologie en Amérique du Nord depuis une cinquantaine d’années démontrent des intérêts convergents pour la connaissance et...

Incremental Alignment of Heterogeneous and Dynamic Data for Decision Support

Alignement incrémental de données hétérogènes et dynamiques pour l'aide à la décision A l'ère du Big Data, où les données sont massives et leur complexité croissant...

Numéro 49 - janvier 2007

La mise en place du nouveau plan d’accompagnement et de suivi des chômeurs en juillet 2004 fut l’objet de controverse. Ce plan a été abondamment débattu lors de son introduction pa...

Prediction of mobility data with prior on the topography of an infrastructure of a road network

Complétion par construction de données de mobilité avec a priori sur la topographie et infrastructure du réseau routier L'évolution de l'acquisition de données de m...

Email:
Password:

Email:

Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares

Related Results