Javascript must be enabled to continue!

Filtrage et agrégation d'informations vitales relatives à des entités

Aujourd'hui, les bases de connaissances telles que Wikipedia et DBpedia représentent les sources principales pour accéder aux informations disponibles sur une grande variété d'entités (une entité est une chose qui peut être distinctement identifiée par exemple une personne, une organisation, un produit, un événement, etc.). Cependant, la mise à jour de ces sources avec des informations nouvelles en rapport avec une entité donnée se fait manuellement par des contributeurs et avec un temps de latence important en particulier si cette entité n'est pas populaire. Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances. Dans cette thèse, nous nous intéressons au filtrage d'informations pertinentes et nouvelles, appelées vitales, relatives à des entités. Ces travaux rentrent dans le cadre de la recherche d'information mais visent aussi à enrichir les techniques d'ingénierie de connaissances en aidant à la sélection des informations à traiter. Nous souhaitons répondre principalement aux deux problématiques suivantes: (1) Comment détecter si un document est vital (c.à.d qu'il apporte une information pertinente et nouvelle) par rapport à une entité donnée? et (2) Comment extraire les informations vitales à partir de ces documents qui serviront comme référence pour mettre à jour des bases de connaissances? Concernant la première problématique, nous avons proposé deux méthodes. La première proposition est totalement supervisée. Elle se base sur un modèle de langue de vitalité. La deuxième proposition mesure la fraîcheur des expressions temporelles contenues dans un document afin de décider de sa vitalité. En ce qui concerne la deuxième problématique relative à l'extraction d'informations vitales à partir des documents vitaux, nous avons proposé une méthode qui sélectionne les phrases comportant potentiellement ces informations vitales, en nous basant sur la présence de mots déclencheurs récupérés automatiquement à partir de la connaissance déjà représentée dans la base de connaissances (comme la description d'entités similaires).L'évaluation des approches proposées a été effectuée dans le cadre de la campagne d'évaluation internationale TREC sur une collection de 1.2 milliard de documents avec différents types d'entités (personnes, organisations, établissements et événements). Pour les approches de filtrage de documents vitaux, nous avons mené nos expérimentations dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour les années 2013 et 2014. L'exploitation des expressions temporelles dans le document a permis d'obtenir de bons résultats dépassant le meilleur système proposé dans la tâche KBA 2013. Pour évaluer les contributions concernant l'extraction des informations vitales relatives à des entités, nous nous sommes basés sur le cadre expérimental de la tâche "Temporal Summarization (TS)". Nous avons montré que notre approche permet de minimiser le temps de latence des mises à jour de bases de connaissances.

Agence Bibliographique de l'Enseignement Supérieur

Rafik Abbes

2026

Title: Filtrage et agrégation d'informations vitales relatives à des entités

Description:

Cependant, la mise à jour de ces sources avec des informations nouvelles en rapport avec une entité donnée se fait manuellement par des contributeurs et avec un temps de latence important en particulier si cette entité n'est pas populaire.

Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances.

Dans cette thèse, nous nous intéressons au filtrage d'informations pertinentes et nouvelles, appelées vitales, relatives à des entités.

Ces travaux rentrent dans le cadre de la recherche d'information mais visent aussi à enrichir les techniques d'ingénierie de connaissances en aidant à la sélection des informations à traiter.

Nous souhaitons répondre principalement aux deux problématiques suivantes: (1) Comment détecter si un document est vital (c.

à.

d qu'il apporte une information pertinente et nouvelle) par rapport à une entité donnée? et (2) Comment extraire les informations vitales à partir de ces documents qui serviront comme référence pour mettre à jour des bases de connaissances? Concernant la première problématique, nous avons proposé deux méthodes.

La première proposition est totalement supervisée.

Elle se base sur un modèle de langue de vitalité.

La deuxième proposition mesure la fraîcheur des expressions temporelles contenues dans un document afin de décider de sa vitalité.

En ce qui concerne la deuxième problématique relative à l'extraction d'informations vitales à partir des documents vitaux, nous avons proposé une méthode qui sélectionne les phrases comportant potentiellement ces informations vitales, en nous basant sur la présence de mots déclencheurs récupérés automatiquement à partir de la connaissance déjà représentée dans la base de connaissances (comme la description d'entités similaires).

L'évaluation des approches proposées a été effectuée dans le cadre de la campagne d'évaluation internationale TREC sur une collection de 1.

2 milliard de documents avec différents types d'entités (personnes, organisations, établissements et événements).

Pour les approches de filtrage de documents vitaux, nous avons mené nos expérimentations dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour les années 2013 et 2014.

L'exploitation des expressions temporelles dans le document a permis d'obtenir de bons résultats dépassant le meilleur système proposé dans la tâche KBA 2013.

Pour évaluer les contributions concernant l'extraction des informations vitales relatives à des entités, nous nous sommes basés sur le cadre expérimental de la tâche "Temporal Summarization (TS)".

Nous avons montré que notre approche permet de minimiser le temps de latence des mises à jour de bases de connaissances.

Back

Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...

Taylor dispersion analysis : a powerful size-based characterization technique for monitoring the aggregation of β-amyloid peptides

Analyse de dispersion de Taylor : une puissante technique de caractérisation basée sur la taille pour le suivi de l'agrégation des peptides β-amyloïdes La maladie d...

REGULAR ARTICLES

L. Cowen and C. J. Schwarz 657Les Radio‐tags, en raison de leur détectabilitéélevée, ...

Intrinsic and extrinsic determinants of the aggregation process of amyloid proteins

Déterminants intrinsèques et extrinsèques du processus d'agrégation des protéines amyloïdes Les amyloïdes sont un groupe de peptides et de protéines qui se replient...

Post-Translational Modifications and Their Role in Tau Aggregation in Alzheimer's Disease

Modifications post-traductionnelles et leur rôle dans l'agrégation de Tau dans la maladie d'Alzheimer La maladie d'Alzheimer (AD) est une maladie neurodégénérative ...

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

Socioanthropologie

Le contexte actuel tel que le dessinent les tendances lourdes de ce troisième millénaire convie à interpeller les outils des science sociales forgés précédemment. La compréhension ...

Avant-propos

L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...

Email:
Password:

Email:

Filtrage et agrégation d'informations vitales relatives à des entités

Related Results