Javascript must be enabled to continue!
Filtrage et agrégation d'informations vitales relatives à des entités
View through CrossRef
Aujourd'hui, les bases de connaissances telles que Wikipedia et DBpedia représentent les sources principales pour accéder aux informations disponibles sur une grande variété d'entités (une entité est une chose qui peut être distinctement identifiée par exemple une personne, une organisation, un produit, un événement, etc.). Cependant, la mise à jour de ces sources avec des informations nouvelles en rapport avec une entité donnée se fait manuellement par des contributeurs et avec un temps de latence important en particulier si cette entité n'est pas populaire. Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances. Dans cette thèse, nous nous intéressons au filtrage d'informations pertinentes et nouvelles, appelées vitales, relatives à des entités. Ces travaux rentrent dans le cadre de la recherche d'information mais visent aussi à enrichir les techniques d'ingénierie de connaissances en aidant à la sélection des informations à traiter. Nous souhaitons répondre principalement aux deux problématiques suivantes: (1) Comment détecter si un document est vital (c.à.d qu'il apporte une information pertinente et nouvelle) par rapport à une entité donnée? et (2) Comment extraire les informations vitales à partir de ces documents qui serviront comme référence pour mettre à jour des bases de connaissances? Concernant la première problématique, nous avons proposé deux méthodes. La première proposition est totalement supervisée. Elle se base sur un modèle de langue de vitalité. La deuxième proposition mesure la fraîcheur des expressions temporelles contenues dans un document afin de décider de sa vitalité. En ce qui concerne la deuxième problématique relative à l'extraction d'informations vitales à partir des documents vitaux, nous avons proposé une méthode qui sélectionne les phrases comportant potentiellement ces informations vitales, en nous basant sur la présence de mots déclencheurs récupérés automatiquement à partir de la connaissance déjà représentée dans la base de connaissances (comme la description d'entités similaires).L'évaluation des approches proposées a été effectuée dans le cadre de la campagne d'évaluation internationale TREC sur une collection de 1.2 milliard de documents avec différents types d'entités (personnes, organisations, établissements et événements). Pour les approches de filtrage de documents vitaux, nous avons mené nos expérimentations dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour les années 2013 et 2014. L'exploitation des expressions temporelles dans le document a permis d'obtenir de bons résultats dépassant le meilleur système proposé dans la tâche KBA 2013. Pour évaluer les contributions concernant l'extraction des informations vitales relatives à des entités, nous nous sommes basés sur le cadre expérimental de la tâche "Temporal Summarization (TS)". Nous avons montré que notre approche permet de minimiser le temps de latence des mises à jour de bases de connaissances.
Title: Filtrage et agrégation d'informations vitales relatives à des entités
Description:
Aujourd'hui, les bases de connaissances telles que Wikipedia et DBpedia représentent les sources principales pour accéder aux informations disponibles sur une grande variété d'entités (une entité est une chose qui peut être distinctement identifiée par exemple une personne, une organisation, un produit, un événement, etc.
).
Cependant, la mise à jour de ces sources avec des informations nouvelles en rapport avec une entité donnée se fait manuellement par des contributeurs et avec un temps de latence important en particulier si cette entité n'est pas populaire.
Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances.
Dans cette thèse, nous nous intéressons au filtrage d'informations pertinentes et nouvelles, appelées vitales, relatives à des entités.
Ces travaux rentrent dans le cadre de la recherche d'information mais visent aussi à enrichir les techniques d'ingénierie de connaissances en aidant à la sélection des informations à traiter.
Nous souhaitons répondre principalement aux deux problématiques suivantes: (1) Comment détecter si un document est vital (c.
à.
d qu'il apporte une information pertinente et nouvelle) par rapport à une entité donnée? et (2) Comment extraire les informations vitales à partir de ces documents qui serviront comme référence pour mettre à jour des bases de connaissances? Concernant la première problématique, nous avons proposé deux méthodes.
La première proposition est totalement supervisée.
Elle se base sur un modèle de langue de vitalité.
La deuxième proposition mesure la fraîcheur des expressions temporelles contenues dans un document afin de décider de sa vitalité.
En ce qui concerne la deuxième problématique relative à l'extraction d'informations vitales à partir des documents vitaux, nous avons proposé une méthode qui sélectionne les phrases comportant potentiellement ces informations vitales, en nous basant sur la présence de mots déclencheurs récupérés automatiquement à partir de la connaissance déjà représentée dans la base de connaissances (comme la description d'entités similaires).
L'évaluation des approches proposées a été effectuée dans le cadre de la campagne d'évaluation internationale TREC sur une collection de 1.
2 milliard de documents avec différents types d'entités (personnes, organisations, établissements et événements).
Pour les approches de filtrage de documents vitaux, nous avons mené nos expérimentations dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour les années 2013 et 2014.
L'exploitation des expressions temporelles dans le document a permis d'obtenir de bons résultats dépassant le meilleur système proposé dans la tâche KBA 2013.
Pour évaluer les contributions concernant l'extraction des informations vitales relatives à des entités, nous nous sommes basés sur le cadre expérimental de la tâche "Temporal Summarization (TS)".
Nous avons montré que notre approche permet de minimiser le temps de latence des mises à jour de bases de connaissances.
Related Results
Taylor dispersion analysis : a powerful size-based characterization technique for monitoring the aggregation of β-amyloid peptides
Taylor dispersion analysis : a powerful size-based characterization technique for monitoring the aggregation of β-amyloid peptides
Analyse de dispersion de Taylor : une puissante technique de caractérisation basée sur la taille pour le suivi de l'agrégation des peptides β-amyloïdes
La maladie d...
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Synthèse géologique et hydrogéologique du Shale d'Utica et des unités sus-jacentes (Lorraine, Queenston et dépôts meubles), Basses-Terres du Saint-Laurent, Québec
Le présent travail a été initié dans le cadre d'un mandat donné à l'INRS-ETE par la Commission géologique du Canada (CGC) et le Ministère du Développement durable, de l'Environneme...
Intrinsic and extrinsic determinants of the aggregation process of amyloid proteins
Intrinsic and extrinsic determinants of the aggregation process of amyloid proteins
Déterminants intrinsèques et extrinsèques du processus d'agrégation des protéines amyloïdes
Les amyloïdes sont un groupe de peptides et de protéines qui se replient...
REGULAR ARTICLES
REGULAR ARTICLES
L. Cowen and
C. J.
Schwarz
657Les Radio‐tags, en raison de leur détectabilitéélevée, ...
Socioanthropologie
Socioanthropologie
Le contexte actuel tel que le dessinent les tendances lourdes de ce troisième millénaire convie à interpeller les outils des science sociales forgés précédemment. La compréhension ...
Résumés des conférences JRANF 2021
Résumés des conférences JRANF 2021
able des matières
Résumés. 140
Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140
RPF 1 Rappel des unités de doses. 140
RPF 2 Risques déterministes et stochastique...
Avant-propos
Avant-propos
L’Agriculture Biologique (AB) se présente comme un mode de production agricole spécifique basé sur le respect d’un certain nombre de principes et de pratiques visant à réduire au m...
Vers le suivi d’objets dans un cadre évidentiel : représentation, filtrage dynamique et association
Vers le suivi d’objets dans un cadre évidentiel : représentation, filtrage dynamique et association
Les systèmes intelligents sont de plus en plus présents dans notre société à l’instar des systèmes de surveillance et de protection de sites civils ou militaires. Leur but est de d...

