Javascript must be enabled to continue!
Managing uncertain data over distributed environments
View through CrossRef
Gestion des données incertaines dans un environnement distribué
Ces dernières années, les données deviennent incertaines en raison du fleurissement des technologies de pointe qui participent continuellement et de plus en plus dans la production d’une grande quantité de données incertaines. Surtout, que certains nombres d’applications ou l’incertitude est omniprésentes sont distribuées dans la nature, e.g. Des réseaux de capteur distribués, l’extraction de l’information, l’intégration de données, le réseau social, etc. Par conséquent, malgré que ‘incertitudes a été étudier dans la littérature des bases de données centralisé, il reste toujours des défis à relever dans le contexte des bases de données distribuées. Dans ce travail, nous nous concentrons sur le type de données qui est composé d’un ensemble d’attributs descriptifs, qui ne sont ni numériques, ni en soi ordonnés en aucune façon, à savoir des données catégoriques. Nous proposons deux approches pour la gestion de données catégorielles incertaines dans un environnement distribué. Ces approches sont construites sur une technique d’indexation hiérarchique et des algorithmes distribués pour efficacement traiter certain types de requêtes sur des données incertaines dans un environnement distribué Dans la première approche, nous proposons une technique d’indexation distribuée basée sur la structure d’index inversée pour efficacement rechercher des données catégoriques incertaines dans un environnement distribué. En utilisant cette technique d’indexation, nous adressons deux types de requêtes sur les bases de données incertaines distribuées (1) une requête de seuils probabiliste distribuée, où les réponses obtenues satisfont l’exigence de seuil de probabilités (2) une requêtes probabiliste de meilleurs k-réponse, en assurant l’optimisation de transfert du tuples des sites interrogés au site de coordinateur en un temps réduit . Des expériences empiriques sont conduites pour vérifier l’efficacité et l’efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse. La deuxième approche se concentre sur les requêtes Top-k , on propose un algorithme distribué à savoir TDUD. Son but est de trouves les meilleurs k réponses sur des données catégorielles incertaines distribuées en un seul tour seul de communication. Pour aboutir à ce but, nous enrichissons l’index incertain global proposé dans la première approche avec d’autres informations qui résument les indexes locaux afin de minimiser le coût de communication, De plus, en utilisant les moyennes de dispersion de probabilité de chaque site, on peut prévoir le nombre de sites qu’on doit interroger afin d’avoir les meilleurs k réponse, ainsi élaguer les sites qui ne fournis pas de réponse, ce qui engendre un meilleur temps d’exécution et moins de transfert de tuples. Des expériences vastes sont conduites pour vérifier l’efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse. Nous montrons empiriquement que l’algorithme lié est presque optimal, dans lequel, il peut typiquement récupérer les meilleurs k-réponses en communiquant un nombre restreint de tuples dans un seul tour seul.
Title: Managing uncertain data over distributed environments
Description:
Gestion des données incertaines dans un environnement distribué
Ces dernières années, les données deviennent incertaines en raison du fleurissement des technologies de pointe qui participent continuellement et de plus en plus dans la production d’une grande quantité de données incertaines.
Surtout, que certains nombres d’applications ou l’incertitude est omniprésentes sont distribuées dans la nature, e.
g.
Des réseaux de capteur distribués, l’extraction de l’information, l’intégration de données, le réseau social, etc.
Par conséquent, malgré que ‘incertitudes a été étudier dans la littérature des bases de données centralisé, il reste toujours des défis à relever dans le contexte des bases de données distribuées.
Dans ce travail, nous nous concentrons sur le type de données qui est composé d’un ensemble d’attributs descriptifs, qui ne sont ni numériques, ni en soi ordonnés en aucune façon, à savoir des données catégoriques.
Nous proposons deux approches pour la gestion de données catégorielles incertaines dans un environnement distribué.
Ces approches sont construites sur une technique d’indexation hiérarchique et des algorithmes distribués pour efficacement traiter certain types de requêtes sur des données incertaines dans un environnement distribué Dans la première approche, nous proposons une technique d’indexation distribuée basée sur la structure d’index inversée pour efficacement rechercher des données catégoriques incertaines dans un environnement distribué.
En utilisant cette technique d’indexation, nous adressons deux types de requêtes sur les bases de données incertaines distribuées (1) une requête de seuils probabiliste distribuée, où les réponses obtenues satisfont l’exigence de seuil de probabilités (2) une requêtes probabiliste de meilleurs k-réponse, en assurant l’optimisation de transfert du tuples des sites interrogés au site de coordinateur en un temps réduit .
Des expériences empiriques sont conduites pour vérifier l’efficacité et l’efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse.
La deuxième approche se concentre sur les requêtes Top-k , on propose un algorithme distribué à savoir TDUD.
Son but est de trouves les meilleurs k réponses sur des données catégorielles incertaines distribuées en un seul tour seul de communication.
Pour aboutir à ce but, nous enrichissons l’index incertain global proposé dans la première approche avec d’autres informations qui résument les indexes locaux afin de minimiser le coût de communication, De plus, en utilisant les moyennes de dispersion de probabilité de chaque site, on peut prévoir le nombre de sites qu’on doit interroger afin d’avoir les meilleurs k réponse, ainsi élaguer les sites qui ne fournis pas de réponse, ce qui engendre un meilleur temps d’exécution et moins de transfert de tuples.
Des expériences vastes sont conduites pour vérifier l’efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse.
Nous montrons empiriquement que l’algorithme lié est presque optimal, dans lequel, il peut typiquement récupérer les meilleurs k-réponses en communiquant un nombre restreint de tuples dans un seul tour seul.
Related Results
A Framework on Data Mining on Uncertain Data with Related Research Issues in Service Industry
A Framework on Data Mining on Uncertain Data with Related Research Issues in Service Industry
There has been a large amount of research work done on mining on relational databases that store data in exact values. However, in many real-life applications such as those commonl...
Node importance identification for uncertain networks
Node importance identification for uncertain networks
Abstract
This paper proposes the concepts of uncertain strength, uncertain degree, and uncertain clustering coefficient under uncertain networks, along with the proposes un...
Uncertain data density peak clustering algorithm based on JS divergence
Uncertain data density peak clustering algorithm based on JS divergence
Aiming at the defects of traditional density-based uncertainty clustering algorithms, such as parameter sensitivity and poor clustering results for complex manifold uncertain data ...
Intent: an integrated environment for distributed heterogeneous databases
Intent: an integrated environment for distributed heterogeneous databases
Distributed database technology evolved from the need to integrate large volumes of corporate information to lower production and maintenance costs. Most of the contemporary distri...
Performative Microforests
Performative Microforests
The design of office buildings can substantially improve the building, social, and ecological performance of office building projects. However, existing research on improving the p...
Uncertainty Detection in Unstructured Big Data
Uncertainty Detection in Unstructured Big Data
It's a world of full of information. Data is one of the important element of this era. One of the major sources of data is social media platforms like Twitter, Facebook etc. Everyd...
Uncertain<
T
>
Uncertain<
T
>
Emerging applications increasingly use estimates such as sensor data (GPS), probabilistic models, machine learning, big data, and human data. Unfortunately, representing this uncer...
Uncertain<
T
>
Uncertain<
T
>
Emerging applications increasingly use estimates such as sensor data (GPS), probabilistic models, machine learning, big data, and human data. Unfortunately, representing this uncer...

