Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Sampling, qualification and analysis of data streams

View through CrossRef
Échantillonnage, qualification et analyse des flux de données Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux. L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions. L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données. D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance. Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance. Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible. D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés. Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données. Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse. Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage. En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré. Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution. L'analyse des données du flux est également abordée dans cette thèse. Nous nous intéressons particulièrement à la détection des anomalies. Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles. Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM. Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib).
Agence Bibliographique de l'Enseignement Supérieur
Title: Sampling, qualification and analysis of data streams
Description:
Échantillonnage, qualification et analyse des flux de données Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux.
L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions.
L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données.
D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance.
Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance.
Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible.
D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés.
Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données.
Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse.
Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage.
En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré.
Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution.
L'analyse des données du flux est également abordée dans cette thèse.
Nous nous intéressons particulièrement à la détection des anomalies.
Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles.
Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM.
Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib).

Related Results

Physicochemical and rheological properties of Australian and Russian wheat flour mill streams
Physicochemical and rheological properties of Australian and Russian wheat flour mill streams
AbstractBackground and objectivesThe physicochemical and rheological properties of flour mill streams obtained from the normal milling process of two wheat types were studied. Flou...
Quantitative Geomorphological Parameters Analysis for the Aynalem- Illala Streams, Tigray, Northern Ethiopia
Quantitative Geomorphological Parameters Analysis for the Aynalem- Illala Streams, Tigray, Northern Ethiopia
Morphometric analysis is the measurement and mathematical analysis of the configuration of the surface, shape, and dimension of landforms. The objective of this study is to charact...
Regulation of CO 2 emissions from temperate streams and reservoirs
Regulation of CO 2 emissions from temperate streams and reservoirs
Abstract. It has become more and more evident that CO2 emission (FCO2) from freshwater systems is an important part of the global carbon cycle. To date, only a few studies have add...
Different regulation of CO 2 emission from streams and lakes
Different regulation of CO 2 emission from streams and lakes
Abstract. It has become more and more evident that CO2 emission (FCO2) from freshwater systems is an important part in the global carbon cycle. Only few studies addressed the diffe...
Landscape Influences on Stream Habitats and Biological Assemblages
Landscape Influences on Stream Habitats and Biological Assemblages
<em>Abstract.</em>—Ecologists recognize that surrounding land use can influence the structure and function of aquatic ecosystems, but few studies have explicitly examin...
Revitalizing Urban Waterways: Design Strategies for Reconnecting with Future landscapes
Revitalizing Urban Waterways: Design Strategies for Reconnecting with Future landscapes
<p><strong>The ecological adaptability of urban waterways has changed their natural form of living and escalated the consequences of rising waters. Climate change incre...

Back to Top