Javascript must be enabled to continue!
Détection d'anomalies de latence dans les systèmes distribués avec eBPF
View through CrossRef
Le Cloud Computing est en plein essor pour répondre à une demande croissante de puissance de calcul dans l'industrie, tout en conservant des coûts modérés. Les technologies émergentes, comme la réalité virtuelle ou augmentée, ou les jumeaux numériques apportent de nouvelles contraintes et exigences pour pouvoir être portées dans le Cloud. Le temps de réponse de ces applications doit être le plus faible possible, ce qui se traduit par de fortes exigences sur la latence d'accès aux ressources virtuelles et aux données des fournisseurs d'infrastructure et de service Cloud tels qu'Outscale. Les technologies modernes de virtualisation permettent d'atteindre des latences proches de celles des machines physiques pour la plupart des composants d'une machine virtuelle, dont le processeur et la mémoire. En revanche, la pile de stockage des machines virtuelles a souvent des performances limitées en raison de sa complexité. Les fournisseurs de Cloud ont donc intérêt à optimiser leur architecture de stockage. Cela implique de diagnostiquer ses défauts et d'évaluer l'impact des changements de configuration et de matériel. Cela passe par la mesure des performances du stockage, dont les métriques critiques sont la latence (temps de réponse) et les IOps (opérations d'entrée/sortie par seconde), qui sont sujettes à des garanties de la part du fournisseur vis-à-vis de ses clients. Cependant, le contexte particulier d'un fournisseur de Cloud rend les outils traditionnels inadaptés, car il requiert des informations spécifiques, avec des contraintes supplémentaires dues à l'architecture des datacenters, l'opacité des applications executées et au matériel industriel utilisé. Cette thèse se consacre à l'étude de l'observabilité et la détection d'anomalies de latence dans les systèmes distribués et en particulier du stockage dans le contexte d'un fournisseur de Cloud. Elle explore l'utilisation de eBPF, une technologie qui permet de placer des sondes dans le noyau de Linux de manière sécurisée et efficace, afin de construire des outils d'observabilité du stockage qui remplissent les contraintes d'un fournisseur de Cloud. Ce manuscrit présente trois contributions principales. Une première se concentre sur la surveillance en continu du système de stockage, typiquement NFS (Network File System), pour détecter rapidement les problèmes et alimenter la prise de certaines décisions. Cette méthode est implémentée dans un outil nommé TrackIOPs, qui extrait la latence et les IOps de NFS en temps réel, avec un surcoût négligeable sur les performances de l’architecture de stockage. La seconde contribution est une méthode et pour estimer l’état de la connexion réseau entre un client (typiquement une machine hôte du Cloud) et un serveur RPC (Remote Procedure Call, un protocole de transport sur lequel se basent de nombreux services distribués dont NFS). En extrayant des informations de latence sur le réseau depuis la couche RPC directement, cette méthode permet d’améliorer la qualité des traceurs surveillant n’importe quelle application basée sans nécessiter de filtres réseau intrusifs. Un outil appelé TrackRPC a été developpé et intégré à TrackIOPs d'après cette méthode pour enrichir les métriques extraites par celui-ci. Enfin, l’objectif de la troisième contribution est de faciliter l’accès à la technologie eBPF pour comprendre et inspecter le comportement des sous-systèmes du noyau de Linux, sans avoir besoin d'écrire de code, et donc sans nécessiter de grande expertise du noyau ni de eBPF. Autograph génère un traceur eBPF sur un ou plusieurs sous-sysèmes choisis par l'utilisateur. Le traceur généré donne une visualisation du workflow du noyau lors de l’exécution d’une application cible, et surveille les latences dans le noyau pour signaler toute anomalie durant l’exécution.
Title: Détection d'anomalies de latence dans les systèmes distribués avec eBPF
Description:
Le Cloud Computing est en plein essor pour répondre à une demande croissante de puissance de calcul dans l'industrie, tout en conservant des coûts modérés.
Les technologies émergentes, comme la réalité virtuelle ou augmentée, ou les jumeaux numériques apportent de nouvelles contraintes et exigences pour pouvoir être portées dans le Cloud.
Le temps de réponse de ces applications doit être le plus faible possible, ce qui se traduit par de fortes exigences sur la latence d'accès aux ressources virtuelles et aux données des fournisseurs d'infrastructure et de service Cloud tels qu'Outscale.
Les technologies modernes de virtualisation permettent d'atteindre des latences proches de celles des machines physiques pour la plupart des composants d'une machine virtuelle, dont le processeur et la mémoire.
En revanche, la pile de stockage des machines virtuelles a souvent des performances limitées en raison de sa complexité.
Les fournisseurs de Cloud ont donc intérêt à optimiser leur architecture de stockage.
Cela implique de diagnostiquer ses défauts et d'évaluer l'impact des changements de configuration et de matériel.
Cela passe par la mesure des performances du stockage, dont les métriques critiques sont la latence (temps de réponse) et les IOps (opérations d'entrée/sortie par seconde), qui sont sujettes à des garanties de la part du fournisseur vis-à-vis de ses clients.
Cependant, le contexte particulier d'un fournisseur de Cloud rend les outils traditionnels inadaptés, car il requiert des informations spécifiques, avec des contraintes supplémentaires dues à l'architecture des datacenters, l'opacité des applications executées et au matériel industriel utilisé.
Cette thèse se consacre à l'étude de l'observabilité et la détection d'anomalies de latence dans les systèmes distribués et en particulier du stockage dans le contexte d'un fournisseur de Cloud.
Elle explore l'utilisation de eBPF, une technologie qui permet de placer des sondes dans le noyau de Linux de manière sécurisée et efficace, afin de construire des outils d'observabilité du stockage qui remplissent les contraintes d'un fournisseur de Cloud.
Ce manuscrit présente trois contributions principales.
Une première se concentre sur la surveillance en continu du système de stockage, typiquement NFS (Network File System), pour détecter rapidement les problèmes et alimenter la prise de certaines décisions.
Cette méthode est implémentée dans un outil nommé TrackIOPs, qui extrait la latence et les IOps de NFS en temps réel, avec un surcoût négligeable sur les performances de l’architecture de stockage.
La seconde contribution est une méthode et pour estimer l’état de la connexion réseau entre un client (typiquement une machine hôte du Cloud) et un serveur RPC (Remote Procedure Call, un protocole de transport sur lequel se basent de nombreux services distribués dont NFS).
En extrayant des informations de latence sur le réseau depuis la couche RPC directement, cette méthode permet d’améliorer la qualité des traceurs surveillant n’importe quelle application basée sans nécessiter de filtres réseau intrusifs.
Un outil appelé TrackRPC a été developpé et intégré à TrackIOPs d'après cette méthode pour enrichir les métriques extraites par celui-ci.
Enfin, l’objectif de la troisième contribution est de faciliter l’accès à la technologie eBPF pour comprendre et inspecter le comportement des sous-systèmes du noyau de Linux, sans avoir besoin d'écrire de code, et donc sans nécessiter de grande expertise du noyau ni de eBPF.
Autograph génère un traceur eBPF sur un ou plusieurs sous-sysèmes choisis par l'utilisateur.
Le traceur généré donne une visualisation du workflow du noyau lors de l’exécution d’une application cible, et surveille les latences dans le noyau pour signaler toute anomalie durant l’exécution.
Related Results
Networks with mixed-delay constraints
Networks with mixed-delay constraints
Réseaux avec contraintes de latence mixtes
Les réseaux de communication sans fil modernes doivent s'adapter à différents types de trafic de données avec des contrai...
Are Cervical Ribs Indicators of Childhood Cancer? A Narrative Review
Are Cervical Ribs Indicators of Childhood Cancer? A Narrative Review
Abstract
A cervical rib (CR), also known as a supernumerary or extra rib, is an additional rib that forms above the first rib, resulting from the overgrowth of the transverse proce...
Improving Error Messages for eBPF Programs
Improving Error Messages for eBPF Programs
Context: eBPF is an emerging technology in cloud computing, allowing user-defined programs to run in kernel space for observability, networking, and security. To ensure system inte...
Latency reduction in narrowband cellular networks : applications to IoT and V2X
Latency reduction in narrowband cellular networks : applications to IoT and V2X
Réduction de la latence dans les réseaux cellulaires à bande étroite : applications à l'IdO et au V2X
L’évolution des réseaux cellulaires de la première génération ...
A framework for facilitating the development of systems of systems
A framework for facilitating the development of systems of systems
Un framework pour faciliter le développement de systèmes de systèmes
Le développement de Systèmes de Systèmes a pris de l'ampleur dans de nombreux domaines. Aujourd...
Élimination des vapeurs toxiques par oxydation : développement de procédures d'évaluation des systèmes de purification de l'air des conduits de ventilation
Élimination des vapeurs toxiques par oxydation : développement de procédures d'évaluation des systèmes de purification de l'air des conduits de ventilation
L'exposition à des composés organiques volatils (COV) dans les lieux de travail peut avoir des effets aigus, notamment sous forme d'irritation de la peau, des yeux, de la bouche et...
Automated testing of distributed protocol implementations
Automated testing of distributed protocol implementations
Tests automatisés des implémentations de protocoles distribués
La croissance de l'internet moderne est rendue possible par des systèmes distribués à grande échelle,...
Video for events : Compression and transport of the next generation video codec
Video for events : Compression and transport of the next generation video codec
Vidéo pour l'événementiel : Compression et transport de la nouvelle génération de codec vidéo
L'acquisition et la diffusion de contenus avec une latence minimale so...

