Javascript must be enabled to continue!

Compression et indexation de séquences annotées

Cette thèse en algorithmique du texte étudie la compression, l'indexation et les requêtes sur un texte annoté. Un texte annoté est un texte sur lequel nous ajoutons des informations. Ce peut être par exemple une recombinaison V(D)J, un marqueur de globules blancs, où le texte est une séquence ADN et les annotations sont des noms de gènes. Le système immunitaire d'une personne se représente par un ensemble de recombinaisons V(D)J. Avec le séquençage à haut débit, on peut avoir accès à des millions de recombinaisons V(D)J qui sont stockées et doivent pouvoir être retrouvées et comparées rapidement.La première contribution de ce manuscrit est une méthode de compression d'un texte annoté qui repose sur le principe du stockage par références. Le texte est découpé en facteurs pointant vers les séquences annotées déjà connues. La seconde contribution propose deux index pour un texte annoté. Ils utilisent une transformée de Burrows-Wheeler indexant le texte ainsi qu'un Wavelet Tree stockant les annotations. Ces index permettent des requêtes efficaces sur le texte, les annotations ou les deux. Nous souhaitons à terme utiliser l'un de ces index pour indexer des recombinaisons V(D)J obtenues dans des services d'hématologie lors du diagnostic et du suivi de patients atteints de leucémie.

Agence Bibliographique de l'Enseignement Supérieur

Tatiana Rocher

2026

Title: Compression et indexation de séquences annotées

Description:

Cette thèse en algorithmique du texte étudie la compression, l'indexation et les requêtes sur un texte annoté.

Un texte annoté est un texte sur lequel nous ajoutons des informations.

Ce peut être par exemple une recombinaison V(D)J, un marqueur de globules blancs, où le texte est une séquence ADN et les annotations sont des noms de gènes.

Le système immunitaire d'une personne se représente par un ensemble de recombinaisons V(D)J.

Avec le séquençage à haut débit, on peut avoir accès à des millions de recombinaisons V(D)J qui sont stockées et doivent pouvoir être retrouvées et comparées rapidement.

La première contribution de ce manuscrit est une méthode de compression d'un texte annoté qui repose sur le principe du stockage par références.

Le texte est découpé en facteurs pointant vers les séquences annotées déjà connues.

La seconde contribution propose deux index pour un texte annoté.

Ils utilisent une transformée de Burrows-Wheeler indexant le texte ainsi qu'un Wavelet Tree stockant les annotations.

Ces index permettent des requêtes efficaces sur le texte, les annotations ou les deux.

Nous souhaitons à terme utiliser l'un de ces index pour indexer des recombinaisons V(D)J obtenues dans des services d'hématologie lors du diagnostic et du suivi de patients atteints de leucémie.

Back

Related Results

Numéro 107 - novembre 2013

Il existe en Belgique un débat animé et récurrent à propos du mécanisme d'indexation quasi automatique des salaires. D'un côté, les défenseurs de celui-ci y voient un dispositif es...

Differential Diagnosis of Neurogenic Thoracic Outlet Syndrome: A Review

Abstract Thoracic outlet syndrome (TOS) is a complex and often overlooked condition caused by the compression of neurovascular structures as they pass through the thoracic outlet. ...

Deep learning-based Point Cloud Compression

Compression de nuages de points par apprentissage profond Les nuages de points deviennent essentiels dans de nombreuses applications et les progrès des technologies...

Provocative Tests in Diagnosis of Thoracic Outlet Syndrome: A Narrative Review

Abstract Thoracic outlet syndrome (TOS) is a group of conditions caused by the compression of the neurovascular bundle within the thoracic outlet. It is classified into three main ...

Indexation de séquences

Ce chapitre présente un mode d'emploi sur l'indexation des séquences, en mettant l'accent sur les structures de données utilisées pour réaliser cette indexation. Ainsi les tables d...

Lossless Compression Method for Medical Image Sequences Using Super-Spatial Structure Prediction and Inter-frame Coding

Space research organizations, hospitals and military air surveillance activities, among others, produce a huge amount of data in the form of images hence a large storage space is r...

Improving the performance of 3D image model compression based on optimized DEFLATE algorithm

AbstractThis study focuses on optimizing and designing the Delayed-Fix-Later Awaiting Transmission Encoding (DEFLATE) algorithm to enhance its compression performance and reduce th...

Deep learning for embedded image compression in Earth Observation

Aprentissage profond pour la compression embarquée d'images d'observation de la Terre La nouvelle génération de satellites permet l’acquisition d’images avec des ré...

Email:
Password:

Email: