Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

SALZA : mesure d’information universelle entre chaînes pour la classificationet l’inférence de causalité

View through CrossRef
Les données sous forme de chaîne de symboles sont très variées (ADN, texte, EEG quantifié,…) et ne sont pas toujours modélisables. Une description universelle des chaînes de symboles indépendante des probabilités est donc nécessaire. La complexité de Kolmogorov a été introduite en 1960 pour répondre à cette problématique. Le concept est simple : une chaîne de symboles est complexe quand il n'en existe pas une description courte. La complexité de Kolmogorov est le pendant algorithmique de l’entropie de Shannon et permet de définir la théorie algorithmique de l’information. Cependant, la complexité de Kolmogorov n’est pas calculable en un temps fini ce qui la rend inutilisable en pratique.Les premiers à rendre opérationnelle la complexité de Kolmogorov sont Lempel et Ziv en 1976 qui proposent de restreindre les opérations de la description. Une autre approche est d’utiliser la taille de la chaîne compressée par un compresseur sans perte. Cependant ces deux estimateurs sont mal définis pour le cas conditionnel et le cas joint, il est donc difficile d'étendre la complexité de Lempel-Ziv ou les compresseurs à la théorie algorithmique de l’information.Partant de ce constat, nous introduisons une nouvelle mesure d’information universelle basée sur la complexité de Lempel-Ziv appelée SALZA. L’implémentation et la bonne définition de notre mesure permettent un calcul efficace des grandeurs de la théorie algorithmique de l’information.Les compresseurs sans perte usuels ont été utilisés par Cilibrasi et Vitányi pour former un classifieur universel très populaire : la distance de compression normalisée [NCD]. Dans le cadre de cette application, nous proposons notre propre estimateur, la NSD, et montrons qu’il s’agit d’une semi-distance universelle sur les chaînes de symboles. La NSD surclasse la NCD en s’adaptant naturellement à davantage de diversité des données et en définissant le conditionnement adapté grâce à SALZA.En utilisant les qualités de prédiction universelle de la complexité de Lempel-Ziv, nous explorons ensuite les questions d’inférence de causalité. Dans un premier temps, les conditions algorithmiques de Markov sont rendues calculables grâce à SALZA. Puis en définissant pour la première l’information dirigée algorithmique, nous proposons une interprétation algorithmique de la causalité de Granger algorithmique. Nous montrons, sur des données synthétiques et réelles, la pertinence de notre approche.
Agence Bibliographique de l'Enseignement Supérieur
Title: SALZA : mesure d’information universelle entre chaînes pour la classificationet l’inférence de causalité
Description:
Les données sous forme de chaîne de symboles sont très variées (ADN, texte, EEG quantifié,…) et ne sont pas toujours modélisables.
Une description universelle des chaînes de symboles indépendante des probabilités est donc nécessaire.
La complexité de Kolmogorov a été introduite en 1960 pour répondre à cette problématique.
Le concept est simple : une chaîne de symboles est complexe quand il n'en existe pas une description courte.
La complexité de Kolmogorov est le pendant algorithmique de l’entropie de Shannon et permet de définir la théorie algorithmique de l’information.
Cependant, la complexité de Kolmogorov n’est pas calculable en un temps fini ce qui la rend inutilisable en pratique.
Les premiers à rendre opérationnelle la complexité de Kolmogorov sont Lempel et Ziv en 1976 qui proposent de restreindre les opérations de la description.
Une autre approche est d’utiliser la taille de la chaîne compressée par un compresseur sans perte.
Cependant ces deux estimateurs sont mal définis pour le cas conditionnel et le cas joint, il est donc difficile d'étendre la complexité de Lempel-Ziv ou les compresseurs à la théorie algorithmique de l’information.
Partant de ce constat, nous introduisons une nouvelle mesure d’information universelle basée sur la complexité de Lempel-Ziv appelée SALZA.
L’implémentation et la bonne définition de notre mesure permettent un calcul efficace des grandeurs de la théorie algorithmique de l’information.
Les compresseurs sans perte usuels ont été utilisés par Cilibrasi et Vitányi pour former un classifieur universel très populaire : la distance de compression normalisée [NCD].
Dans le cadre de cette application, nous proposons notre propre estimateur, la NSD, et montrons qu’il s’agit d’une semi-distance universelle sur les chaînes de symboles.
La NSD surclasse la NCD en s’adaptant naturellement à davantage de diversité des données et en définissant le conditionnement adapté grâce à SALZA.
En utilisant les qualités de prédiction universelle de la complexité de Lempel-Ziv, nous explorons ensuite les questions d’inférence de causalité.
Dans un premier temps, les conditions algorithmiques de Markov sont rendues calculables grâce à SALZA.
Puis en définissant pour la première l’information dirigée algorithmique, nous proposons une interprétation algorithmique de la causalité de Granger algorithmique.
Nous montrons, sur des données synthétiques et réelles, la pertinence de notre approche.

Related Results

REGULAR ARTICLES
REGULAR ARTICLES
L. Cowen and C. J. Schwarz       657Les Radio‐tags, en raison de leur détectabilitéélevée, ...
Are precious metals as precious as they are?
Are precious metals as precious as they are?
Les métaux précieux sont-ils aussi précieux qu'ils le sont ? Cette dissertation se focalise sur trois thématiques principales liées aux marchés des métaux précieux ...
Risk management in supply chains : a simulation and model-based approach
Risk management in supply chains : a simulation and model-based approach
Maîtrise des risques dans les chaînes logistiques : une approche par la simulation et l’ingénierie basée sur les modèles La maîtrise des risques est un enjeu majeur...
Anthropologie et archéologie
Anthropologie et archéologie
Les parcours sinueux qu’ont suivis l’anthropologie et l’archéologie en Amérique du Nord depuis une cinquantaine d’années démontrent des intérêts convergents pour la connaissance et...
Compteur de photon basé sur une mesure dispersive multiplexée
Compteur de photon basé sur une mesure dispersive multiplexée
Photon counting with a multiplexed dispersive readout Lorsque l’on utilise un bit quantique (qubit) pour sonder l’état d’un système, la stratégie habituelle consist...
Gravity through the lenses of Effective Field Theories
Gravity through the lenses of Effective Field Theories
La gravité, sous l'éclairage des théories des champs effectives Dans cette thèse, nous discutons de différents aspects de la gravité d'un point de vue basse énergie...
Invariant measures for Hamiltonian PDE
Invariant measures for Hamiltonian PDE
Mesures invariantes pour des équations aux dérivées partielles hamiltoniennes Dans cette thèse, on s'intéresse à l'étude qualitative des solutions d'équations aux d...
De la poésie à la peinture
De la poésie à la peinture
La poésie et la peinture étaient toujours deux différentes expressions de l’esprit et de l’âme de l’homme qui sont dédiées à présenter absolument chacune à sa façon ce qui était di...

Back to Top