Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Évaluation de l’intelligibilité de la parole par apprentissage profond : vers plus d’interprétabilité en phonétique clinique

View through CrossRef
Assessment of Speech Intelligibility using Deep Learning : Towards Enhanced Interpretability in Clinical Phonetics L’intelligibilité de la parole est une composante essentielle d’une communication efficace. Elle peut être définie comme le degré avec lequel le message d’un locuteur peut être compris par un auditeur. Cette capacité peut être entravée par des troubles de la parole, entraînant potentiellement une diminution de la qualité de vie pour les individus. Dans le cas du cancer de la tête et du cou, la parole peut être affectée par la présence de tumeurs dans l’appareil de production de la parole. Néanmoins, la cause principale est généralement le traitement de la tumeur, impliquant notamment la chirurgie, la radiothérapie, la chimiothérapie ou une combinaison de ces traitements. Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés. En pratique clinique, les mesures perceptives sont considérées comme un standard pour l’évaluation des troubles de la parole. Bien que ces mesures soient largement utilisées, elles présentent plusieurs limites, la plus importante étant leur subjectivité. Par conséquent, l’évaluation automatique des troubles de la parole s’est révélée être une alternative prometteuse aux mesures perceptives dés les années ’90. Dans cette thèse, nous explorons le potentiel des techniques d’apprentissage profond pour évaluer les troubles de la parole tout en abordant les limites des outils d’évaluation existants. Dans ce contexte clinique sensible où les enjeux sont élevés et la confiance primordiale, nous considérons l’explicabilité et l’interprétabilité de ces outils comme une caractéristique obligatoire plutôt qu’optionnelle. Nous proposons une méthodologie en trois étapes basée sur l’apprentissage profond et dédiée à l’évaluation interprétable de l’intelligibilité dans le contexte des troubles de la parole. Dans la première étape, nous abordons un problème majeur dans les outils automatiques actuels dédiés à l’évaluation de la parole altérée, à savoir une connaissance limitée sur la relation entre les troubles de la parole et le score d’évaluation qui en découle. À cette fin, nous mettons en place un modèle basé sur l’apprentissage profond, entraîné sur de la parole saine et dédié à une tâche intermédiaire de classification des phonèmes du français. Ce choix méthodologique a deux vocations. La première est de tirer bénéfice des connaissances au niveau phonème apportées par la tâche de classification pour répondre au problème majeur évoqué précédemment. La seconde est en lien avec l’utilisation de la parole saine (normale). Elle permet de pallier la quantité très limitée de données pathologiques à disposition, tout en répondant aux exigences élevées en matière de quantité de données de l’apprentissage profond. Dans la deuxième étape, l’objectif majeur est de garantir le développement d’une solution interprétable, en vue de son acceptation en pratique clinique. Dans cet optique, nous étudions la capacité du modèle de classification des phonèmes à produire des connaissances pertinentes liées aux caractéristiques des troubles de la parole ciblés. Nous proposons ainsi un cadre analytique général et original, nommé Neuro-based Concept Detector - NCD, spécialement conçu pour interpréter les représentations profondes d’un modèle. Ce cadre permet de mettre en évidence au sein du modèle de classification issu de la première étape une représentation des caractéristiques acoustiques et articulatoires de la parole saine en terme de traits phonétiques, facilement interprétables en matière d’altérations en cas de troubles de la parole. Enfin, la troisième étape est consacrée à la prédiction d’un score final évaluant l’intelligibilité de la parole d’un individu. Cette étape repose sur les différents niveaux de représentation apportés par les deux étapes précédentes, permettant de mettre en relation le score d’intelligibilité prédit avec le degré d’altération de la parole au niveau phonème et traits phonétiques.
Agence Bibliographique de l'Enseignement Supérieur
Title: Évaluation de l’intelligibilité de la parole par apprentissage profond : vers plus d’interprétabilité en phonétique clinique
Description:
Assessment of Speech Intelligibility using Deep Learning : Towards Enhanced Interpretability in Clinical Phonetics L’intelligibilité de la parole est une composante essentielle d’une communication efficace.
Elle peut être définie comme le degré avec lequel le message d’un locuteur peut être compris par un auditeur.
Cette capacité peut être entravée par des troubles de la parole, entraînant potentiellement une diminution de la qualité de vie pour les individus.
Dans le cas du cancer de la tête et du cou, la parole peut être affectée par la présence de tumeurs dans l’appareil de production de la parole.
Néanmoins, la cause principale est généralement le traitement de la tumeur, impliquant notamment la chirurgie, la radiothérapie, la chimiothérapie ou une combinaison de ces traitements.
Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés.
En pratique clinique, les mesures perceptives sont considérées comme un standard pour l’évaluation des troubles de la parole.
Bien que ces mesures soient largement utilisées, elles présentent plusieurs limites, la plus importante étant leur subjectivité.
Par conséquent, l’évaluation automatique des troubles de la parole s’est révélée être une alternative prometteuse aux mesures perceptives dés les années ’90.
Dans cette thèse, nous explorons le potentiel des techniques d’apprentissage profond pour évaluer les troubles de la parole tout en abordant les limites des outils d’évaluation existants.
Dans ce contexte clinique sensible où les enjeux sont élevés et la confiance primordiale, nous considérons l’explicabilité et l’interprétabilité de ces outils comme une caractéristique obligatoire plutôt qu’optionnelle.
Nous proposons une méthodologie en trois étapes basée sur l’apprentissage profond et dédiée à l’évaluation interprétable de l’intelligibilité dans le contexte des troubles de la parole.
Dans la première étape, nous abordons un problème majeur dans les outils automatiques actuels dédiés à l’évaluation de la parole altérée, à savoir une connaissance limitée sur la relation entre les troubles de la parole et le score d’évaluation qui en découle.
À cette fin, nous mettons en place un modèle basé sur l’apprentissage profond, entraîné sur de la parole saine et dédié à une tâche intermédiaire de classification des phonèmes du français.
Ce choix méthodologique a deux vocations.
La première est de tirer bénéfice des connaissances au niveau phonème apportées par la tâche de classification pour répondre au problème majeur évoqué précédemment.
La seconde est en lien avec l’utilisation de la parole saine (normale).
Elle permet de pallier la quantité très limitée de données pathologiques à disposition, tout en répondant aux exigences élevées en matière de quantité de données de l’apprentissage profond.
Dans la deuxième étape, l’objectif majeur est de garantir le développement d’une solution interprétable, en vue de son acceptation en pratique clinique.
Dans cet optique, nous étudions la capacité du modèle de classification des phonèmes à produire des connaissances pertinentes liées aux caractéristiques des troubles de la parole ciblés.
Nous proposons ainsi un cadre analytique général et original, nommé Neuro-based Concept Detector - NCD, spécialement conçu pour interpréter les représentations profondes d’un modèle.
Ce cadre permet de mettre en évidence au sein du modèle de classification issu de la première étape une représentation des caractéristiques acoustiques et articulatoires de la parole saine en terme de traits phonétiques, facilement interprétables en matière d’altérations en cas de troubles de la parole.
Enfin, la troisième étape est consacrée à la prédiction d’un score final évaluant l’intelligibilité de la parole d’un individu.
Cette étape repose sur les différents niveaux de représentation apportés par les deux étapes précédentes, permettant de mettre en relation le score d’intelligibilité prédit avec le degré d’altération de la parole au niveau phonème et traits phonétiques.

Related Results

Unsupervised multilingual models of speech representation, an approach inspired by cognitive science
Unsupervised multilingual models of speech representation, an approach inspired by cognitive science
Apprentissage non supervisé de modèles multilingues de représentation de la parole, une approche inspirée des sciences cognitives La parole, qui est essentielle à l...
Bridging Deep Learning and Classical Profiled Side-Channel Attacks
Bridging Deep Learning and Classical Profiled Side-Channel Attacks
Rapprochement de l'apprentissage profond et des attaques par canaux auxiliaires Au travers de cette thèse CIFRE, nous cherchons à mieux comprendre l’intérêt d’utili...
Deep Learning-based Methods for Radiotherapy Dose Optimization
Deep Learning-based Methods for Radiotherapy Dose Optimization
Apprentissage profond pour l'optimisation des doses en radiothérapie La radiothérapie est un pilier du traitement moderne du cancer. La simulation de la dose de rad...
Apprentissage profond multimodal appliqué à l'usinage
Apprentissage profond multimodal appliqué à l'usinage
Les techniques axées sur les données ont offert à la technologie de fabrication intelligente des opportunités sans précédent pour assurer la transition vers une productivité basée ...
Geometric deep learning for structural bioinformatics
Geometric deep learning for structural bioinformatics
Apprentissage profond géométrique pour la bioinformatique structurale L'apprentissage automatique a permis plusieurs percées dans la gestion des données tabulaires,...
L’Acte de Parole Directif dans la Bande-Dessinée (BD) Astérix Chez les Helvètes par René Goscinny et Albert Uderzo
L’Acte de Parole Directif dans la Bande-Dessinée (BD) Astérix Chez les Helvètes par René Goscinny et Albert Uderzo
Les actes pris par les humains quand se divise prononcent ce discours est appelé des actes de parole. L’actes de parole a divisé en trois types, ces sont l’acte de parole locutoire...
L’ACTE DE PAROLE DIRECTIF DANS LA BANDE-DESSINEE (BD) ASTERIX CHEZ LES HELVETES PAR RENE GOSCINNY ET ALBERT UDERZO. MEMOIRE
L’ACTE DE PAROLE DIRECTIF DANS LA BANDE-DESSINEE (BD) ASTERIX CHEZ LES HELVETES PAR RENE GOSCINNY ET ALBERT UDERZO. MEMOIRE
Les actes pris par les humains quand se divise prononcent ce discours est appelé des actes de parole. L’actes de parole a divisé en trois types, ces sont l’acte de parole locutoire...
Perceiving whistled speech : a study of musicians' capacity for language processing
Perceiving whistled speech : a study of musicians' capacity for language processing
Perception de la parole sifflée : étude de la capacité de traitement langagier des musiciens La perception de la parole est un processus qui doit s'adapter à un gra...

Back to Top