Javascript must be enabled to continue!
Analyse en locuteurs de collections de documents multimédia
View through CrossRef
La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue...). Cette thèse propose deux méthodes pour pallier le problème. D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art.
Title: Analyse en locuteurs de collections de documents multimédia
Description:
La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia.
C’est un prérequis indispensable à l’indexation des contenus audiovisuels.
La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection.
Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre.
La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue.
).
Cette thèse propose deux méthodes pour pallier le problème.
D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage.
D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible.
De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER).
Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art.
Related Results
Multimedia Representation
Multimedia Representation
In recent years, the rapid expansion of multimedia applications, partly due to the exponential growth of the Internet, has proliferated over the daily life of computer users (Yang ...
Implementasi Multimedia Software Engineering Methodology Pada Pembuatan Perangkat Promosi Wisata
Implementasi Multimedia Software Engineering Methodology Pada Pembuatan Perangkat Promosi Wisata
Abstract—Artikel ini membahas tentang perbedaan antara multimedia interaktif dan non-interaktif. Multimedia non-interaktif ditampilkan dalam format linier dan pengguna tidak dapat ...
Multimedia Information Retrieval at a Crossroad
Multimedia Information Retrieval at a Crossroad
From late 1990s to early 2000s, the availability of powerful computing capability, large storage devices, high-speed networking, and especially the advent of the Internet, led to a...
Construct a Teaching System Combining Image Linguistics and Multimedia Technology
Construct a Teaching System Combining Image Linguistics and Multimedia Technology
At present, the research on the theoretical system of multimedia image linguistics in my country is very limited. In order to further improve and develop the theoretical system of ...
Studi Literatur Pemanfaatan Interactive Multimedia Related To Real Life Untuk Meningkatkan Keterampilan Berpikir Kritis Peserta Didik
Studi Literatur Pemanfaatan Interactive Multimedia Related To Real Life Untuk Meningkatkan Keterampilan Berpikir Kritis Peserta Didik
AbstrakInteractive multimedia related to real life merupakan multimedia interaktif yang menggabungkan elemen visual, audio, dan narasi ke dalam bentuk media interaktif berisikan ma...
Multimedia Encryption
Multimedia Encryption
Multimedia technology becomes more and more popular in today’s digitized and networked world. Many multimedia-based services, such as pay-TV, remote video conferencing, medical ima...
Optimizing IETF multimedia signaling protocols and architectures in 3GPP networks : an evolutionary approach
Optimizing IETF multimedia signaling protocols and architectures in 3GPP networks : an evolutionary approach
Signaling in Next Generation IP-based networks heavily relies in the family of multimedia signaling protocols defined by IETF. Two of these signaling protocols are RTSP and SIP, wh...
Langue et culture
Langue et culture
La vaste littérature (linguistique, psycholinguistique, ethnolinguistique, etc.) des XXe et XXIe siècles sur la relation entre langue et culture montre d'importantes variations dan...

