Javascript must be enabled to continue!

Analyse en locuteurs de collections de documents multimédia

La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue...). Cette thèse propose deux méthodes pour pallier le problème. D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art.

Agence Bibliographique de l'Enseignement Supérieur

Gaël Le Lan

2026

Title: Analyse en locuteurs de collections de documents multimédia

Description:

La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia.

C’est un prérequis indispensable à l’indexation des contenus audiovisuels.

La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection.

Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre.

La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue.

Cette thèse propose deux méthodes pour pallier le problème.

D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage.

D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible.

De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER).

Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art.

Back

Related Results

Multimedia Representation

In recent years, the rapid expansion of multimedia applications, partly due to the exponential growth of the Internet, has proliferated over the daily life of computer users (Yang ...

Implementasi Multimedia Software Engineering Methodology Pada Pembuatan Perangkat Promosi Wisata

Abstract—Artikel ini membahas tentang perbedaan antara multimedia interaktif dan non-interaktif. Multimedia non-interaktif ditampilkan dalam format linier dan pengguna tidak dapat ...

Multimedia Information Retrieval at a Crossroad

From late 1990s to early 2000s, the availability of powerful computing capability, large storage devices, high-speed networking, and especially the advent of the Internet, led to a...

Construct a Teaching System Combining Image Linguistics and Multimedia Technology

At present, the research on the theoretical system of multimedia image linguistics in my country is very limited. In order to further improve and develop the theoretical system of ...

Studi Literatur Pemanfaatan  Interactive Multimedia Related To Real Life Untuk Meningkatkan Keterampilan Berpikir Kritis Peserta Didik

AbstrakInteractive multimedia related to real life merupakan multimedia interaktif yang menggabungkan elemen visual, audio, dan narasi ke dalam bentuk media interaktif berisikan ma...

Multimedia Encryption

Multimedia technology becomes more and more popular in today’s digitized and networked world. Many multimedia-based services, such as pay-TV, remote video conferencing, medical ima...

Optimizing IETF multimedia signaling protocols and architectures in 3GPP networks : an evolutionary approach

Signaling in Next Generation IP-based networks heavily relies in the family of multimedia signaling protocols defined by IETF. Two of these signaling protocols are RTSP and SIP, wh...

Langue et culture

La vaste littérature (linguistique, psycholinguistique, ethnolinguistique, etc.) des XXe et XXIe siècles sur la relation entre langue et culture montre d'importantes variations dan...

Email:
Password:

Email: