Javascript must be enabled to continue!

Efficient corpus selection for statistical machine translation

Sélection de corpus en traduction automatique statistique Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le «translation edit rate (TER)». Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que «Agence France Press (AFP)», «Associate press» ou «Xinua News». Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique...

Agence Bibliographique de l'Enseignement Supérieur

Sadaf Abdul Rauf

2026

Title: Efficient corpus selection for statistical machine translation

Description:

Sélection de corpus en traduction automatique statistique Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable.

Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse.

Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible.

La traduction automatique statistique est un processus guidé par les données.

Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas.

Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles.

Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase.

La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels.

Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps.

Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique.

Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles.

La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus.

Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles.

Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles.

L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable.

Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles.

Cette recherche est effectuée à l'aide d'un outil de recherche d'information.

En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source.

Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le «translation edit rate (TER)».

Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche.

Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que «Agence France Press (AFP)», «Associate press» ou «Xinua News».

Ces agences publient quotidiennement des actualités en plusieurs langues.

Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais.

Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique.

Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature.

Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc.

Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique.

Back

Genre implies formal and stylistic conventions of a particular text type, which inevitably affects the translation process. This „force of genre bias“ (Prieto Ramos, 2014) has been...

Poems

poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poems selection poem...

Cultranslatology in China

Culture has long been noticed in translation practice, and theoretical research on translation and culture has a history of over 40 years. Unlike the cultural schools of translatio...

Metode dan Prosedur Penerjemahan Quote Anime Bahasa Jepang ke dalam Bahasa Indonesia pada Official Akun LINE Bahasa Jepang Bersama

The title of this research is “Method and Procedure of Translation used in Anime Quotes from Japanese to Indonesia at Official Account LINE Bahasa Jepang Bersama”. The purpose of t...

Audiovisual translation and media accessibility training in the EMT network

The increase in demand for the localisation of audiovisual media content has led to increased incorporation of audiovisual translation and accessibility modules into university cur...

An overview of translation technology research in China (2014–2023): A visualization based on CiteSpace

The research aims to reveal the development trends, hot topics, and future research directions of translation technology research in China. To achieve the identifi ed aims, this ar...

Betti Alver Maksim Gorki „Lapsepõlve“ tõlkijana / Betti Alver as a Maksim Gorky’s “My Childhood” translator

Artiklis vaadeldakse Maksim Gorki eestindusi nende ajaloolises kontekstis ja tuuakse välja põhimõttelised erinevused 20. sajandi alguse tõlgete ja varaste nõukogudeaegsete tõlgete ...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Email:
Password:

Email:

Efficient corpus selection for statistical machine translation

Related Results