Javascript must be enabled to continue!

Resolució anafòrica en traducció automàtica: el cas de l’espanyol i el català

En l'última dècada, la traducció automàtica (TA) ha augmentat la seva presència no només en el sector de la traducció sinó també en el conjunt de la societat, en part pels bons resultats de qualitat obtinguts per la traducció automàtica neuronal (TAN). Actualment, els models massius de llenguatge (MML) com ara GPT (Generic Pre-trained Transformer) poden generar text sobre una infinitat de temes diferents i també traduir documents tenint en compte un context més ampli. Tot i així, per a idiomes estretament relacionats, com ara l'espanyol i el català, la traducció automàtica basada en regles (TABR) s'utilitza diàriament per traduir milers de paraules. Aquest article estudia la TAN, TABR i GPT del castellà al català, dues llengües romàniques amb una estructura molt semblant en les quals els sistemes de TABR han demostrat un bon rendiment. Utilitzem un challenge test set centrat en la resolució d'anàfores, específicament els pronoms febles, un grup de pronoms que no tenenuna correlació directa entre les dues llengües. Com que els models de TABR només tenen en compte la informació a nivell de frase, només estudiem les aparicions intraoracionals. L'objectiu és avaluar un fenomen sintàctic complex que ens pot ajudar a entendre quin dels tres sistemes tradueix més bé els elements contextuals. Els resultats mostren que els dos models GPT provats són els que produeixen el nombre més baix d'errors, seguit dels sistemes de TAN. Tot i així, el nombre de traduccions errònies en el millor sistema és del 47%, cosa que contrasta amb els bons resultats d'avaluació generals que s'obtenen per a aquest parell de llengües.

University of Minho

Sergi Alvarez-Vidal

Linguamática

2024

Title: Resolució anafòrica en traducció automàtica: el cas de l’espanyol i el català

Description:

Actualment, els models massius de llenguatge (MML) com ara GPT (Generic Pre-trained Transformer) poden generar text sobre una infinitat de temes diferents i també traduir documents tenint en compte un context més ampli.

Tot i així, per a idiomes estretament relacionats, com ara l'espanyol i el català, la traducció automàtica basada en regles (TABR) s'utilitza diàriament per traduir milers de paraules.

Aquest article estudia la TAN, TABR i GPT del castellà al català, dues llengües romàniques amb una estructura molt semblant en les quals els sistemes de TABR han demostrat un bon rendiment.

Utilitzem un challenge test set centrat en la resolució d'anàfores, específicament els pronoms febles, un grup de pronoms que no tenenuna correlació directa entre les dues llengües.

Com que els models de TABR només tenen en compte la informació a nivell de frase, només estudiem les aparicions intraoracionals.

L'objectiu és avaluar un fenomen sintàctic complex que ens pot ajudar a entendre quin dels tres sistemes tradueix més bé els elements contextuals.

Els resultats mostren que els dos models GPT provats són els que produeixen el nombre més baix d'errors, seguit dels sistemes de TAN.

Tot i així, el nombre de traduccions errònies en el millor sistema és del 47%, cosa que contrasta amb els bons resultats d'avaluació generals que s'obtenen per a aquest parell de llengües.

Back

Related Results

Résumés des conférences JRANF 2021

able des matières Résumés. 140 Agenda Formation en Radioprotection JRANF 2021 Ouagadougou. 140 RPF 1 Rappel des unités de doses. 140 RPF 2 Risques déterministes et stochastique...

Empirical machine translation and its evaluation

Aquesta tesi estudia l'aplicació de les tecnologies del Processament del Llenguatge Natural disponibles actualment al problema de la Traducció Automàtica basada en Mètodes Empírics...

Quantitative nanoscale imaging of synaptic protein organization

The arrival of super-resolution techniques has driven researchers to explore biological areas that were unreachable before. Such techniques not only allowed the improvement of spat...

A constraint-based hypergraph partitioning approach to coreference resolution

The objectives of this thesis are focused on research in machine learning for coreference resolution. Coreference resolution is a natural language processing task that consists o...

Les tecnologies de la traducció en la formació de grau de traductors i intèrprets

La formació de traductors i intèrprets, en tant que formació orientada a la professionalització, és especialment sensible als canvis que s’esdevenen en el mercat. Atès que aquests ...

Joan Jacme, cirurgià de Jaume I i Pere el Gran, autor de la traducció catalana del "Kitāb al-ʿuyūn" (‘Llibre dels ulls’) d’Alcoatí

L’edició de la traducció arabocatalana del Kitāb al-ʿuyūn (‘Llibre dels ulls’) d’Alcoatí, publicada per Lluís Faraudo de Saint-Germain amb el títol de Libre de la figura del uyl e...

Actualització consistent de bases de dades deductives

En aquesta tesi, proposem un nou mètode per a l'actualització consistent de bases de dades deductives. Donada una petició d'actualització, aquest mètode tradueix de forma automàtic...

Neural network-based data processing for satellite imagery in small satellite earth observation missions

(English) The increasing availability and miniaturization of satellite sensors have enabled CubeSats to emerge as powerful platforms for Earth Observation (EO). Despite their reduc...

Email:
Password:

Email: