Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Evaluación morfológica de los vocabularios de subpalabras utilizados por los grandes modelos de lenguaje

View through CrossRef
Con el auge de los grandes modelos del lenguaje neuronales, especialmente aquellos basados en Transformers, la tradicional segmentación en palabras y morfemas que empleaba reglas lingüísticas ha sido reemplazada por algoritmos de segmentación estadísticos. Estos algoritmos son mucho más eficientes y, sin necesidad de intervención humana, son capaces de, a partir de corpus de millones de palabras, construir el vocabulario de palabras y subpalabras que necesitan los grandes modelos del lenguaje monolingües o multilingües. Ocurre, sin embargo, que estas subpalabras no se corresponden siempre con morfemas y esto repercute negativamente en el funcionamiento de los modelos del lenguaje que utilizan estos segmentadores. Cuánto se alejan los vocabularios estadísticos de un vocabulario real de palabras y morfemas de una lengua –lo que denominamos calidad morfológica del vocabulario–, y cuánto repercute esta falta de calidad en la eficacia de los grandes modelos del lenguaje son cuestiones todavía sin resolver. Este artículo aborda la primera cuestión, la calidad morfológica de los vocabularios, aportando un método de evaluación basado en tres medidas de calidad –relevancia, coherencia y corrección morfológica–, y un procedimiento para evaluarlas. El método se aplica para medir la calidad de los vocabularios generados por tres algoritmos de segmentación en subpalabras, BPE, WordPiece y Unigram, utilizados mayoritariamente para la construcción de los grandes modelos del lenguaje. Los resultados que hemos obtenido indican que la calidad morfológica de los mismos es muy baja, por lo que merece la pena buscar nuevas soluciones para mejorar la calidad de los vocabularios de los grandes modelos del lenguaje.
Title: Evaluación morfológica de los vocabularios de subpalabras utilizados por los grandes modelos de lenguaje
Description:
Con el auge de los grandes modelos del lenguaje neuronales, especialmente aquellos basados en Transformers, la tradicional segmentación en palabras y morfemas que empleaba reglas lingüísticas ha sido reemplazada por algoritmos de segmentación estadísticos.
Estos algoritmos son mucho más eficientes y, sin necesidad de intervención humana, son capaces de, a partir de corpus de millones de palabras, construir el vocabulario de palabras y subpalabras que necesitan los grandes modelos del lenguaje monolingües o multilingües.
Ocurre, sin embargo, que estas subpalabras no se corresponden siempre con morfemas y esto repercute negativamente en el funcionamiento de los modelos del lenguaje que utilizan estos segmentadores.
Cuánto se alejan los vocabularios estadísticos de un vocabulario real de palabras y morfemas de una lengua –lo que denominamos calidad morfológica del vocabulario–, y cuánto repercute esta falta de calidad en la eficacia de los grandes modelos del lenguaje son cuestiones todavía sin resolver.
Este artículo aborda la primera cuestión, la calidad morfológica de los vocabularios, aportando un método de evaluación basado en tres medidas de calidad –relevancia, coherencia y corrección morfológica–, y un procedimiento para evaluarlas.
El método se aplica para medir la calidad de los vocabularios generados por tres algoritmos de segmentación en subpalabras, BPE, WordPiece y Unigram, utilizados mayoritariamente para la construcción de los grandes modelos del lenguaje.
Los resultados que hemos obtenido indican que la calidad morfológica de los mismos es muy baja, por lo que merece la pena buscar nuevas soluciones para mejorar la calidad de los vocabularios de los grandes modelos del lenguaje.

Related Results

Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Memorias de la Jornada de Investigación en Derecho y Ciencias Forenses
Aplicación de la licencia de luto, según la Ley 1280 de 2009 en el Ordenamiento Jurídico Colombiano de Cara a las Relaciones Individuales de Trabajo   Luisa Fernanda Tr...
OS SERVIDORES PÚBLICOS MUNICIPAIS
OS SERVIDORES PÚBLICOS MUNICIPAIS
I. Organização do funcionalismo municipal1. A Autonomia dos Municípios e a organização de seu funcionalismo — A Constituição Federal assegura, aos Municípios, a autonomia de autogo...
The Utility of Artificial Intelligence as an Example of Large Language Models in Healthcare Education. Dr. Sergio Grunbaum
The Utility of Artificial Intelligence as an Example of Large Language Models in Healthcare Education. Dr. Sergio Grunbaum
En la era digital actual, la inteligencia artificial (IA) ha emergido como una fuerza transformadora en diversos campos, y la educación en salud no es una excepción. En este artícu...
Análisis crítico de los modelos de Stake, Modelo CIPP de Stufflebeam y la evaluación basada en objetivos de Tyler
Análisis crítico de los modelos de Stake, Modelo CIPP de Stufflebeam y la evaluación basada en objetivos de Tyler
El análisis de los modelos de evaluación de calidad es esencial para comprender cómo se mide y mejora la efectividad de los programas educativos. Este trabajo se centra en tres mod...
Generación de modelos de procesos y decisiones a partir de documentos de texto
Generación de modelos de procesos y decisiones a partir de documentos de texto
(English) This thesis addresses the importance of formal models for the efficient management of business processes (BPM) and business decision management (BDM) in a constantly evol...
VB-MAPP: Verbal Behavior Milestones Assessment and Placement Program, Protocol
VB-MAPP: Verbal Behavior Milestones Assessment and Placement Program, Protocol
VB-MAPP proporciona a educadores y padres un medio eficaz para evaluar el aprendizaje, el lenguaje y las habilidades sociales de niños y niñas con autismo u otras necesidades educa...
Evaluación Educativa. Sobre Sentidos y Práctica
Evaluación Educativa. Sobre Sentidos y Práctica
El artículo aporta reflexiones sobre la evaluación educativa, ya sea tanto la evaluación de sistemas educativos (o subsistemas), como la evaluación de instituciones o de programas ...
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS
PREVENÇÃO DA TROMBOSE VENOSA PROFUNDA NA GRAVIDEZ PELA ENFERMAGEM NA APS Danilo Hudson Vieira de Souza1 Priscilla Bárbara Campos Daniel dos Santos Fernandes RESUMO A gravidez ...

Back to Top