Javascript must be enabled to continue!
Medidas de diferencia y clasificación automática no paramétrica de datos composicionales
View through CrossRef
Es muy frecuente encontrar datos de tipo composicional en disciplinas tan dispares como son, entre otras, las ciencias de la tierra, la medicina, y la economía. También es frecuente en estos ámbitos el uso de técnicas de clasificación no paramétrica para la detección de agrupaciones naturales en los datos. Sin embargo, una búsqueda bibliográfica bastante exhaustiva y la presentación de resultados preliminares sobre el tema en congresos de ámbito internacional han permitido constatar la inexistencia de un cuerpo teórico y metodológico apropiado que permita desarrollar pautas y recomendaciones a seguir en el momento de realizar una clasificación no paramétrica de datos composicionales. Por estos motivos se ha elegido como tema de tesis la adaptación y desarrollo de métodos de agrupación adecuados a datos de naturaleza composicional, es decir, datos tales que el valor de cada una de sus componentes expresa una proporción respecto de un total. El título de la misma, "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", recoge no sólo este propósito, sino que añade la expresión "medidas de diferencia" con el propósito de reflejar el peso específico importante que tiene el estudio de este tipo de medida en el desarrollo del trabajo. La expresión "no paramétrica'' se refiere a que en la misma no se considerarán técnicas de clasificación que presuponen la existencia de un modelo de distribución de probabilidad para las observaciones objeto de la agrupación. <br/><br/>La memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica. Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales. En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales. En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión. Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario. El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad. En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas. El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico. En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros. Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo. El capítulo finaliza con el estudio de un caso práctico. En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo. En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis. Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación.
On March 23, 2001 Josep Antoni Martín-Fernández from the Dept. of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona. A short resumee follows:<br/><br/>Compositional data are by definition proportions of some whole. Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components. Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance. At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data. J. A. Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis. As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets. Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data. Finally, J. A. Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data.
Title: Medidas de diferencia y clasificación automática no paramétrica de datos composicionales
Description:
Es muy frecuente encontrar datos de tipo composicional en disciplinas tan dispares como son, entre otras, las ciencias de la tierra, la medicina, y la economía.
También es frecuente en estos ámbitos el uso de técnicas de clasificación no paramétrica para la detección de agrupaciones naturales en los datos.
Sin embargo, una búsqueda bibliográfica bastante exhaustiva y la presentación de resultados preliminares sobre el tema en congresos de ámbito internacional han permitido constatar la inexistencia de un cuerpo teórico y metodológico apropiado que permita desarrollar pautas y recomendaciones a seguir en el momento de realizar una clasificación no paramétrica de datos composicionales.
Por estos motivos se ha elegido como tema de tesis la adaptación y desarrollo de métodos de agrupación adecuados a datos de naturaleza composicional, es decir, datos tales que el valor de cada una de sus componentes expresa una proporción respecto de un total.
El título de la misma, "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", recoge no sólo este propósito, sino que añade la expresión "medidas de diferencia" con el propósito de reflejar el peso específico importante que tiene el estudio de este tipo de medida en el desarrollo del trabajo.
La expresión "no paramétrica'' se refiere a que en la misma no se considerarán técnicas de clasificación que presuponen la existencia de un modelo de distribución de probabilidad para las observaciones objeto de la agrupación.
<br/><br/>La memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica.
Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales.
En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales.
En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión.
Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario.
El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad.
En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas.
El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico.
En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros.
Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo.
El capítulo finaliza con el estudio de un caso práctico.
En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo.
En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis.
Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación.
On March 23, 2001 Josep Antoni Martín-Fernández from the Dept.
of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona.
A short resumee follows:<br/><br/>Compositional data are by definition proportions of some whole.
Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components.
Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance.
At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data.
J.
A.
Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis.
As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets.
Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data.
Finally, J.
A.
Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data.
Related Results
Diseño de modelos y algoritmos para el procesamiento de datos SAR polarimétricos
Diseño de modelos y algoritmos para el procesamiento de datos SAR polarimétricos
Un sistema SAR es un radar aerotransportado o satelital que sensa la superficie terrestre y forma imágenes para su estudio. Funciona emitiendo ondas electromagnéticas sobre la zona...
Rendimiento de bases de datos columnares
Rendimiento de bases de datos columnares
En la actualidad para el éxito de las empresas es decisiva la capacidad de procesar de manera eficiente una considerable cantidad de datos de una amplia gama de fuentes en cualquie...
Contributions to ionospheric electron density retrieval
Contributions to ionospheric electron density retrieval
La transformada de Abel es una técnica de inversión usada frecuentemente en radio ocultaciones (RO) que, en el contexto ionosférico, permite deducir densidades electrónicas a parti...
Diferencia salarial atribuida a la discriminación de género en México
Diferencia salarial atribuida a la discriminación de género en México
En México la desigualdad de género en el mercado laboral es una realidad, y uno de los problemas es la diferencia salarial entre hombres y mujeres. El objetivo de este artículo es ...
Predicción de crisis epilépticas mediante teoría de grafos y conectividad funcional
Predicción de crisis epilépticas mediante teoría de grafos y conectividad funcional
El comportamiento anormal de redes neuronales causa la ocurrencia de crisis espontáneas y
recurrentes, principal síntoma de la epilepsia. La dinámica de estas redes epilépticas y l...
Application of BIM visual programming algorithms for infrastructure projects
Application of BIM visual programming algorithms for infrastructure projects
(English) The BIM digitization has generated a growing automation of traditional AECO project development processes. However, this automation has mainly benefited building projects...
Bancos de datos
Bancos de datos
<p>La creación y utilización de bancos de datos es cada vez un recurso más utilizado dentro de las sociedades contemporáneas. En e...
Detección de Noticias Falsas (Fake News) en Internet Utilizando Deep Learning
Detección de Noticias Falsas (Fake News) en Internet Utilizando Deep Learning
En este artículo se presenta un estudio de la detección automática de noticias falsas en Internet utilizando técnicas de deep learning. Esta detección es crucial para mantener la v...


