Javascript must be enabled to continue!
Random Forest Quantílico aplicado em estudos de seleção genômica
View through CrossRef
A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C???? e Bayes D????) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C???? e Bayes D????. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.
Title: Random Forest Quantílico aplicado em estudos de seleção genômica
Description:
A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos.
Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos.
Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade.
Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos.
O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR).
O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média.
Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS.
Neste trabalho dois artigos foram desenvolvidos com essa proposta.
No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância).
Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático).
Foi simulada uma população F2 com 1.
000 indivíduos genotipados para 4.
010 marcadores SNP.
Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8).
Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas.
No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C???? e Bayes D????) e o G-BLUP.
Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.
477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro.
Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C???? e Bayes D????.
O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS.
Palavras-chave: Predição Genômica.
Simulação de Dados.
Melhoramento Genético do Cafeeiro.
Métodos Bayesianos.
G-BLUP.
Aprendizado de Máquinas.
Related Results
Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solu...
Factors influencing and patterns of forest utilization in communities around the Huay Tak Teak Biosphere Reserve, Lampang Province
Factors influencing and patterns of forest utilization in communities around the Huay Tak Teak Biosphere Reserve, Lampang Province
Background and Objectives: To establish the land regulation, it is necessary to know basic information of the surrounding community’s land use and to be aware of basic forest laws....
Secondary Succession in the Lowland Forests of the Marlborough Sounds Maritime Park
Secondary Succession in the Lowland Forests of the Marlborough Sounds Maritime Park
<p>This study documents aspects of the forest recovery process in secondary communities of the Marlborough sounds Maritime park. some 39 types of seral vegetation were recogn...
Estratégias de seleção em estágios precoces do melhoramento de soja com o uso de modelos mistos
Estratégias de seleção em estágios precoces do melhoramento de soja com o uso de modelos mistos
A produtividade de grãos é o caractere de maior interesse para a cultura da soja. Por se tratar de um caractere quantitativo, recomenda-se o uso da seleção recorrente. Este process...
Application of Random Forest Algorithm and Multi-Temporal Satellite Data for Forest Types Classification in Chiang Mai Province
Application of Random Forest Algorithm and Multi-Temporal Satellite Data for Forest Types Classification in Chiang Mai Province
Background and Objectives: Chiang Mai Province is strategically important as a major watershed area for the Ping River basin ecosystem and boasts one of the highest biodiversity le...
FUNDAMENTALS OF FOREST NURSERY ECONOMICS
FUNDAMENTALS OF FOREST NURSERY ECONOMICS
The relevance of the study of the economic organization of forest nurseries is explained by the need to include this type of activity in the forest economy. The underdevelopment of...
STUDY ON MONGOLIAN FOREST STAND DYNAMICS USING MATHEMATICAL MODELING
STUDY ON MONGOLIAN FOREST STAND DYNAMICS USING MATHEMATICAL MODELING
A Global warming, climate change and negative human activities are expected to directly and negatively influence Mongolia’s forest resource area and quality [21]. In 2015, Mongolia...
Relations between structural characteristics, forest involvement, and forest knowledge among private forest owners in Sweden
Relations between structural characteristics, forest involvement, and forest knowledge among private forest owners in Sweden
AbstractAn understanding of private forest owners is needed for appropriate forest governance and outreach to forest owners. This study examined different types of objective and su...

