Use este identificador para citar ou linkar para este item: http://repositorio.ufgd.edu.br/jspui/handle/prefix/4810
Tipo: Tese
Título: Ensemble learning by diversifying explanations: predicting the evolution of pain relief
Autor(es): Costa, Anderson Bessa da
Primeiro Orientador: Veloso, Adriano Alonso
metadata.dc.contributor.advisor-co1: Ziviani, Nivio
metadata.dc.contributor.referee1: Meira Junior, Wagner
metadata.dc.contributor.referee2: Marinho, Leandro Balby
metadata.dc.contributor.referee3: Andrade, Daniel Ciampi Araujo de
metadata.dc.contributor.referee4: Cristo, Marco Antônio Pinheiro de
Resumo: A modelagem a partir de dados geralmente tem duas facetas distintas: construir modelos explicativos sólidos ou criar modelos preditivos poderosos para um sistema ou fenômeno. Embora exista um senso instintivo de que prever e explicar são tarefas distintas, muitas vezes se assume que modelos com alto poder explicativo são inerentemente de alto poder preditivo. Apesar desta relação, os mais recentes trabalhos de modelagem de dados se encaixam na metodologia de aprendizagem de máquina tudo-em-um, com a suposição básica de que todos os fatores explicativos importantes podem ser combinados em um único modelo preditivo. Embora altamente adotada e estabelecida, a metodologia tudo-em-um negligencia que muitos fenômenos são realmente definidos por várias subpopulações ou estruturas locais e, portanto, há muitos modelos de previsão possíveis que fornecem interpretações contrastantes ou explicações concorrentes para o mesmo fenômeno. Neste trabalho, apresentamos o ED-Ensemble (Explanation-Diversifying Ensemble), uma alternativa à metodologia tudo-em-um. Nossa principal intuição é que os modelos que têm suas decisões explicadas pelos mesmos fatores provavelmente farão melhores previsões dentro das mesmas estruturas locais. O ED-Ensemble obtido a partir de nossos experimentos superou consistentemente as abordagens tudo-em-um, mesmo empregando os algoritmos de ensemble de última geração XGBoost e Random Forest. Nossa abordagem proposta, considerando apenas primeira consulta, alcançou um AUC de 0,78 usando XGBoost como algoritmo de aprendizado, representando um ganho de desempenho relativo de até 20,37% comparado ao XGBoost tudo-em-um, e AUC de 0,75 quando usando Random Forest como algoritmo de aprendizado, com ganho de desempenho relativo de até 15,03% comparado ao Random Forest tudo-emum. Além disso, o número de features é significativamente reduzido, fazendo uso de tão pouco quanto 15% das features. Ao considerar as consultas sequenciais, os experimentos mostraram consistentemente que quanto mais consultas consideradas, maior será o desempenho alcançado. Nossa abordagem EXP-MF combinada com o ED-Ensemble alcançou uma AUC de 0,945 (aumento de 23,37%) utilizando cinco consultas. Uma tendência de aumento semelhante na AUC também foi observada para os algoritmos EXP-MF combinado com XGBoost e EXP-MF combinado com Random Forest, alcançando 0,843 (aumento de 50%) e 0,810 (aumento de 62,98%), respectivamente. Finalmente, o ensemble proposto baseada em diversidade de explicações se apresentou como uma alternativa superior à abordagem tudo-em-um em problemas de fenômenos de múltiplas estruturas tanto nos dados de corte transversal quanto dados longitudinais.
Abstract: Modeling from data usually has two distinct facets: building sound explanatory models or creating powerful predictive models for a system or phenomenon. While there is an instinctive sense that predicting and explaining are distinct tasks, it is often assumed that models with high explanatory power are inherently of high predictive power. In spite of this relationship, most recent data-modeling work fits into the allin-one machine learning methodology, with the basic assumption that all important explanatory factors can be combined into a single predictive model. Although highly adopted and established, the all-in-one methodology neglects that many phenomena are actually defined by several subpopulations or local structures and therefore there are many possible predictive models that provide contrasting interpretations or competing explanations for the same phenomenon. In this work, we present ED-Ensemble (Explanation-Diversifying Ensemble), an alternative to the all-in-one methodology. Our main intuition is that models that have their decisions explained by the same factors will probably perform better predictions within the same local structures. We design and conduct an experimental evaluation as a case study to evaluate the performance of our methodology to model the evolution of pain relief in patients suffering from chronic pain under usual guideline-based treatment. Six hundred thirty-one participants self-completed the McGill Pain Questionnaire and the Visual Analogue Scale. Chronic pain can be primary or secondary to diseases. Its symptomatology can be classified as nociceptive, nociplastic or neuropathic, and is generally associated with many different causal structures, challenging the typical all-in-one methodology. We show that we can effectively combine models with competing explanations, promoting diversity in ensemble, leading to significant gains in accuracy by enforcing a stable scenario in which models that are similar in terms of their predictions are also similar in terms of explanatory factors. Further, we present EXP-MF (model-EXPlanations as MetaFeatures). We follow the explanation-diversity feature selection proposed and extend it to use model-explanations as meta-features in longitudinal data, as the standard protocol for a patient typically comprises many subsequent appointments. This approach prevents us from neglecting a considerable amount of information. The ED-Ensemble obtained from our experiments consistently outperformed the all-in-one approaches, notwithstanding employing state-of-art ensemble algorithms XGBoost and Random Forest. Our proposed approach considering the first consultation only achieved an AUC of 0.78 using XGBoost as learning algorithm, relative performance gain up to 20.37% compared to the XGBoost all-in-one, and AUC of 0.75 when using Random Forest as learning algorithm, relative performance gain up to 15.03% compared to the Random Forest all-in-one approach. Also, the number of features is remarkably reduced, using as low as 15% of features. When considering sequential consultations, the experiments consistently showed that the more consultations granted, the higher the performance achieved. Our approach EXP-MF with an ED-Ensemble could achieve an AUC of 0.945 (increase of 23.37%) using five consultations. A similar uptrend in AUC was also observed for the XGBoost and Random Forest algorithms, achieving 0.843 (increase of 50%) and 0.810 (increase of 62.98%) respectively. Finally, our novel ensemble based on diversified explanations presented as a superior alternative to the all-in-one approach in multiple-structure phenomena problems with cross-sectional and longitudinal data.
Palavras-chave: Aprendizado de máquina
Machine learning
Modelagem exploratória
Explanatory modeling
Modelagem preditiva
Predictive modeling
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: Inglês
País: Brasil
Editor: Universidade Federal da Grande Dourados
Sigla da Instituição: UFMG
metadata.dc.publisher.department: Instituto de Ciências Exatas
metadata.dc.publisher.program: Programa de Pós-graduação em Ciência da Computação
Citação: COSTA, Anderson Bessa da. Ensemble learning by diversifying explanations: predicting the evolution of pain relief. 2021. Tese (Doutorado em Ciência da Computação) – Instituto de Ciências Exatas, Departamento de Ciência da Computação, Universidade Federal de Minas Gerais, Belo Horizonte, MG, 2021.
Tipo de Acesso: Acesso Aberto
URI: http://repositorio.ufgd.edu.br/jspui/handle/prefix/4810
Data do documento: 20-Dez-2021
Aparece nas coleções:Teses

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
AndersonBessaDaCosta.pdf11,67 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.