Novas abordagens de aprendizado semisupervisionado por conectividade ótima

Amorim, Willian Paraguassu

Use este identificador para citar ou linkar para este item: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor1	Carvalho, Marcelo Henriques de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4512658167877638	pt_BR
dc.contributor.advisor-co1	Falcão, Alexandre Xavier	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/7533729699758819	pt_BR
dc.contributor.referee1	Ponte Junior, Moacir	-
dc.contributor.referee2	Miyazawa, Flávio Keidi	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/8436515676441851	pt_BR
dc.contributor.referee3	Pistori, Hemerson	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/8684549377565696	pt_BR
dc.contributor.referee4	Matsubara, Edson Takashi	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/1842905075999080	pt_BR
dc.creator	Amorim, Willian Paraguassu	-
dc.creator.Lattes	http://lattes.cnpq.br/8746409982228678	pt_BR
dc.date.accessioned	2020-04-27T12:40:09Z	-
dc.date.available	2020-04-27T12:40:09Z	-
dc.date.issued	2016-12-19	-
dc.identifier.citation	AMORIM, Willian P. Novas abordagens de aprendizado semisupervisionado por conectividade ótima. 2016. Tese (Doutorado em Ciência da Computação) – Faculdade de Computação, Universidade Federal de Mato Grosso do Sul, Campo Grande, MS, 2016.	pt_BR
dc.identifier.uri	http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916	-
dc.description.abstract	The annotation of large data sets by a classifier is a problem whose challenge increases as the number of supervised samples available to train the classifier reduces in comparison to the number of unsupervised samples. In this context, semi-supervised learning methods aim at discovering and propagating labels to informative samples among the unsupervised ones, such that their addition to the correct class in the training set can improve the classification performance. This PhD thesis presents a series of novel semi-supervised learning approaches based on the Optimum-Path Forest (OPF) methodology. This methodology interprets the pattern recognition problem as a graph search problem, where the nodes are the training samples, the arcs are defined by a given adjacency relation, and the paths are assessed by some connectivity function. It identifies key nodes (prototypes) among the training samples and performs a competition process among them, such that each sample is conquered by the prototype that offers an optimum path to it. The result is a classifier — optimum-path forest rooted at the prototype set — which assigns labels to new samples by assessing extended paths to them. Classifiers can be created by one or multiple executions of the OPF algorithm for different graphs and connectivity functions. We present two approaches (OPFSEMI and its optimized version, OPFSEMImst) for the single-label problem, which differ from one another with respect to the final prototypes and number of executions of the OPF algorithm. We also propose a semi-supervised approach more suitable for the multi-label problem than the previous ones. This is a challenging problem, especially when it relies on the transformation of multi-label data into single-label data, which might affect performance at the boundary between classes. To resolve this problem, we improve the multi-label assignment by adding a final step in the training process of OPFSEMImst. The method, called OPFSEMImst+knn, creates an optimum-path forest rooted at the maxima of a probability density function, as estimated from a k-NN graph. Finally, we propose an active learning approach based on OPFSEMImst (OPFSEMI). The method selects informative samples for expert supervision, such that the number of active learning iterations (user effort) is reduced.	en
dc.description.resumo	A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido.	pt_BR
dc.description.provenance	Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-04-27T12:40:09Z No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5)	en
dc.description.provenance	Made available in DSpace on 2020-04-27T12:40:09Z (GMT). No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5) Previous issue date: 2016-12-19	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Mato Grosso do Sul	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Faculdade de Computação	pt_BR
dc.publisher.program	Programa de pós-graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMS	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Tecnologia educacional	pt_BR
dc.subject	Educational Technology	en
dc.subject	Ciência da computação	pt_BR
dc.subject	Computer science	en
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Novas abordagens de aprendizado semisupervisionado por conectividade ótima	pt_BR
dc.type	Tese	pt_BR
Aparece nas coleções:	Teses

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
UFMS - WillianParaguassuAmorim.pdf		5,74 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas