Use este identificador para citar ou linkar para este item: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
Tipo: Trabalho de Conclusão de Curso
Título: Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
Título(s) alternativo(s): Capture and extract structure and sentences of technical articles available on the web
Autor(es): Coutinho, Jeovano
Primeiro Orientador: Batista Junior, Joinvile
metadata.dc.contributor.referee1: Odakura, Valguima Victoria Viana Aguiar
metadata.dc.contributor.referee2: Barvinski, Carla Adriana
Resumo: Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural.
Abstract: This work presents an automated solution for structures and sentence extraction of technical articles available on the web in PDF format through an application with a friendly user interface. The application has a web scrapper for identification and download of the technical articles from the web. In the structures and sentence extraction process, heuristics are used with regular expressions for contents identifying present on technical articles as paragraphs, sections, footers, figures, items list, and references. The final result is an XML file describing the extracted structure from the processed technical articles. The obtained sentences from the structure of technical articles are used as input to many natural language processing activities.
Palavras-chave: Processamento de linguagem natural (Ciência da computação)
Natural language processing (Computer science)
Coleta de dados web
Web scraping
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Idioma: por
País: Brasil
Editor: Universidade Federal da Grande Dourados
Sigla da Instituição: UFGD
metadata.dc.publisher.department: Faculdade de Ciências Exatas e Tecnologia
Citação: COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019.
Tipo de Acesso: Acesso Aberto
URI: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
Data do documento: 22-Nov-2019
Aparece nas coleções:Sistemas de Informação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
JeovanoDeOliveiraCoutinho.pdf979,84 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.