Use este identificador para citar ou linkar para este item:
http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
Tipo: | Trabalho de Conclusão de Curso |
Título: | Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
Título(s) alternativo(s): | Capture and extract structure and sentences of technical articles available on the web |
Autor(es): | Coutinho, Jeovano |
Primeiro Orientador: | Batista Junior, Joinvile |
metadata.dc.contributor.referee1: | Odakura, Valguima Victoria Viana Aguiar |
metadata.dc.contributor.referee2: | Barvinski, Carla Adriana |
Resumo: | Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural. |
Abstract: | This work presents an automated solution for structures and sentence extraction of technical articles available on the web in PDF format through an application with a friendly user interface. The application has a web scrapper for identification and download of the technical articles from the web. In the structures and sentence extraction process, heuristics are used with regular expressions for contents identifying present on technical articles as paragraphs, sections, footers, figures, items list, and references. The final result is an XML file describing the extracted structure from the processed technical articles. The obtained sentences from the structure of technical articles are used as input to many natural language processing activities. |
Palavras-chave: | Processamento de linguagem natural (Ciência da computação) Natural language processing (Computer science) Coleta de dados web Web scraping |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal da Grande Dourados |
Sigla da Instituição: | UFGD |
metadata.dc.publisher.department: | Faculdade de Ciências Exatas e Tecnologia |
Citação: | COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019. |
Tipo de Acesso: | Acesso Aberto |
URI: | http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574 |
Data do documento: | 22-Nov-2019 |
Aparece nas coleções: | Sistemas de Informação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
JeovanoDeOliveiraCoutinho.pdf | 979,84 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.