Use este identificador para citar ou linkar para este item:
http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor1 | Batista Junior, Joinvile | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7711394117839430 | pt_BR |
dc.contributor.referee1 | Odakura, Valguima Victoria Viana Aguiar | - |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/0165414661753032 | pt_BR |
dc.contributor.referee2 | Barvinski, Carla Adriana | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/2994481069591021 | pt_BR |
dc.creator | Coutinho, Jeovano | - |
dc.creator.Lattes | http://lattes.cnpq.br/7711394117839430 | pt_BR |
dc.date.accessioned | 2020-03-03T18:36:48Z | - |
dc.date.available | 2022-12-31 | - |
dc.date.available | 2020-03-03T18:36:48Z | - |
dc.date.issued | 2019-11-22 | - |
dc.identifier.citation | COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019. | pt_BR |
dc.identifier.uri | http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574 | - |
dc.description.abstract | This work presents an automated solution for structures and sentence extraction of technical articles available on the web in PDF format through an application with a friendly user interface. The application has a web scrapper for identification and download of the technical articles from the web. In the structures and sentence extraction process, heuristics are used with regular expressions for contents identifying present on technical articles as paragraphs, sections, footers, figures, items list, and references. The final result is an XML file describing the extracted structure from the processed technical articles. The obtained sentences from the structure of technical articles are used as input to many natural language processing activities. | en |
dc.description.resumo | Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural. | pt_BR |
dc.description.provenance | Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-03-03T18:36:48Z No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2020-03-03T18:36:48Z (GMT). No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5) Previous issue date: 2019-11-22 | en |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal da Grande Dourados | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Faculdade de Ciências Exatas e Tecnologia | pt_BR |
dc.publisher.initials | UFGD | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Processamento de linguagem natural (Ciência da computação) | pt_BR |
dc.subject | Natural language processing (Computer science) | en |
dc.subject | Coleta de dados web | pt_BR |
dc.subject | Web scraping | en |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO | pt_BR |
dc.title | Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web | pt_BR |
dc.title.alternative | Capture and extract structure and sentences of technical articles available on the web | en |
dc.type | Trabalho de Conclusão de Curso | pt_BR |
Aparece nas coleções: | Sistemas de Informação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
JeovanoDeOliveiraCoutinho.pdf | 979,84 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.