PreTexT II: descrição da reestruturação da ferramenta de pré-processamento de textos.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Soares, Matheus Victor Brum | |
dc.contributor.author | Prati, Ronaldo C. | |
dc.contributor.author | Monard, Maria Carolina | |
dc.date.accessioned | 2018-03-16T13:46:22Z | |
dc.date.available | 2018-03-16T13:46:22Z | |
dc.date.issued | 2008-10 | |
dc.description.abstract | A quantidade de informação textual armazenada digitalmente vem crescendo a cada dia. No entanto, a nossa capacidade de processar e analisar essa informação não vem acompanhando este crescimento. Dessa maneira, é importante desenvolver processos semi-automáticos para extrair conhecimento relevante dessa informação, tais como o processo de mineração de textos. O pré-processamento de textos é uma das principais etapas da mineração de textos, e também uma das mais custosas. Essa etapa visa transformar texto não estruturado em um formato estruturado, como uma tabela atributo-valor. O PreTexT é uma ferramenta computacional que realiza esse tipo de pré-processamento utilizando funcionalidades como n-grama, stemming, stoplists, cortes por frequência, taxonomias, normalizações, gráficos, medidas tf , tf-idf , tf-linear , boolean, entre outras. Esta ferramenta passou por uma reestruturação e reimplementação recentemente e este trabalho consiste em apresentar as funcionalidades e o modo de uso da nova versão da ferramenta PreTexT. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 333 | pt_BR |
dc.format | 45 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6708 | |
dc.language.iso | por | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.title | PreTexT II: descrição da reestruturação da ferramenta de pré-processamento de textos. | pt_BR |
dc.title.alternative | PreTexT II: description of the restructuring of the preprocessing tool. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | The amount of digitally stored textual information has been growing each day. However, our ability to process and analyze this information has not kept pace with this growth. In this way, it is important semi-automated processes to extract relevant knowledge from information, such as the text mining process. The pr'e-processing of is one of the main stages of text mining, and is also one of the most important costly.This step aims to transform unstructured text into a structured format, as an attribute-value table. PreTexT is a computational tool which performs this type of pre-processing using functionalities such as n-gram, stemming, stoplists, frequency cutoffs, taxonomies, normalizations, graphs, measures tf, tf-idf, tf-linear, boolean, among others. This tool has restructuring and reimplementation recently and this work to present the functionalities and the way of using the new version of the tool PreTexT. | pt_BR |