PreTexT II: descrição da reestruturação da ferramenta de pré-processamento de textos.
Data
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
A quantidade de informação textual armazenada digitalmente vem crescendo a cada dia. No entanto, a nossa capacidade de processar e analisar essa informação não vem acompanhando este crescimento. Dessa maneira, é importante desenvolver processos semi-automáticos para extrair conhecimento relevante dessa informação, tais como o processo de mineração de textos. O pré-processamento de textos é uma das principais etapas da mineração de textos, e também uma das mais custosas. Essa etapa visa transformar texto não estruturado em um formato estruturado, como uma tabela atributo-valor. O PreTexT é uma ferramenta computacional que realiza esse tipo de pré-processamento utilizando funcionalidades como n-grama, stemming, stoplists, cortes por frequência, taxonomias, normalizações, gráficos, medidas tf , tf-idf , tf-linear , boolean, entre outras. Esta ferramenta passou por uma reestruturação e reimplementação recentemente e este trabalho consiste em apresentar as funcionalidades e o modo de uso da nova versão da ferramenta PreTexT.