Publicações do ICMC
URI Permanente para esta coleção
Navegar
Navegando Publicações do ICMC por Assunto "Aprendizado de máquina"
Agora exibindo 1 - 2 de 2
Resultados por página
Opções de Ordenação
- ItemBest sports: a portuguese collection of documents for semantics-concerned text mining research.(2018-04) Sinoara, Roberta Akemi; Rezende, Solange OliveiraThe availability of labeled text collections is a common need in the text mining research community. These collections are used for both learning and evaluating text mining models. In this technical report, we present the BEST sports collection. This collection of documents written in Portuguese was collected, prepared, and provided to be used as benchmarking collection in text mining research. Considering real application scenarios, we created four datasets, which correspond to problems of different semantic complexity levels. The use of different datasets of the same collection allows the evaluation of text mining methods at different levels of semantic complexity.
- ItemPRED.ARG: ferramenta para gerar representações de documentos com base em papéis semânticos.(2018-04) Gomes, Matheus Marzola; Sinoara, Roberta Akemi; Rezende, Solange OliveiraNeste relatório técnico é apresentada a ferramenta PRED.ARG, desenvolvida para gerar representações de coleções de documentos que foram propostas por Persson et al. (2009). As representações de Persson et al. (2009) consideradas neste trabalho são geradas a partir de estruturas de predicador e argumentos identificadas e anotadas em textos escritos em língua natural. Essas representações fazem uso de informações sobre os papéis semânticos, visando a obtenção de atributos mais expressivos e, consequentemente, uma representação mais rica do que a bag of words. Esse trabalho foi desenvolvido com o objetivo de possibilitar a comparação das representações de Persson et al. (2009) com outras representações em diferentes tarefas de Mineração de Textos, além de disponibilizar a implementação para pesquisas futuras. A ferramenta possibilita a geração de diferentes representações de coleções de documentos. Ela recebe como entrada um conjunto de documentos pré-processados em um padrão pré-definido e gera como saída um arquivo CSV que representa a coleção de documentos.