Best sports: a portuguese collection of documents for semantics-concerned text mining research.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Sinoara, Roberta Akemi | |
dc.contributor.author | Rezende, Solange Oliveira | |
dc.date.accessioned | 2018-04-05T17:16:44Z | |
dc.date.available | 2018-04-05T17:16:44Z | |
dc.date.issued | 2018-04 | |
dc.description.abstract | The availability of labeled text collections is a common need in the text mining research community. These collections are used for both learning and evaluating text mining models. In this technical report, we present the BEST sports collection. This collection of documents written in Portuguese was collected, prepared, and provided to be used as benchmarking collection in text mining research. Considering real application scenarios, we created four datasets, which correspond to problems of different semantic complexity levels. The use of different datasets of the same collection allows the evaluation of text mining methods at different levels of semantic complexity. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 424 | pt_BR |
dc.format | 11 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6710 | |
dc.language.iso | eng | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Mineração de dados e textos | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.title | Best sports: a portuguese collection of documents for semantics-concerned text mining research. | pt_BR |
dc.title.alternative | Best sports: uma coleção de documentos em língua-portuguesa para pesquisa em mineração semântica de texto. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | A disponibilidade de coleções de texto classificadas é uma necessidade comum na comunidade de pesquisa em mineração de texto. Essas coleções são usadas para aprender e avaliar modelos de mineração de texto. Neste relatório técnico, apresentamos a coleção BEST sports. Esta coleção de documentos escritos em português foi coletada, preparada e fornecida para ser utilizada como a coleção de benchmarking na pesquisa de mineração de texto. Considerando cenários reais de aplicação, criamos quatro conjuntos de dados, que correspondem a problemas de diferentes níveis de complexidade semântica. O uso de diferentes conjuntos de dados da mesma coleção permite a avaliação de métodos de mineração de texto em diferentes níveis de complexidade semântica. | pt_BR |