Rule-based topic mining to assist user-centered visual exploration of document collections.

dc.contributorInstituto de Ciências Matemáticas e de Computação – ICMC/USPpt_BR
dc.contributor.authorPinho, Roberto
dc.contributor.authorOliveira, Maria Cristina Ferreira de
dc.contributor.authorMinghim, Rosane
dc.contributor.authorLopes, Alneu de Andrade
dc.contributor.authorRodrigues, Renato
dc.date.accessioned2018-02-09T14:11:52Z
dc.date.available2018-02-09T14:11:52Z
dc.date.issued2009-06
dc.description.abstractWe propose a three step iterative and interactive visual text mining process to assist users in exploring document collections. In the proposed approach (i) topics are automatically extracted from a document collection , (ii) users explore a similarity-based document map and its related topics, while refining a topic list, and (iii) map quality itself and topic list definition can both be improved based on user interaction. A selective and sequential covering association rule induction strategy is employed to extract the topics. In this strategy, association rules are sequentially induced from selected (manually or automatically) groupings in the similarity-based document maps. Resulting topics are displayed on a Topic Tree control window that assists users in exploring the collection by (i) identifying documents related to specific topics in the map, (ii) removing uninteresting documents from the map, based on their topics, (iii) comparing related topics and documents, (iv) extracting new topics from user selected map regions or from the entire map, (v) building derived maps, and, (vi) eventually exporting sets of labeled documents. Derived maps inherit the previous topic definitions, while benefiting from the removal of undesired documents and, optionally, from the use of terms descriptive of relevant topics to compute document similarity. We present two case studies – on an online news corpus and on a collection of scientific papers – to illustrate our process and its suitability to explore document collections.pt_BR
dc.description.notesRelatórios Técnicos do ICMC; 345pt_BR
dc.format15 p.pt_BR
dc.identifier.urihttp://repositorio.icmc.usp.br//handle/RIICMC/6687
dc.language.isoengpt_BR
dc.publisher.citySão Carlos, SP, Brasil.pt_BR
dc.subjectComputação gráficapt_BR
dc.subjectProcessamento de imagenspt_BR
dc.titleRule-based topic mining to assist user-centered visual exploration of document collections.pt_BR
dc.title.alternativeMineração de tópicos com base em regras para auxiliar a exploração visual centrada no usuário de coleções de documentos.pt_BR
dc.type.categoryRelatórios técnicospt_BR
usp.description.abstracttranslatedPropomos uma mineração de texto visual iterativo e interativo de três passos processo para ajudar os usuários a explorar coleções de documentos. Na proposta abordagem (i) os tópicos são extraídos automaticamente de um documento coleção, (ii) os usuários exploram um mapa de documento baseado em similaridade e seu tópicos relacionados, enquanto refinando uma lista de tópicos, e (iii) qualidade do mapa em si e A definição da lista de tópicos pode ser melhorada com base na interação do usuário. UMA estratégia de indução de regra de associação seletiva e seqüencial de cobertura é empregado para extrair os tópicos. Nesta estratégia, as regras de associação são sequencialmente induzido por grupos selecionados (manual ou automaticamente) nos mapas de documentos baseados em similaridades. Os tópicos resultantes são exibidos em uma janela de controle de Árvore de tópicos que auxilia os usuários a explorar a coleção por (i) identificação de documentos relacionados a tópicos específicos no mapa, (ii) removendo documentos desinteressantes do mapa, com base em seus tópicos, (iii) comparando tópicos e documentos relacionados, (iv) extraindo novos tópicos das regiões do mapa selecionadas pelo usuário ou do mapa inteiro, (v) construção mapas derivados e, (vi) eventualmente exportando conjuntos de documentos rotulados. Os mapas derivados herdam as definições do tópico anterior, ao mesmo tempo em que se beneficiam de remoção de documentos indesejados e, opcionalmente, do uso de termos descritivo de tópicos relevantes para calcular a similaridade do documento. Apresentamos dois estudos de caso - em um corpus de notícias on-line e em uma coleção de informações científicas papéis - para ilustrar nosso processo e sua adequação para explorar o documento coleções. .pt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Relatório Técnico_345_2009.pdf
Tamanho:
521.87 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.29 KB
Formato:
Item-specific license agreed upon to submission
Descrição: