Visual mapping of text collections using an approximation of Kolmogorov complexity.

Telles, Guilheme P.; Minghim, Rosane; Paulovich, Fernando Vieira

Visual mapping of text collections using an approximation of Kolmogorov complexity.

dc.contributor	Instituto de Ciências Matemáticas e de Computação – ICMC/USP	pt_BR
dc.contributor.author	Telles, Guilheme P.
dc.contributor.author	Minghim, Rosane
dc.contributor.author	Paulovich, Fernando Vieira
dc.date.accessioned	2018-07-31T14:10:28Z
dc.date.available	2018-07-31T14:10:28Z
dc.date.issued	2005-06
dc.description.abstract	The generation of content-based text maps is an important issue to support exploration of information and to help find relevant reading material in increasingly complex document databases. Most techniques that help relate or visualize texts rely on a vector representation that is, at its best, ad-hoc as to its parameterization. This paper presents a novel approach capable of generating a map of documents without the painstaking pre-processing steps, by comparing text against text through an approximation of the Kolmogorov complexity. The similarity measure taken from that analysis is then used to map data in 2D by applying fast multidimensional projection techniques (instead of dimensionality reduction or random initial point placement). The resulting maps show a high degree of content separation and good grouping of similar documents. The approach can be used to map text collections in a variety of applications and the map can be interacted with to further explore text groups. By avoiding vector representation our technique decreases the bias characteristic of that approach and the need for user knowledge of the process. The approach also lends itself to incremental processing for reduction of computational costs.	pt_BR
dc.description.notes	Relatórios Técnicos do ICMC; 262	pt_BR
dc.format	21 p.	pt_BR
dc.identifier.uri	http://repositorio.icmc.usp.br//handle/RIICMC/6782
dc.language.iso	eng	pt_BR
dc.publisher.city	São Carlos, SP, Brasil.	pt_BR
dc.subject	Engenharia de software	pt_BR
dc.title	Visual mapping of text collections using an approximation of Kolmogorov complexity.	pt_BR
dc.title.alternative	Mapeamento visual de coleções de texto usando uma aproximação da complexidade de Kolmogorov.	pt_BR
dc.type.category	Relatórios técnicos	pt_BR
usp.description.abstracttranslated	A geração de mapas de texto baseados em conteúdo é um importante questão para apoiar a exploração da informação e para ajudar a encontrar lendo material em bancos de dados de documentos cada vez mais complexos. A maioria das técnicas que ajudam a relacionar ou visualizar textos dependem de uma representação vetorial isto é, no seu melhor, ad-hoc quanto à sua parametrização. Este artigo apresenta uma nova abordagem capaz de gerar um mapa de documentos sem a etapas meticulosas de pré-processamento, comparando texto com texto uma aproximação da complexidade de Kolmogorov. A medida de similaridade tomadas a partir dessa análise é então usado para mapear dados em 2D aplicando rapidamente técnicas de projeção multidimensional (ao invés de redução de dimensionalidade ou posicionamento de ponto inicial aleatório). Os mapas resultantes mostram uma alta grau de separação de conteúdo e bom agrupamento de documentos semelhantes. A abordagem pode ser usada para mapear coleções de texto em uma variedade de aplicativos e o mapa pode ser interagido para explorar mais o texto grupos. Evitando a representação vetorial, nossa técnica diminui a viés característica dessa abordagem e da necessidade de conhecimento do usuário o processo. A abordagem também se presta ao processamento incremental para redução de custos computacionais.	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Relatório Técnico_262_2005.pdf
Tamanho:: 951.22 KB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.29 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Publicações do ICMC