SiSPI: a short-passage clustering system.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Seno, Eloize R.M. | |
dc.contributor.author | Nunes, Maria das Graças Volpe | |
dc.date.accessioned | 2018-06-08T14:19:32Z | |
dc.date.available | 2018-06-08T14:19:32Z | |
dc.date.issued | 2008-01 | |
dc.description.abstract | We describe SiSPI, a clustering tool based on an unsupervised and incremental approach which aims at arranging short passages from one or multiple documents written in Brazilian Portuguese into clusters. In order to identify similar passages, SiSPI makes use of a statistical model, named TF-ISF (Term Frequency - Inverse Sentence Frequency). By grouping similar passages into the same cluster, SiSPI enables a subsequent alignment/fusion component to transform each cluster into a single sentence by fusing common information. We present a pilot experiment which evaluates the system performance in the news domain. The results obtained suggest that SiSPI has potential. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 316 | pt_BR |
dc.format | 12 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6735 | |
dc.language.iso | eng | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Linguistica computacional | pt_BR |
dc.subject | Clusters | pt_BR |
dc.title | SiSPI: a short-passage clustering system. | pt_BR |
dc.title.alternative | SiSPI: um sistema de cluster de passagem curta. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | Descrevemos o SiSPI, uma ferramenta de agrupamento baseada em um modelo não supervisionado e incremental abordagem que visa organizar curtas passagens de um ou vários documentos escrito em português brasileiro em clusters. Para identificar passagens semelhantes, o SiSPI faz uso de um modelo estatístico, denominado TF-ISF (Term Frequency - Inverse Freqüência de Sentença). Ao agrupar passagens semelhantes no mesmo cluster, o SiSPI permite que um componente subsequente de alinhamento / fusão transforme cada cluster em um sentença única ao fundir informações comuns. Nós apresentamos um experimento piloto que avalia o desempenho do sistema no domínio de notícias. Os resultados obtidos sugerem que o SiSPI tenha potencial. | pt_BR |