SiSPI: a short-passage clustering system.

dc.contributorInstituto de Ciências Matemáticas e de Computação – ICMC/USPpt_BR
dc.contributor.authorSeno, Eloize R.M.
dc.contributor.authorNunes, Maria das Graças Volpe
dc.date.accessioned2018-06-08T14:19:32Z
dc.date.available2018-06-08T14:19:32Z
dc.date.issued2008-01
dc.description.abstractWe describe SiSPI, a clustering tool based on an unsupervised and incremental approach which aims at arranging short passages from one or multiple documents written in Brazilian Portuguese into clusters. In order to identify similar passages, SiSPI makes use of a statistical model, named TF-ISF (Term Frequency - Inverse Sentence Frequency). By grouping similar passages into the same cluster, SiSPI enables a subsequent alignment/fusion component to transform each cluster into a single sentence by fusing common information. We present a pilot experiment which evaluates the system performance in the news domain. The results obtained suggest that SiSPI has potential.pt_BR
dc.description.notesRelatórios Técnicos do ICMC; 316pt_BR
dc.format12 p.pt_BR
dc.identifier.urihttp://repositorio.icmc.usp.br//handle/RIICMC/6735
dc.language.isoengpt_BR
dc.publisher.citySão Carlos, SP, Brasil.pt_BR
dc.subjectLinguistica computacionalpt_BR
dc.subjectClusterspt_BR
dc.titleSiSPI: a short-passage clustering system.pt_BR
dc.title.alternativeSiSPI: um sistema de cluster de passagem curta.pt_BR
dc.type.categoryRelatórios técnicospt_BR
usp.description.abstracttranslatedDescrevemos o SiSPI, uma ferramenta de agrupamento baseada em um modelo não supervisionado e incremental abordagem que visa organizar curtas passagens de um ou vários documentos escrito em português brasileiro em clusters. Para identificar passagens semelhantes, o SiSPI faz uso de um modelo estatístico, denominado TF-ISF (Term Frequency - Inverse Freqüência de Sentença). Ao agrupar passagens semelhantes no mesmo cluster, o SiSPI permite que um componente subsequente de alinhamento / fusão transforme cada cluster em um sentença única ao fundir informações comuns. Nós apresentamos um experimento piloto que avalia o desempenho do sistema no domínio de notícias. Os resultados obtidos sugerem que o SiSPI tenha potencial.pt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Relatório Técnico_316_2008.pdf
Tamanho:
144.1 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.29 KB
Formato:
Item-specific license agreed upon to submission
Descrição: