Extração automática de termos de textos em português: aplicação e avaliação de medidas estatísticas e associação de palavras.

Teline, Maria Fernanda; Manfrin, Aline Maria Pacífico; Aluisio, Sandra Maria

Extração automática de termos de textos em português: aplicação e avaliação de medidas estatísticas e associação de palavras.

dc.contributor	Instituto de Ciências Matemáticas e de Computação – ICMC/USP	pt_BR
dc.contributor.author	Teline, Maria Fernanda
dc.contributor.author	Manfrin, Aline Maria Pacífico
dc.contributor.author	Aluisio, Sandra Maria
dc.date.accessioned	2018-08-02T13:06:21Z
dc.date.available	2018-08-02T13:06:21Z
dc.date.issued	2003-10
dc.description.abstract	Neste trabalho, são descritos os passos para a montagem do corpus composto por textos da área de Revestimentos Cerâmicos, da revista eletrônica Cerâmica Industrial, que foi utilizado para a avaliação de medidas estatísticas para a extração de candidatos a termos da área de Revestimentos Cerâmicos. O propósito do trabalho foi avaliar o desempenho das medidas, que são utilizadas primariamente para a extração de n-gramas a partir de um corpus, na tarefa de extração de terminologia. Para a comparação do desempenho delas, utilizamos como lista de referência os termos contidos no Dicionário de Revestimentos (DiRC)1 que estavam presentes no corpus em questão. Para bigramas não foi possível escolher um dos métodos estatísticos dentre Freqüência, Informação Mútua, Log-likelihood e Dice, pois seus resultados apresentaram-se bastante semelhantes. Já para o caso de trigramas, a Freqüência apresentou um resultado melhor do que as medidas Informação Mútua e Log-likelihood.	pt_BR
dc.description.notes	Relatórios Técnicos do ICMC; 216	pt_BR
dc.format	41 p.	pt_BR
dc.identifier.uri	http://repositorio.icmc.usp.br//handle/RIICMC/6792
dc.language.iso	por	pt_BR
dc.publisher.city	São Carlos, SP, Brasil.	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.title	Extração automática de termos de textos em português: aplicação e avaliação de medidas estatísticas e associação de palavras.	pt_BR
dc.title.alternative	Automatic extraction of terms of texts in Portuguese: application and evaluation of statistical measures and association of words.	pt_BR
dc.type.category	Relatórios técnicos	pt_BR
usp.description.abstracttranslated	In this work, the steps for the assembly of the corpus composed by texts of the area of Ceramic Coatings, of the electronic magazine Cerâmica Industrial, which was used for the evaluation of statistical measures for the extraction of candidates for terms of the area of Ceramic Coatings, are described. The purpose of this work was to evaluate the performance of the measures, which are used primarily for the extraction of n-grams from a corpus, in the task of terminology extraction. To compare their performance, we used as reference list the terms contained in the Dictionary of Coatings (DiRC) 1 that were present in the corpus in question. For bigramas it was not possible to choose one of the statistical methods among Frequency, Mutual Information, Log-likelihood and Dice, because their results were very similar. In the case of trigrams, the frequency presented a better result than the measures Mutual Information and Log-likelihood.	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Relatório Técnico_216_2003.pdf
Tamanho:: 417.88 KB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.29 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Publicações do ICMC