Extração automática de termos de textos em Português: aplicação e avaliação de medidas estatísticas de associação de palavras.

dc.contributorInstituto de Ciências Matemáticas e de Computação – ICMC/USPpt_BR
dc.contributor.authorTeline, Maria Fernanda
dc.contributor.authorManfrin, Aline Maria Pacifico
dc.contributor.authorAluisio, Sandra Maria
dc.date.accessioned2018-09-25T15:37:06Z
dc.date.available2018-09-25T15:37:06Z
dc.date.issued2003-10
dc.description.abstractNeste trabalho, são descritos os passos para a montagem do corpus composto por textos da área de Revestimentos Cerâmicos, da revista eletrônica Cerâmica Industrial, que foi utilizado para a avaliação de medidas estatísticas para a extração de candidatos a termos da área de Revestimentos Cerâmicos. O propósito do trabalho foi avaliar o desempenho das medidas, que são utilizadas primariamente para a extração de n-gramas a partir de um corpus, na tarefa de extração de terminologia. Para a comparação do desempenho delas, utilizamos como lista de referência os termos contidos no Dicionário de Revestimentos (DiRC) que estavam presentes no corpus em questão. Para bigramas não foi possível escolher um dos métodos estatísticos dentre frequência, Informação Mútua, Log-líkelihood e Dice, pois seus resultados apresentaram-se bastante semelhantes. Já para o caso de trígramas, a frequência apresentou um resultado melhor do que as medidas informação mútua e Log-likelihood.pt_BR
dc.description.notesrelatórios Técnicos do ICMC; 216pt_BR
dc.format41 p.pt_BR
dc.identifier.urihttp://repositorio.icmc.usp.br//handle/RIICMC/6863
dc.language.isoporpt_BR
dc.publisher.citySão Carlos, SP, Brasil.pt_BR
dc.subjectInteligência artificialpt_BR
dc.titleExtração automática de termos de textos em Português: aplicação e avaliação de medidas estatísticas de associação de palavras.pt_BR
dc.title.alternativeAutomatic extraction of terms from Portuguese texts: application and evaluation of statistical measures of association of words.pt_BR
dc.type.categoryRelatórios técnicospt_BR
usp.description.abstracttranslatedIn this work, the steps for the assembly of the corpus composed by ceramics, from the electronic magazine Cerâmica Industrial, which was used for the evaluation of statistical measures for the extraction of candidates from area of ​​Ceramic Coatings. The purpose of the study was to evaluate the performance of which are used primarily for the extraction of n-grams from a corpus, in the task of extracting terminology. To compare their performance, we use as a reference list the terms contained in the Dictionary of Coatings (DiRC) l that were present in the corpus in question. For bigramas it was not possible to choose one of the statistical methods among Frequency, Mutual Information, Log- likelihood and Dice, because its results were very similar. In the case of frequency, the frequency had a better result than the Mutual and Log-likelihood.pt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
relatorio_216.pdf
Tamanho:
13 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.29 KB
Formato:
Item-specific license agreed upon to submission
Descrição: