Extração automática de termos de textos em Português: aplicação e avaliação de medidas estatísticas de associação de palavras.

Teline, Maria Fernanda; Manfrin, Aline Maria Pacifico; Aluisio, Sandra Maria

Extração automática de termos de textos em Português: aplicação e avaliação de medidas estatísticas de associação de palavras.

Arquivos

relatorio_216.pdf(13 MB)

Data

2003-10

Autores

Teline, Maria Fernanda

Manfrin, Aline Maria Pacifico

Aluisio, Sandra Maria

Resumo

Neste trabalho, são descritos os passos para a montagem do corpus composto por textos da área de Revestimentos Cerâmicos, da revista eletrônica Cerâmica Industrial, que foi utilizado para a avaliação de medidas estatísticas para a extração de candidatos a termos da área de Revestimentos Cerâmicos. O propósito do trabalho foi avaliar o desempenho das medidas, que são utilizadas primariamente para a extração de n-gramas a partir de um corpus, na tarefa de extração de terminologia. Para a comparação do desempenho delas, utilizamos como lista de referência os termos contidos no Dicionário de Revestimentos (DiRC) que estavam presentes no corpus em questão. Para bigramas não foi possível escolher um dos métodos estatísticos dentre frequência, Informação Mútua, Log-líkelihood e Dice, pois seus resultados apresentaram-se bastante semelhantes. Já para o caso de trígramas, a frequência apresentou um resultado melhor do que as medidas informação mútua e Log-likelihood.

Palavras-chave

Inteligência artificial

URI

http://repositorio.icmc.usp.br//handle/RIICMC/6863

Coleções

Publicações do ICMC

Página do item completo