Anotação de subtópicos do córpus multidocumento CSTNews.

Resumo

A segmentação topical visa a dividir um texto em segmentos topicalmente coerentes. Esse procedimento pode ser muito útil para aplicações de Processamento de Linguagem Natural, tais como recuperação de informação, sumarização automática e sistemas de perguntas e respostas. Assume-se que um texto tem um tópico principal, que é o assunto sobre o qual se escreve ou discute, e que esse assunto pode ser descrito em uma sequência de subtópicos. Tais subtópicos podem mudar continuamente, sendo que algumas mudanças são mais sutis do que outras. Visando criar uma segmentação de subtópicos de referência, este relatório descreve o processo de anotação de subtópicos do córpus CSTNews, um córpus multidocumento de notícias jornalísticas em português do Brasil. As diretrizes de anotação e seus resultados são apresentados e discutidos. Esta segmentação foi desenvolvida para fins de investigação na área de Sumarização Automática de textos.

Descrição
Palavras-chave
Linguistica computacional, Inteligência artificial
Citação