Anotação de aspectos textuais em sumários do córpus CSTNews.

Resumo

Neste relatório técnico discorre-se sobre a anotação de aspectos textuais nos sumários manuais multidocumento do Córpus CSTNews. Esse córpus foi construído principalmente com vistas à Sumarização Automática Multidocumento. Ele é composto por coleções de textos jornalísticos provenientes de agências de notícias on-line conhecidas do Brasil. Especificamente, cada coleção contém em média 3 textos sobre um mesmo assunto, e cada texto advém de uma agência distinta. A partir do CSTNews, vários subcórpus foram construídos. Um deles é composto pelos sumários manuais elaborados para cada uma das coleções, ou seja, existe um sumário manual multidocumento para cada coleção. A anotação manual de aspectos foi feita para esses sumários multidocumento. Os aspectos em foco nessa anotação indicam diferentes tipos de informação que podem ser veiculados por um texto. Podem, por exemplo, referir-se a papéis semânticos como agente (quem), objeto (o que), modo (como), tempo (quando), etc., e, muitas vezes são dependentes do assunto, ou categoria à qual o texto pertence (p.ex.: esporte, mundo, etc.). Essa anotação dos sumários multidocumento do Córpus CSTNews visa trazer mais informatividade às tarefas automáticas, para melhorar sua qualidade. Para a Sumarização Automática Multidocumento, os aspectos podem indicar estruturas padrão (templates) para a modelagem de critérios de seleção e organização do conteúdo nos sumários.

Descrição
Palavras-chave
Linguística de corpus, Processamento de linguagem natural
Citação