An account of the challenge of tagging a reference corpus of Brazilian Portuguese.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Aluisio, Sandra Maria | |
dc.contributor.author | Pelizzoni, Jorge Marques | |
dc.contributor.author | Marchi, Ana Raquel | |
dc.contributor.author | Oliveira, Lucélia Helena de | |
dc.contributor.author | Manenti, Regiana | |
dc.contributor.author | Marquiafável, Vanessa | |
dc.contributor.author | Teles, Jorge | |
dc.date.accessioned | 2018-08-03T14:16:41Z | |
dc.date.available | 2018-08-03T14:16:41Z | |
dc.date.issued | 2003-02 | |
dc.description.abstract | This article identifies and addresses the major issues faced in the manual morphosyntactic annotation of a huge corpus, named MAC-Morpho, a Brazilian Portuguese corpus of newspaper articles in the Lacio-Web Project. Rather than simply presenting the annotated corpus and describing its tagset, we elaborate on the criteria for establishing the tagset, make an account of how the annotation process was designed and conducted, including the results of the inter-annotator agreement evaluation for MAC-Morpho, and analyze some interesting cases amongst the linguistic problems we faced in this work. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 188 | pt_BR |
dc.format | 18 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6798 | |
dc.language.iso | eng | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.title | An account of the challenge of tagging a reference corpus of Brazilian Portuguese. | pt_BR |
dc.title.alternative | Um relato do desafio de marcar um corpus de referência do português brasileiro. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | Este artigo identifica e aborda as principais questões enfrentadas na anotação morfossintática manual de um corpus imenso, denominado MAC-Morpho, um corpus de artigos de jornais do Português Brasileiro no Projeto Lacio-Web. Em vez de simplesmente apresentar o corpus anotado e descrever seu conjunto de tags, elaboramos os critérios para estabelecer o conjunto de tags, explicamos como o processo de anotação foi projetado e conduzido, incluindo os resultados da avaliação do acordo entre os notificadores para MAC-Morpho, e analisar alguns casos interessantes entre os problemas linguísticos que enfrentamos neste trabalho. | pt_BR |