An account of the challenge of tagging a reference corpus of Brazilian Portuguese.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Aluisio, Sandra Maria | |
dc.contributor.author | Pelizzoni, Jorge Marques | |
dc.contributor.author | Marchi, Ana Raquel | |
dc.contributor.author | Oliveira, Lucélia Helena de | |
dc.contributor.author | Manenti, Regiana | |
dc.contributor.author | Marquiafável, Vanessa | |
dc.contributor.author | Teles, Jorge | |
dc.date.accessioned | 2019-02-06T10:34:39Z | |
dc.date.available | 2019-02-06T10:34:39Z | |
dc.date.issued | 2003-02 | |
dc.description.abstract | This article identifies and addresses the major issues faced in the manual morphosyntactic annotation of a huge corpus, named MACMorpho, a Brazilian Portuguese corpus of newspaper articles in the Lacie-Web Project. Rather than simply presenting the annotated corpus and describing its tagset, we elaborate on the criteria for establishing the tagset, make an account of how the annotation process was designed and conducted, including the results of the inter-annotator agreement evaluation for MAC-Morpho, and analyze some interesting cases amongst the linguistic problems we faced in this work. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 188 | pt_BR |
dc.format | 18 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6881 | |
dc.language.iso | eng | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.title | An account of the challenge of tagging a reference corpus of Brazilian Portuguese. | pt_BR |
dc.title.alternative | Um relato do desafio de marcar um corpus de referência do português brasileiro. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | Este artigo identifica e aborda as principais questões enfrentadas no anotação morfossintática manual de um enorme corpus, denominado MACMorpho, um corpus de artigos de jornais portugueses do Brasil no Lacie - Projeto da Web. Em vez de simplesmente apresentar o corpus anotado e descrevendo seu conjunto de tags, elaboramos os critérios para estabelecer o tagset, faça uma conta de como o processo de anotação foi projetado e conduzido, incluindo os resultados do contrato de inter-anotação avaliação para MAC-Morpho, e analisar alguns casos interessantes entre os problemas linguísticos que enfrentamos neste trabalho. | pt_BR |