Avaliação experimental e comparação de algoritmos de seleção de atributos importantes com o algoritmo FDimBF baseado na dimensão fractal.
dc.contributor | Instituto de Ciências Matemáticas e de Computação – ICMC/USP | pt_BR |
dc.contributor.author | Lee, Huei Diana | |
dc.contributor.author | Monard, Maria Carolina | |
dc.contributor.author | Voltolini, Richardson Floriani | |
dc.contributor.author | WU, Feng Chung | |
dc.date.accessioned | 2018-07-03T12:49:22Z | |
dc.date.available | 2018-07-03T12:49:22Z | |
dc.date.issued | 2005-08 | |
dc.description.abstract | Em aprendizado de máquina, a tarefa de pré-processamento do conjunto de dados inclui selecionar os atributos mais importantes para realizar o aprendizado. A seleção de atributos é de fundamental importância pois, no caso de aprendizado supervisionado,atributos não relevantes ou redundantes podem reduzir a precisão e a compreensibilidade das hipóteses induzidas por esses algoritmos. Vários algoritmos para a seleção de atributos relevantes têm sido propostos na literatura. Entretanto, tem sido observado que somente o critério de relevância não é suficiente para a seleção de atributos importantes. Trabalhos recentes têm mostrado que também deve-se levar em conta o critério de redundância para selecionar os atributos importantes, pois atributos redundantes afetam a qualidade das hipóteses induzidas. Vários modelos têm sido propostos para tratar tanto relevância quanto redundância de atributos, porém, alguns desses modelos apresentam um custo computacional muito alto. Um modelo mais recente sugere realizar o tratamento de relevância e redundância como dois processos separados. A vantagem desse modelo é que, por meio dessa separação, é possível diminuir o custo computacional da busca pelo subconjunto que aproxima o subconjunto ótimo de atributos. Neste trabalho é proposto um algoritmo baseado nesse modelo, i.e. que separa as análises de relevância e de redundância. Nesse algoritmo encontram-se implementadas duas medidas para realizar a análise de relevância, uma medida baseada em ganho de informação e outra baseada em distância. Quanto à redundância, é proposto o uso da Dimensão Fractal do subconjunto de atributos relevantes selecionados na etapa anterior. Resultados experimentais utilizando vários conjuntos de dados e diversos algoritmos que selecionam atributos importantes, mostram que a Dimensão Fractal é um critério apropriado para filtrar atributos redundantes no aprendizado supervisionado. | pt_BR |
dc.description.notes | Relatórios Técnicos do ICMC; 264 | pt_BR |
dc.format | 112 p. | pt_BR |
dc.identifier.uri | http://repositorio.icmc.usp.br//handle/RIICMC/6753 | |
dc.language.iso | por | pt_BR |
dc.publisher.city | São Carlos, SP, Brasil. | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.title | Avaliação experimental e comparação de algoritmos de seleção de atributos importantes com o algoritmo FDimBF baseado na dimensão fractal. | pt_BR |
dc.title.alternative | Experimental evaluation and comparison of important attribute selection algorithms with FDimBF algorithm based on fractal dimension. | pt_BR |
dc.type.category | Relatórios técnicos | pt_BR |
usp.description.abstracttranslated | In machine learning, the pre-processing task of the set of includes selecting the most important attributes for learning. The selection of attributes' and of fundamental importance because, in the case of supervised learning, non-relevant or redundant attributes can reduce accuracy and comprehensibility of the hypotheses induced by these algorithms. Several algorithms for attribute selection have been proposed in the literature. However, it has been observed that only the relevancy criterion is not sufficient for the selection of important attributes. Works recent studies have shown that the redundancy criterion should also be taken into to select the important attributes, because redundant attributes affect quality induced hypotheses. Several models have been proposed to address both relevance attribute redundancy, however, some of these models have a computational cost very high. A more recent model suggests performing the treatment of relevance and redundancy as two separate processes. The advantage of this model is that, through this separating, it is possible to reduce the computational cost of searching for the subset that the last-named subset of attributes. In this work, we propose an algorithm based on in this model, i.e. separating the relevance and redundancy analyzes. In this algorithm two measures have been implemented to carry out the relevant analysis, a measure based on information gain and another based on distance. As far as redundancy is concerned, we propose the use of the Fractal Dimension of the subset of selected relevant attributes in the previous step. Experimental results using several data sets and several algorithms that select important attributes, show that the Fractal Dimension is a appropriate criterion for filtering redundant attributes in supervised learning. | pt_BR |