Classificadores KNN e DMC utilizando o MATLABGerson Vieira Albuquerque Neto Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE – 2017.1 1 Resumo Esse relatório tem o objetivo de mostrar os resultados obtidos na classificação utilizando a base de dados Iris e da Coluna 2C e 3C com KNN e DMC. Os códigos foram desenvolvidos no Matlab utilizando as práticas sugeridas em sala de aula e pesquisas na internet. 2 Base de Dados 2.1 Base de dados da flor de íris Foi utilizada uma base de dados disponibilizada próprio Matlab, que fornece os dados de entrada e saída para cada uma das 3 classes da (Iris Setosa, Iris Versicolour, Iris Virginica). Cada uma possui 4 parâmetros, sendo eles o comprimento e largura da sépala e pétala. No total são 150 amostras de Iris, sendo 50 para cada classe. A base de dados (dataset) foi dividida usando o modelo holdout, que consiste em dividir o conjunto total de dados em dois subconjuntos mutuamente exclusivos, que serão utilizados para treinamento e teste. 2.2 Base de Dados da Coluna Vertebral A base contém parâmetros biomecânicos e foi utilizada a que está no Site UCI Machine Learning (http://archive.ics.uci.edu/ml/datasets/Vertebral+Column). Assim como a Iris, a base de dados (dataset) foi dividida usando o modelo holdout, para treinamento e teste. 3 KNN 3.1 Resultados obtidos 3.1.1 Variação do valor de K Foram feitos uma série de teste variando o valor de K de 1 até 105. O valor 105 se dá devido ao holdout utilizado, para 70% de treinamento e 30% de testes. Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof. No gráfico.Mestrado em Ciências da Computação – IFCE – 2017. Já nas figuras 2 e 3 temos uma amostra com 217 repetições. com o K progredindo de 1 a 105. sem desvios. todos tiveram o melhor resultado com K até o valor de 15.Aprendizado de Máquina . Ajalmar . começa uma queda na média dos acertos. . Com K a partir de aproximadamente 70.1 Figura 1.Testes com a Iris: Média das acurácias 30 repetições. mas de 10 execuções. continuando assim até que em aproximadamente K=70 há uma queda brusca na qualidade da classificação. Nota-se que a partir de K=20.93%. Tendo novamente em K=100 uma queda. Nota-se que para 2C a partir de K=140que se mantém até o final. a média começa a cair bruscamente A figura 1 mostra o percentual de acertos com 30 repetições em cada K. a partir de K=182 há a mesma queda também se mantendo sem desvios. a melhor classificação foi obtida em K=8. levando a baixos níveis de classificação. onde casa é feita 20 vezes para a coluna 2C e 3c. Isso não quer dizer que esse sempre o melhor resultado. com uma média de 96. Em 3C. 1. Ajalmar . levando em consideração todos os testes realizados nas repetições. Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof.2 Classes Particularmente. não consegui no Matlab realizar uma programação para desenhar as áreas das classes.3C: MAX em k = 16.2C: MAX em k = 22. .1 Figura 2 .7% de acertos 3. com 84. com 75% de acertos Figura 3. então deixei as classes separadas por acertos.Mestrado em Ciências da Computação – IFCE – 2017.Aprendizado de Máquina . conforme as figuras 4 e 5. Mestrado em Ciências da Computação – IFCE – 2017. Ajalmar .Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof.1 Figura 4 .Aprendizado de Máquina .Classes divididas por cor em Coluna 3C .Classes divididas por cor em Coluna 2C Figura 5 . Mestrado em Ciências da Computação – IFCE – 2017. Dentre os testes individuais. Ajalmar .1 3. .Matriz Confusão: Obtida para K igual a 15. esse valor mostra a melhor acurácia.3 Matrix Confusão Iris Figura 6 . Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof.Aprendizado de Máquina .1. 1. e em cada percentual foram realizadas 30 execuções gerando médias que variaram entre 90% e 94% (Figura 8).1 Variação do Holdout Para a Iris. Figura 7 .Aprendizado de Máquina . que mostra diferentes picos de boa classificação . os testes foram executados efetuando uma variação no Holdout entre 30% a 95%. conforme mostrado na figura 7.Variação dos Testes. Ajalmar .Mestrado em Ciências da Computação – IFCE – 2017. A organização randômica da base de dados faz com que a posição do centroide varie durante a execução. Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof. assim os resultados obtidos geram diferentes gráficos. Cada "bola" é um holdout diferente.1 Resultados obtidos 4.1 4 DMC 4. 1 Figura 8 . Em cada percentual foram realizadas 30 execuções gerando médias que variaram entre 76% e 78.Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof. os testes foram executados efetuando uma variação no Holdout entre 50% a 95%.1% e média de 76.Aprendizado de Máquina . A mudança se deu.8% para a coluna 3C (Figura 10).36% de acerto.Nesse caso.2C: MAX de 78. pois. Para a Coluna. o melhor resultado foi um holdout 50/50. com 92. testes com percentuais menores que 50% não estavam mostrando tantas variações no resultado. Ajalmar .1% para a Coluna 2C (Figura 9) e entre 72% e 74.9% . Figura 9 .Mestrado em Ciências da Computação – IFCE – 2017. Divisão de Classes da Coluna 2C .1.8% e média de 74.Aprendizado de Máquina .3C: MAX de 74. Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof. Ajalmar .52% 4.Mestrado em Ciências da Computação – IFCE – 2017.1 Figura 10 .2 Classes Figura 11 . 1.Matriz confusão da Iris com Holdout de 80% para treinamento .Divisão de Classes da Coluna 3C 4.Mestrado em Ciências da Computação – IFCE – 2017.3 Matriz confusão Iris Figura 13 .Aprendizado de Máquina . Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof.1 Figura 12 . Ajalmar . O DMC apesar dos resultados menos satisfatórios. O DMC além de não apresentar resultados tão satisfatórios como do KNN. possui um desempenho bem mais alto e deve ser levado em consideração dependendo do grau de necessidade de confiabilidade no que venha a ser classificado. Classificadores KNN e DMC utilizando o MATLAB Gerson Vieira Albuquerque Neto Prof. No KNN percebe-se uma maior regularidade entre testes. visto que em todas as execuções é possível compara-lo com vizinhos à medida que o K cresce.Aprendizado de Máquina . também apresenta muita instabilidade à medida que se executam mais testes. o que traz em média resultados parecidos. Ajalmar . se utilizando apenas de uma comparação com a centróide daquela execução. .Mestrado em Ciências da Computação – IFCE – 2017. isso devido a maneira como os dados são classificados.1 5 Considerações finais Foram apresentados os resultados de classificação utilizando KNN e DMC.