Perfil ODS

Universidade Federal de Santa catarina (UFSC)

Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)

Detalhes do Documento Analisado

Centro: Não Informado

Departamento: Não Informado

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Social

Tipo do Documento: Tese

Título: CONTRIBUTIONS TO SUPPORT VECTOR MACHINE CLASSIFIER

Orientador

MARCELO RICARDO STEMMER

Aluno

ALEXANDRE REEBERG DE MELLO

Conteúdo

Através das últimas décadas a área de aprendizado de máquina tem se tornado um dos pilares da tecnologia da informação, e com o aumento crescente da quantidade de dados disponíveis, a tarefa de automaticamente descobrir padrões nos dados é uma das principais atividades da área. um método para achar esses padrões é estimar uma função baseada em dados, e para criar uma função com sucesso de aprendizagem é necessária conter os seguinte tópicos: uma base teórica sólida baseada no princípio da indução, a possibilidade de incluir conhecimento passado, e um método eficiente para ser utilizado na prática. nesta tese nosso foco é no algoritmo de máquina de vetores de suporte (support vector machine, svm) para tarefas de classificação, introduzido por (boser; guyon; vapnik, 1992) (vapnik, 1998) em meados dos anos 90. nós iremos analisar vários aspectos do svm, incluindo a formulação, métodos de treinamento, o ajuste de hiperparâmetros e a aplicabilidade em conjunto de dados de diferentes configurações. baseado nessas análises, nós fizemos três propostas de contribuição. dada a complexidade computacional do svm, na primeira contribuição, nós propusemos um método para viabilizar o uso do svm em grandes conjuntos de dados (casos que o conjunto de dados em questão não cabe na memória disponível) através da pré-seleção de instâncias candidatas que são mais provaveis a melhorar a performance do erro de generalização. o objetivo do método é diminuir o tempo dos processos de treinamento e ajuste de hiperparâmetros degradando o mínimo possível o erro de generalização. a segunda contribuição está relacionada com a tarefa de ajuste de hyperparâmetros, que dependendo do caso pode ser demorada. a utilização do svm com uma função kernel fornece uma liberdade que viabiliza aplicar o método em muitas situações, contudo, a escolha dos hiperparâmetros pode ser um ponto negativo. desta forma, nós propomos um método para ajuste dos hiperparâmetros com propriedades de convergência matemática que utiliza um mínimo local pré-definido como critério de parada, e possui um mecanismo para escapar de eventuais locais mínimos indesejados. muitas tentativas foram feitas para atacar os problemas do svm relacionados ao custo computacional, aprendizado incremental e consumo de memória relacionado a ambos. na última contribuição, nós introduzimos uma nova variação do svm com uma complexidade computacional menor comparado ao svm original, que é capaz de lidar com procedimentos incrementais e decrementais (sem a necessidade de re-treinar completamente), e é eficiente na gestão de memória. nós realizamos uma pesquisa exploratória para compreender as limitações do svm, para que sejamos capazes de formular nossas hipóteses. fizemos uma pesquisa empírica para analisar de maneira mais profunda os métodos através de uma pesquisa bibliográfica por meio de uma revisão sistemática. definimos o escopo da tese como uma variante do svm adequada para conjuntos de dados contínuos e de larga escala, com uma solução eficiente para ajustes de hiperparâmetros. nós conduzimos uma pesquisa quantitativa, com o propósito de validação, que compara diretamente os métodos propostos com trabalhos relacionados utilizando conjuntos de dados refência ou criados de maneira controlada, analisando as saídas de forma numérica (como a exatidão), a complexidade computacional, o tempo de processamento e o consumo de memória ram. nós questionamos a validação em relação aos resultados do protocolo experimental e a aplicabilidade em situações reais. nós desenvolvemos múltiplos procedimentos experimentais para suavizar a incerteza da validação interna e avaliar as variáveis com parâmetros numéricos. a fim de lidar com grande conjuntos de dados nos problemas de aprendizado nós propomos um método amostragem passiva que seleciona um sub-conjunto dos conjunto de treinamento disponível diminuindo a necessidade de recurso computacional, porém mantendo a capacidade de generalização. os resultados do protocolo experimental mostra que o método proposto pré-seleciona intâncias que tem mais chance de serem vetores de suporte (e seus respectivos vizinhos) mesmo em um espaço reduzido, logo, não compromete muito a capacidade de generalização. a maioria ddos métodos de ajuste de parâmetros não fornece propriedades de convergência matemática e um critério dinâmico de parada, o que pode resultar em resultados sub-ótimos. desta maneira, nosso método proposto para seleção de modelo é menos suscetível a resultados sub-ótimos e exige um menor tempo de processamento comparado aos outro métodos. o método proposto fornece ao usuário uma flexibilidade ao permitir a escolha de parâmetros a fim de explorar diferentes estratégias e situações. os experimentos mostram que o método é mais provável a utilizar menos avaliações de funções para obter um bom conjunto de hiperparâmetros. nós introduzimos uma nova variante do svm adequada para o aprendizado incremental e decremental que integra elementos de vários metódos da literatura. o método proposto mantém a flexibilidade do svm e adiciona os procedimentos de incremento e decremento. o conceito difuso incorporado realça a resistência à ruído e melhora a performance da generalização quando utilizamos o modelo linear. a etapa incremental pode ser utilziada em diferentes quantidades, e o procedimento decremental controla a complexidade do modelo. segundo os resultados apresentados, o método possui uma capacidade de generalização competitiva comparada aos melhores métodos disponíveis. nesta tese apresentamos metodologias que visam melhorar as questões de escalabiliadde, eficiência computacional e performance de generalização do svm ou de uma variante, e todos os métodos propotos são adequados para serem utilizados em cenários reais.

Índice de Shannon: 3.82772

Índice de Gini: 0.919416