Defesa de Tese de Doutorado: Coevolução aplicada à construção de modelos de Aprendizado de Máquina
-
Palestrantes
Aluno: Celio Henrique Nogueira Larcher junior
-
Informações úteis
Orientadores:
Helio José Corrêa Barbosa - Laboratório Nacional de Computação Científica - LNCC
Banca Examinadora:
Helio José Corrêa Barbosa - Laboratório Nacional de Computação Científica - LNCC (presidente)
Laurent Emmanuel Dardenne - Laboratório Nacional de Computação Científica - LNCC
Fábio Lima Custódio - Laboratório Nacional de Computação Científica - LNCC
Nelson Francisco Favilla Ebecken - COPPE/UFRJ - UFRJ
Gisele Pappa - UFMG
André da Motta Salles Barreto - GOOGLE
Frederico Gadelha Guimarães - UFMG - UFMG
Suplentes:
Gilson Antônio Giraldi - Laboratório Nacional de Computação Científica - LNCC
Resumo:Aprendizado de máquina automatizado (Auto-ML) é um campo de pesquisa em crescimento e recebendo grande atenção atualmente. Múltiplas técnicas têm sido desenvolvidas visando aprimorar o processo de automação para construção de pipelines de aprendizado de máquina, utilizando diversos tipos de abordagem e com algum sucesso, mas o problema ainda está distante de ser considerado como resolvido.
Muito desta dificuldade se deve ao custo computacional do processo, dado que a avaliação de uma única solução de aprendizado de máquina pode ser custosa por si só. Como a construção de uma boa solução envolve a avaliação de diversas configurações, fica evidente a necessidade de técnicas eficientes na exploração desse complexo espaço de busca. Ainda, ensembles – combinações de modelos individuais em um “super” modelo – são frequentemente empregados em aprendizado de máquina dada sua maior capacidade preditiva e robustez quando comparados à utilização de modelos individuais. Entretanto, até o momento, não foi dada muita atenção aos mesmos no contexto de Auto-ML.
Neste sentido, este trabalho apresenta o Auto-CVE (Automated Coevolutionary Voting Ensemble), uma nova abordagem para Auto-ML. Baseada no processo de evolução algorítmica, tal ferramenta divide a construção de modelos baseados em ensembles em dois processos: i) a busca por bons componentes a serem utilizados em ensembles e ii) a busca por formas de se combinar os componentes encontrados em ensembles. Consegue-se assim um processo eficiente de exploração do espaço de busca, podendo um único modelo ser testado em diversas composições de ensembles evitando repetitivas etapas de treinamento. Como uma segunda contribuição, foi proposta a amostragem dinâmica, uma metodologia de avaliação de modelos que se baseia na utilização de holdout. A principal alteração em relação à utilização usual de holdout está em ser concebida como um processo geracional, modificando iterativamente os conjuntos de treinamento e teste, de forma a renovar as avaliações obtidas periodicamente e evitar que o processo de busca se guie por muito tempo por uma avaliação incorreta. Comparado a duas populares técnicas de Auto-ML, o Auto-CVE atinge resultados competitivos tanto em tempo computacional quanto capacidade preditiva. Além disso, o uso da amostragem dinâmica no Auto-CVE acentua tal observação, sendo igual ou superior à utilização de validação cruzada em ambos os aspectos.
- Mais informações