Defesa de Dissertação de Mestrado: Um Caso de Estudo de Aprendizado de Máquina para Otimizar Configurações de Submissões de Gateways Científicos Baseado no BioinfoPortal
-
Palestrantes
Aluno: Micaella Coelho Valente de Paula
-
Informações úteis
Orientadores:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC
Banca Examinadora:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC (presidente)
Marcelo Trindade dos Santos - Laboratório Nacional de Computação Científica - LNCC
Francieli Boito - UFRGS
Suplentes:
Fábio Lima Custódio - Laboratório Nacional de Computação Científica - LNCC
Luiz Manoel Rocha Gadelha Júnior - Laboratório Nacional de Computação Científica - LNCC
Resumo:O BioinfoPortal (https://bioinfo.lncc.br/) é fruto da colaboração entre pesquisadores do LABINFO, CENAPAD-RJ e SINAPAD. Ele facilita o acesso aos recursos computacionais do supercomputador Santos Dumont (SDumont, https://sdumont.lncc.br) para executar aplicações e workflows científicos de bioinformática de forma paralela e distribuída. O desempenho geral do BioinfoPortal depende, em grande parte, da combinação de parâmetros necessários para configurar o ambiente de execução de cada aplicação no portal, que atualmente, são predefinidas, sem otimização. No entanto, por meio do uso de aprendizado de máquina, é possível inferir uma configuração personalizada com base na melhor combinação de parâmetros, como número de nós, threads, fila de submissão e cluster, o que tem o potencial de melhorar consideravelmente o desempenho do portal. A proposta desta pesquisa envolve o desenvolvimento de uma ferramenta baseada em aprendizado de máquina para inferir a combinação de parâmetros que resultam em um bom desempenho das aplicações do BioinfoPortal, usando como caso de estudo a aplicação RAxML. Essa ferramenta, d enominada ML-Bio, visa melhorar o desempenho do BioinfoPortal, personalizando a configuração de acordo com as necessidades de cada aplicação. Tendo em vista a implementação da ferramenta com as adaptações necessárias para todas as aplicações do portal e sua integração à arquitetura do BioinfoPortal, é possível melhorar o desempenho e a eficiência, tanto do BioinfoPortal quanto do SDumont. Para desenvolver a ferramenta, foi necessário criar uma base de dados com informações sobre as execuções da aplicação RAxML, que serviram para treinar os modelos preditivos, o Extra Trees Classifier e o Extra Trees Regressor, utilizados nesta pesquisa. Esses dados foram obtidos através da coleta e armazenamento de informações de desempenho relacionadas ao comportamento da aplicação em relação ao tempo de execução e o consumo de memória em várias execuções do RAxML. Essas execuções variaram parâmetros, como o parâmetro de entrada da aplicação (bootstrap) e as configurações de alocação de recursos do SDumont (número de threads e nós). Para coletar esses dados, foi utilizado o comando "sacct" do sistema de gerenciamento de recursos do SDumont, o Slurm, coletando seis parâmetros chamados de variáveis de saída: MaxVMSize, AveVMSize, MaxRSS, AveCPU, CPUTime e Elapsed. Para determinar a quantidade ideal de nós nas configurações dos arquivos de entrada testados, foi realizado um experimento em larga escala, que incluiu várias análises de desempenho e comparações entre os resultados previstos pelo modelo e os dados reais encontrados na base de dados. Essas comparações demonstram a proximidade entre a previsão do modelo e os resultados reais. Foi observado um aumento no tempo de execução à medida que o valor do bootstrap aumenta. Contudo, esse aumento não afetou consideravelmente o comportamento da aplicação em relação ao número de threads e nós. Independentemente do número de nós testados, a utilização de 6 threads é a melhor opção, permitindo o compartilhamento de recursos entre tare fas de aplicações diferentes ou entre diferentes tarefas do RAxML. Além disso, ao aumentar o número de nós, há uma redução do tempo de execução, embora esse efeito tenha sido menos observado em configurações com valores de bootstrap mais baixos. Ao avaliar a quantidade ideal de nós, os resultados indicam que, para configurações com mais de 100 bootstrap, a alocação de 5 nós proporciona o melhor desempenho. No entanto, quando o valor do bootstrap é igual a 10, mais de 1 nó se torna ineficiente, ocasionando uma subutilização dos recursos computacionais. Com base nesses resultados e análises, foi desenvolvida a ferramenta ML-Bio para prever a quantidade ideal de nós para a execução do RAxML, considerando um tempo de execução aceitável. Ao projetá-la, foi levada em consideração não apenas a diminuição do tempo de execução, mas também a alocação de recursos de forma mais eficiente. Buscando uma alocação mínima de recursos para atingir um tempo de execução mais adequado, levando em conta um acréscimo percentual ao tempo previsto para a execução com todos os recursos disponíveis. Isso possibilita a otimização do uso de recursos, diminuindo a quantidade de nós necessários para alcançar o tempo de execução desejado, ao mesmo tempo em que garantimos um desempenho aceitável.
- Mais informações