Defesa de Dissertação de Mestrado: Framework para Execução de Workflows de Redes Filogenéticas em Ambientes de Computação de Alto Desempenho
-
Palestrantes
Aluno: Rafael de Souza Terra
-
Informações úteis
Orientadores:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC
Carla Osthoff Ferreira de Barros - Laboratório Nacional de Computação Científica - LNCC
Diego Moreira de Araújo Carvalho
Banca Examinadora:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC (presidente)
Marcelo Trindade dos Santos - Laboratório Nacional de Computação Científica - LNCC
Luiz M. R. Gadelha Jr. - Laboratório Nacional de Computação Científica - LNCC
Maria Clicia Castro - UERJ
Fabricio Alves Barbosa da Silva - FIOCRUZ
Resumo:Nos últimos anos, o desenvolvimento de tecnologias como o sequenciamento de nova gera ção e a computação de alto desempenho possibilitou a execução de experimentos de bioinformática de alta complexidade e computacionalmente intensivos. Diferentes áreas da bioinformática necessitam utilizar plataformas de computação de alto desempenho para aproveitar do paralelismo e da distribuição de tarefas, por meio de tecnologias especializadas de sistemas de gerência de workflows científicos. Uma das áreas da bioinformática que necessitam da computação de alto desempenho é a filogenia, área que expressa as relações evolutivas entre genes e organismos, estabelecendo quais deles estão mais relacionados evolutivamente. A filogenia é usada em várias abordagens, como na classificação de espécies; na descoberta do parentesco de indivíduos; na identificação da origem de patógenos, e até na biologia da conservação. Uma forma de representar as relações filogenéticas é utilizando redes filogenéticas. Contudo, a construção dessas redes utiliza algoritmos computacionalmente intensivos e que requerem a constante manipulação dos diferentes dados de entrada. O presente trabalho visa o desenvolvimento de um framework para a construção de redes filogenéticas explícitas, modelando um workflow científico que agrega diferentes métodos para a construção das redes e para o tratamento dos dados de entrada necessários. O framework foi desenvolvido para possibilitar a utilização de múltiplos fluxos do workflow de forma automatizada, paralela e distribuída em uma única execução e também ser executável em ambientes de computação de alto desempenho, configurando uma tarefa desafiadora, uma vez que as ferramentas usadas não são desenvolvidas com foco nesse ambiente. Para orquestrar as tarefas do workflow, utilizou-se a biblioteca de programação paralela escalável Parsl, permitindo realizar otimizações na execução das tarefas do workflow, realizando um melhor controle de recursos. Foram desenvolvidas duas versões do framework, chamadas Single Partition e Multi Partition, diferindo na f orma como os recursos são utilizados. Nos testes realizados, houve uma melhoria no tempo de execução de aproximadamente cinco vezes em comparação com a execução sequencial de um fluxo sem as otimizações. O framework foi validado utilizando dados públicos de genomas do vírus da Dengue, que foram processados, anotados e executados no framework utilizando o supercomputador Santos Dumont. A construção das redes filogenéticas explícitas dos genomas indicam que o framework desenvolvido é uma ferramenta funcional, eficiente e de fácil uso.
- Mais informações