Defesa de Dissertação de Mestrado: Otimização de Dataflows em Frameworks de Big Data por meio do Reúso de Dados
-
Palestrantes
Aluno: Gustavo Decarlo Ferreira Secchim
-
Informações úteis
Orientadores:
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Daniel Cardoso Moraes de Oliveira - Universidade Federal Fluminense - UFF
Banca Examinadora:
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC (presidente)
Luiz Manoel Rocha Gadelha Júnior - Laboratório Nacional de Computação Científica - LNCC
Maria Cristina Silva Boeres - Laboratório de Grid, Instituto de Computação, Universidade Federal Fluminense
Patrick Valduriez - INRIA - INRIA and LIRMM
Suplentes:
Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC
Resumo:O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reuso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta uma abordagem para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento de dados da COVID-19.
- Mais informações