Defesa de Tese de Doutorado: Desenvolvimento de algoritmos evolucionistas para aprimorar a metodologia PSP de novo do programa Rosetta
-
Palestrantes
Aluno: Paulo Roberto Teixeira Werdt
-
Informações úteis
Orientadores:
Laurent Emmanuel Dardenne - Laboratório Nacional de Computação Científica - LNCC
Banca Examinadora:
Laurent Emmanuel Dardenne - Laboratório Nacional de Computação Científica - LNCC (presidente)
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC
Helio José Corrêa Barbosa - Laboratório Nacional de Computação Científica - LNCC
Pedro Geraldo Pascutti - IBCCF/UFRJ - IBCCF/UFRJ
Suplentes:
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Paulo Mascarello Bisch - Universidade Federal do Rio de Janeiro - IBCCF/UFRJ
Resumo:Um dos principais desafios da biologia molecular computacional têm sido o desenvolvimento de métodos capazes de prever a estrutura nativa de uma proteína a partir de sua sequência de aminoácidos. O evento bianual CASP (The Critical Assessment of Protein Structure Prediction) tem documentado o progresso e o estado da arte da PSP, que hoje é subdividida em dois grupos: predição baseada em Templates, quando proteínas resolvidas experimentalmente são utilizadas como moldes para a geração de novos modelos e a predição Free Modelling (FM), onde a modelagem é realizada estritamente a partir de princípios físico-químicos (ab initio) ou quando algum tipo de informação experimental é utilizada (de novo). Entre os principais problemas que um método de PSP FM tem que enfrentar estão: (i) a baixa acurácia associada às funções avaliações utilizadas devido às simplificações teóricas introduzidas para tornar o modelo viável computacionalmente; (ii) o tamanho, complexidade e multimodalidade do espaço de busca que resultam das possíveis conformações associadas a uma dada sequência proteica. Em muitos casos a estrutura nativa não pertence sequer à bacia de mínimo global da superfície de energia investigada. Os resultados das avaliações dos eventos CASP indicam o programa Rosetta como um dos métodos de PSP de novo mais bem-sucedidos. Seu algoritmo utiliza fragmentos de estruturas determinadas experimentalmente para orientar a busca no espaço das estruturas. A inserção destes fragmentos é realizada por um algoritmo de Monte Carlo, que monta os fragmentos na estrutura utilizando Simulated Annealing, avaliado por funções score mistas, baseadas tanto em mecânica molecular quanto em conhecimento proveniente de bancos de dados de estruturas já conhecidas. Sua estratégia de otimização utiliza um grande número de execuções independentes do algoritmo, onde cada trajetória procura convergir rapidamente para um mínimo da superfície de energia, para obter um grande conjunto de predições, do qual um subconjunto de modelos mais promissores é escolhido. Re sultados da literatura indicam que as funções de energia do Rosetta são o ponto forte de sua metodologia, sendo amplamente utilizadas em outros métodos de PSP FM de sucesso, mas que sua estratégia de busca conformacional é passível de ser aprimorada. Pesquisas bibliográficas sobre trabalhos relacionados mostram que de fato o algoritmo do Rosetta não consegue explorar eficientemente o espaço multimodal dos fragmentos, o que reforça a ideia de utilizar um método distinto para melhorar a sua busca conformacional.
O objetivo deste trabalho é aprimorar a busca conformacional do Rosetta através do desenvolvimento de metaheurísticas evolucionistas, de forma a alcançar um melhor mapeamento do espaço de busca e obter ganhos tanto na qualidade das estruturas preditas, quanto na redução do alto custo computacional que o Rosetta requer para obter modelos de boa qualidade. Nesta abordagem é utilizado um algoritmo populacional com substituição parental por aglomeração fenotípica (crowding), onde a prole de soluções candidatas substitui os elementos na população parental por um critério de semelhança estrutural. Foram também desenvolvidas variações dos algoritmos com diferentes regimes populacionais e mecanismos de seleção por torneio e baseada na clusterização estrutural dos indivíduos da população, além de um operador de recombinação que considera predições de estrutura secundária.
O acoplamento destas técnicas, à metodologia de novo do Rosetta, foi testado gradualmente em experimentações com um grupo diverso de alvos proteicos. Os resultados obtidos com os algoritmos mais bem-sucedidos foram confrontados com resultados correspondentes do Rosetta original e de outras duas abordagens semelhantes encontradas na literatura, e demonstraram conseguir um balanço positivo entre a busca e a exploração da hipersuperfície energética, gerada pelos diferentes scores utilizados durante a montagem dos fragmentos. Dois dos algoritmos propostos neste trabalho resultaram em melhorias significativas tanto na diversidade e na qualidade estrutural dos modelos finais preditos, quanto na redução do custo computacional necessário para se obter estruturas de boa qualidade. -
Mais informações
Pós-graduação do LNCC/MCTIcopga@lncc.br