Notícias
QUERO-QUERO CIÊNCIA – Ciência de Dados e Inteligência Artificial: gerenciamento de banco de dados e integração de algoritmos de aprendizado de máquina
Não raro, ouvimos falar quase que diariamente sobre as aplicações da Inteligência Artificial (IA), mesmo sem nos dar conta disso. Como exemplo, podemos ilustrar com o uso das tecnologias em smartwhatches, smartphones e eletrodomésticos da linha smarts; além do suporte das famosas assistentes virtuais Alexa (Amazon), Siri (Apple), Cortana (Microsoft).
Para uma grande parte da população a IA ainda pode parecer algo futurista. No entanto, no campo científico encontra-se consolidado e reúne pesquisadores de diversos campos do conhecimento. Para clarear o tema, trouxemos uma breve descrição. Veja.
“A inteligência artificial funciona a partir da combinação entre algoritmos e um grande volume de dados. Um algoritmo é um conjunto de regras e procedimentos lógicos previamente definidos para se alcançar determinado objetivo, seguindo um número finito de etapas.
A união entre dados e algoritmos permite a inteligência artificial ler e interpretar padrões, além de aprender de forma autônoma, sem ação humana. Isso é possível graças ao machine learning, ou aprendizado de máquina.
Outras tecnologias empregadas na inteligência artificial são o Deep Learning e o Processamento de Linguagem Natural (PLN)
Ciência de dados e inteligência artificial são áreas complementares, que emprestam uma da outra conceitos e ferramentas, em particular as empregadas no machine learning. Ao mesmo tempo que fornecem informações para o aprendizado de máquina, os cientistas de dados recorrem a recursos de processamento e padronização de IA para desenvolverem seu trabalho.” (PUCPR, on line)
Enquanto utilizamos suas aplicações, diversos(as) pesquisadores(as) dedicam-se na busca de soluções para resolver problemas simples e complexos nessas áreas.
De acordo com o estudo dos autores do artigo “Integrating Machine Learning Model Ensembles to theSAVIME Database System” que vamos conhecer os métodos utilizados para a busca de soluções para o campo da ciência de dados.
A equipe do Serviço de Comunicação Institucional do Laboratório Nacional de Computação Científica (LNCC) esteve em contato com o pesquisador Anderson Silva, aluno do doutorado do Programa de Pós-graduação em Modelagem Computacional (PPG-LNCC) que participou do estudo sobre o assunto junto com o pesquisador Fábio André Machado Porto do Grupo de Pesquisa Dexl Data Lab (DEXL-LNCC).
Vem com a gente!
Pode nos contar mais sobre a pesquisa realizada, indicando no âmbito de qual projeto do LNCC foi formulada?
No grupo de pesquisa Dexl (Data Extreme Laboratory) no LNCC, o nosso objetivo é trabalhar com dados extremos no âmbito científico. No nosso caso, “extremos” pode se referir tanto à magnitude quanto a velocidade ou a variabilidade dos dados por exemplo. O objetivo da pesquisa que deu origem a este trabalho é proporcionar o uso de sistemas de bancos de dados no contexto científico, desenvolvendo ferramentas específicas para as necessidades dos pesquisadores.
Em geral, bancos de dados ainda não são muito populares no contexto científico, por diferentes razões: primeiro porque as características dos dados trabalhados neste contexto como magnitude, formato e padrões de acesso são diferentes daquelas presentes na indústria e em aplicações comerciais. Além disso, o processo de dados científico é majoritariamente investigativo e envolve análises complexas sobre os dados, que não podem ser facilmente executadas através das ferramentas disponíveis de propósito geral. Muitas vezes, demanda-se um grande esforço por parte do pesquisador adaptar as soluções existentes de bancos de dados para serem utilizadas em seu contexto de pesquisa.
No momento atual, a adoção de modelos de aprendizado de máquina em substituição a diferentes técnicas de gerenciamento de bancos de dados é um tópico de atividade intensa, e várias aplicações que integram Inteligência Artificial e bancos de dados tem sido propostas. No caso deste trabalho em específico, nossa pesquisa propôs a integração destes modelos como funções preditivas em sistemas de bancos de dados, cuja entrada pode ser definida como expressão de uma consulta ao sistema.
Como é feita a pesquisa?
No âmbito da inteligência artificial, temos visto um desenvolvimento surpreendente da aplicação dos algoritmos de aprendizado de máquina aos em todos os domínios. Isso porque estes algoritmos, que constroem modelos de inferência com base nos dados coletados, podem ser especialmente adequados em situações em que a única informação disponível para caracterizar o sistema estudado consiste em dados observacionais. Mesmo que haja informações adicionais sobre o sistema, em muitas situações, as leis que o regem não são completamente compreendidas ou os modelos disponíveis acabam sendo imprecisos ou parcialmente eficientes. Nessas situações, combinar modelos numéricos com estratégias baseadas em dados pode resultar em resultados altamente mais acurados.
O que nós fizemos foi desenvolver um algoritmo de seleção e alocação de modelos espaço-temporais para consultas preditivas, e implementar este algoritmo em um sistema de gerenciamento de bancos de dados para uso científico. O SAVIME (Simulation and Analysis In Memory) é um banco de dados em memória desenvolvido no laboratório adaptado para o contexto científico e que oferece ao pesquisador a possibilidade de carregar e visualizar consultas sobre dados através de uma linguagem declarativa.
A implementação da solução não é simples. Mais do que levantar os requisitos presentes e efetuar a integração de diferentes ferramentas, o que por si só não é trivial, o trabalho envolve a análise e execução de diferentes experimentos que possam garantir que o sistema seja de fato eficiente e adequado para o contexto proposto.
Qual é a importância da pesquisa?
O potencial desta pesquisa é imenso. Uma vez que o pesquisador é capaz de expressar todo o processo de transformação e análise sobre os dados que coletou como uma consulta declarativa em um banco de dados, que é o que estamos propondo, o número de investigações e a sua capacidade de análise aumenta drasticamente. Além disso, a possibilidade de gerenciar e visualizar potenciais cenários investigativos sem que seja necessário manter e orquestrar um conjunto de diferentes sistemas diferentes facilita muito o trabalho de pesquisa.
Quais são os desafios encontrados no seu estudo?
Um grande desafio está relacionado à eficiência computacional. Os dados científicos em geral possuem magnitude muito maior do que dados provenientes de aplicações convencionais, e por isso as soluções desenvolvidas precisam ser altamente eficientes. Além disso, muitas vezes o pesquisador precisa realizar uma série de investigações variando um enorme conjunto de parâmetros, o que faz com que um mesmo experimento precise ser reexecutado diversas vezes. Se o algoritmo desenvolvido não apresentar um bom desempenho e fizer o melhor uso possível dos recursos disponíveis o seu uso científico se torna impraticável. Outro desafio está relacionado à multidisciplinaridade, uma vez que domínios diferentes como meteorologia, geofísica ou astronomia possuem dados e processos particulares. O desafio nesse caso é o de construir soluções que sejam capazes de servir as diferentes necessidades de cada disciplina de estudo.
Para conhecer mais sobre o estudo:https://sol.sbc.org.br/index.php/sbbd_estendido/article/view/21870/21694
Autores: Silva, Anderson (LNCC); Valduriez, Patrick (INRIA, França); Porto, Fábio(LNCC).
Créditos
Anmily Paula Martins (SECIN-LNCC) com a participação de Anderson Silva (PPG-LNCC) e colaboração de Graziele Soares(SECIN-LNCC) e Tathiana Tapajós (SECIN-LNCC)
O Quero-Quero Ciência é um ciclo de entrevistas que faz parte das ações de divulgação científica do LNCC
Curiosidade: O pássaro Quero-Quero, ave da família dos Charadriidae, tem os gramados do campus do LNCC como habitat natural
Imagem
rawpixel.com on Freepik
Serviço de Comunicação Institucional
secin@lncc.br