Notícias
Equipe multidisciplinar do CBPF aponta falha na base Web of Science
ARTIGO
A convite do Núcleo de Comunicação Social, equipe multidisciplinar do CBPF descreve, no artigo a seguir, resultados publicados recentemente, relativos a uma falha no portal Web of Science , base de dados altamente empregada na atualidade para a obtenção do impacto de artigos científicos.
Falha no portal Web of Science
Como tem ocorrido em diversos domínios da atividade humana, as questões econômicas e o aumento do número de pessoas que trabalham em pesquisa científica alteraram não só a forma como produção científica é avaliada, mas também os objetivos que norteiam a avaliação. Em 2005, Jorge Hirsch, da Universidade da Califórnia (EUA), propôs um indicador bibliométrico capaz de agregar em uma única grandeza tanto a quantidade de artigos publicados quanto a qualidade da pesquisa desenvolvida por um cientista.
Esse indicador poderia ser usado para os variados campos do conhecimento. Dois anos depois, Hirsch sugeriu sua adoção como um método eficiente para prever as realizações científicas de um pesquisador e, consequentemente, um recurso eficaz para orientar os investimentos em pesquisa e a contratação de cientistas por instituições de pesquisa.
Segundo a proposta de Hirsch, o primeiro passo para se obter esse ‘número de ouro’ ( gold numb er) é organizar todos os artigos publicados por um cientista, seguindo uma ordem decrescente de citações recebidas por cada artigo. Então, todos os artigos serão contabilizados, mas alguns serão desconsiderados. Ou seja, ao realizar a análise, é preciso decidir quando parar de contar.
Segundo Hirsch, o cálculo será interrompido quando o número de artigos publicados por um pesquisador for menor que o número de citações dentro dessa sequência. Embora essa metodologia seja relativamente complexa, segundo o autor, com o passar do tempo, os pesquisadores a internalizariam e seria possível atribuir um número a todos os cientistas: o índice h.
O artigo
Após mais de uma década da publicação do artigo ‘ An index to quantify an individual’s scientific research output’ [Um índice para quantificar o desempenho científico de um indivíduo], um grupo do Centro Brasileiro de Pesquisas Físicas (CBPF), no Rio de Janeiro (RJ), decidiu percorrer a base de dados Thomson ISI Web of Science , buscando mapear o estado da arte desse indicador de impacto de trabalhos científicos.
A busca revelou que diversos artigos científicos vêm sendo publicados, na esteira da proposta de Hirsch, abordando a possibilidade do uso do índice h como uma grandeza capaz de prever o desempenho de pesquisadores considerando apenas sua trajetória acadêmica ‒ excluindo, portanto, diversos fatores relevantes e, provavelmente, não mensuráveis.
O resultado da pesquisa, desenvolvida entre 2015 a 2017, deu origem ao artigo ‘ Web of Science: showing a bug today that can mislead scientific research output prediction’ [Web of Science: revelando uma falha que pode comprometer a predição do desempenho da pesquisa científica], publicado em SAGE Open (January-March 2018:1-7). Uma das características do trabalho é ter sido feito por uma equipe multidisciplinar, o que dá o tom do artigo, embora todos seus integrantes estivessem ligados ao CBPF.
Assinam o estudo o físico Pablo Diniz Batista, atualmente no Instituto Federal de Brasília (IFB), mas, à época, tecnologista pleno do CBPF e colaborador da pós-graduação; a analista em C&T do CBPF Márcia Reis, doutora em literatura comparada e pesquisadora na área de análise de indicadores científicos desde 2002; Leduc Fauth, físico e mestre em física com ênfase em instrumentação científica pelo CBPF; e Igor Marques Carneiro, engenheiro em telecomunicações e discente do ‘Mestrado em Física com Ênfase em Instrumentação Científica’, do CBPF.
Falha sutil
Grande parte dos indicadores de desempenho científico propostos recentemente toma por base o número de artigos publicados e o número total de citações recebidas. Conforme mostra a figura A, por meio do Web of Science é possível criar um relatório de citações para um determinado autor. O primeiro passo para analisar a evolução dos indicadores bibliométricos é pesquisar na base de dados, considerando o nome do autor e restringindo a busca a um intervalo de tempo de interesse definido.
A equipe multidisciplinar do CBPF decidiu, então, pesquisar os resultados fornecidos para o físico holandês de origem russa André Geim, que, juntamente com o russo-britânico Konstantin Novoselov, ganhou o Nobel de Física de 2010, pela descoberta do grafeno, material constituído de uma única camada de carbono. Inicialmente, o intervalo para a pesquisa foi de 1945 a 2016 ‒ no caso, a escolha do ano 1945 deve-se ao fato de a Web of Science apenas considerar para a indexação os artigos publicados a partir daquele ano.
Para realizar a tarefa, a equipe desenvolveu um programa de computador e, com ele, analisou mais de 100 mil artigos. Os resultados mostraram que uma falha sutil no Web of Science pode inflar os resultados das informações coletadas, comprometendo a exatidão e, consequentemente, a eficácia da proposta de Hirsch e suas variações.
O banco de dados apresenta ao usuário um ‘Relatório de Citações’ com seis indicadores, incluindo o índice h. Ao se alterar o último ano na opção ‘TimeSpam’ [intervalo de tempo], seria facilmente possível analisar a evolução desses indicadores. Por exemplo, a figura B mostra o valor do índice h para Geim em 2000.
Análise temporal do índice h para André Geim, usando o Relatório de Citações ( Citation Report ) do Web of Science . Na figura A, foi selecionado o período entre 1945 e 2017 e obtido h = 91. Na figura B, o período foi alterado para o intervalo 1945-2000. Embora o índice h tenha sido reduzido para 23, as citações recebidas pelos artigos entre 2000 e 2016 também foram computadas, o que compromete o resultado obtido
(Crédito: Web of Science )
Os autores verificaram que a ferramenta restringe corretamente o número de artigos publicados dentro do intervalo esperado (‘Itens Publicados em Cada Ano’), como mostra a figura B. Entretanto, isso não acontece com as citações contabilizadas pelos artigos até 2016 (‘Citações em cada ano’), na mesma figura. Ou seja, os resultados, para todos os indicadores, são inflados, em média, em 20%, pois incluem as citações recebidas entre 2001 e 2016, comprometendo, portanto, a análise cientométrica.
Ponto-chave
É importante assinalar que a quantidade de informações necessárias para executar essa operação corretamente não está disponível no Web of Science de maneira facilmente acessível para o usuário. No caso de Geim, em particular, mais de 100 mil citações são contabilizadas.
Para realizar uma análise temporal desse físico holandês, seria necessário fixar o ano de cada uma dessas citações. Podemos fazer isso usando a base de dados. No entanto, acessar cada um dos artigos torna a tarefa quase inviável quando investigamos um cientista cujos artigos recebem muitas citações.
O ponto-chave de nosso trabalho é que o programa desenvolvido automatiza a extração de dados e os processa em poucos minutos, o que possibilitou a análise das cerca de 100 mil citações de Geim.
Como um dos objetivos de nosso trabalho é discutir o uso de indicadores como ferramentas para prever o desempenho científico e guiar investimentos para a ciência, fizemos questão de destacar que, se o desempenho de Geim fosse avaliado a partir da proposta feita por Hirsch, até ele isolar o grafeno, em 2004, não seria possível prever que seu índice h alcançaria o valor 91, no ano passado.
Pablo Diniz Batista
Instituto Federal de Brasília
Márcia Reis
CBPF
Leduc Fauth
CBPF
Igor Marques Carneiro
CBPF
Mais informações:
Artigo da equipe do CBPF: http://journals.sagepub.com/doi/full/10.1177/2158244018758836
Artigo de Hirsch: https://doi.org/10.1073/pnas.0507655102
Batista et al : https://doi.org/10.1007/s11192-006-0090-4