Artigos

O problema da padronização das afiliações de autores na base de dados Web of Science: o caso Embrapa e sua solução

The problem of standardization of authors’ affiliations in the Web of Science database: the Embrapa case and its solution

Roberto de Camargo Penteado Filho 1
Empresa Brasileira de Pesquisa Agropecuária, Brasil
Wilson Corrêa da Fonseca Júnior 2
Empresa Brasileira de Pesquisa Agropecuária, Brasil

O problema da padronização das afiliações de autores na base de dados Web of Science: o caso Embrapa e sua solução

Em Questão, vol. 23, pp. 74-93, 2017

Universidade Federal do Rio Grande do Sul

Resumo: A produção científica e tecnológica é fundamental no processo de inovação de um país ou instituição científica. No entanto, a avaliação bibliométrica desse desempenho enfrenta há muitos anos um grande desafio: o problema da falta de exatidão das informações registradas em documentos científicos e bases de dados. Este artigo possui como principal objetivo verificar em que medida esse problema ainda persiste na produção científica brasileira, por meio de investigações bibliográfica e bibliométrica. Nesse segundo caso, foi realizado, como exemplo, um estudo básico sobre a visibilidade da Empresa Brasileira de Pesquisa Agropecuária na base de dados Web of Science. O resultado demonstrou uma grande incidência de problemas de padronização, refletidos no percentual de 11,93% de variações relacionadas ao nome e sigla originais da empresa. Diante desse resultado, a instituição publicou uma resolução normativa interna regulamentando a afiliação de seus empregados em publicações nacionais e internacionais.

Palavras-chave: Afiliação institucional, Padronização, Embrapa, Web of Science, Política de comunicação.

Abstract: Abstract: Scientific and technological production is essential in the innovation process of a country or scientific institution. However, bibliometric evaluation of this performance has been facing for many years a major challenge: the lack of accuracy of the information recorded in scientific documents and databases. This article has as main objective to verify to what extent this problem still persists in Brazilian scientific production, through literature and bibliometric investigations. In this second case, it was done, for example, a basic study on the visibility of the Brazilian Agricultural Research Corporation in the database Web of Science .The results showed a high incidence of standardization issues, reflected in the percentage of 11.93% of variations related to the original name and acronym Embrapa. Given this result, the institution issued an internal normative resolution regulating the membership of its employees in national and international publications.

Keywords: Affiliation, Standardization, Embrapa, Web of Science, Communication policy.

1 Introdução

A falta de exatidão de informações em documentos científicos e bases de dados se encontra entre os principais problemas do processo de avaliação da produção científica e tecnológica de um país, instituição ou pesquisador. Esse problema se deve a diversos fatores, tais como a presença de erros ortográficos ou de impressão, equívocos na classificação de dados e ausência de padronização de informações institucionais, entre outros.

Diversos desses fatores vêm sendo registrados na literatura pelo menos desde a década de 1970, quando Bourne (1977), por exemplo, chamou a atenção para a frequência e o impacto dos erros de ortografia em bases de dados bibliográficas. Naquela época, ao analisar cerca de 3.600 termos indexados em 11 diferentes bases de dados ele encontrou a presença de erros ortográficos com variação de 23% a menos de 0,5% entre uma base e outra. De acordo com Hood e Wilson (2003), essas ocorrências ainda se fazem presentes porque as bases de dados foram criadas originalmente com a finalidade principal de recuperação de informações, não de realização de estudos bibliométricos.

Atualmente, entre os principais problemas que dificultam a correta avaliação da produção científica de um país, instituição ou pesquisador se encontra a ausência de padronização dos nomes de autores e de suas afiliações em bases de dados em ciência e tecnologia (C&T). Em trabalho recente de análise sobre a produção científica da Empresa Brasileira de Pesquisa Agropecuária (Embrapa), Penteado Filho, Fonseca Júnior e Avila (2016) também se empenharam no tratamento dos principais fatores associados a esse problema. Os resultados desse levantamento realizado na base de dados Web of Science (WoS), tendo como referência teórico-metodológica a literatura especializada, se encontram sintetizados neste artigo.

2 Problemas e dificuldades de padronização nos estudos bibliométricos

Os principais problemas e dificuldades encontrados na extração de informações úteis em bases de dados eletrônicas para a realização de estudos bibliométricos são fartamente abordados pela literatura especializada (BOURNE, 1977; HOOD; WILSON, 2003; TAŞKIN; AL, 2013). Hood e Wilson (2003), por exemplo, subdividiram esses problemas e dificuldades em três categorias. A primeira delas se refere aos problemas de erro ou de falta de consistência do dado (nível micro), tais como a presença de erros ortográficos, de indexações equivocadas de palavras-chave, de variações na abreviatura de autores ou de datas, duplicidade de títulos de periódicos e diferentes traduções do nome original de determinada instituição. O segundo grupo se refere a problemas relacionados ao uso de bases de dados para propósitos bibliométricos (nível macro). Nesse caso, as principais ocorrências são a sobreposição de informações com a duplicação de registros, a limitação da cobertura geográfica, temporal ou temática da base de dados, o atraso na indexação da literatura recente, a ausência de campos relevantes de busca e a falta de padronização de dados, entre outras. O terceiro grupo de dificuldades se refere a problemas derivados das próprias bases, tais como a disponibilidade de ferramentas amigáveis, porém inadequadas à análise bibliométrica ou a impossibilidade de realização de estudos offline.

Diversos desses problemas e dificuldades foram encontrados por Penteado Filho (2006) ao realizar a auditoria do acervo da produção científica da Embrapa com a utilização de diversos softwares (Infotrans, Dataview, Matrisme e MS Excel). Entre os problemas detectados estavam erros de catalogação, ortográficos e de digitação, duplicações de registros e presença de autores homônimos. Mais recentemente, ao abordar o problema da padronização das afiliações de autores em índices de citação, Taşkin e Al (2014) analisaram na base de dados Web of Science todos os tipos de documentos (artigos, anais de congressos ou cartas), publicados entre 1928 e 2009, que mencionassem nos campos “endereço” e “país” a Turquia como país de origem. Entre os principais resultados desse trabalho encontra-se uma tabela contendo as 20 universidades turcas mais produtivas, com seus respectivos números de publicações, quantidade de erros de indexação e percentual desses erros em relação ao total de publicações. Nesse caso, os percentuais variaram de 12,1% a 0,3% entre uma instituição e outra e contemplaram diversos tipos de problemas, tais como: erros de caracteres ou de ortografia, erros de indexação, erros de tradução realizados pelos autores, além de problemas de padronização dos endereços das universidades.

3 Metodologia

Este levantamento reuniu a produção científica da Embrapa nas bases de dados Science Citations Index Expanded (SCI-EXPANDED), Social Science Citation Index (SSCI) e Arts & Humanities Citation Index (A&HCI) da Thomson Scientific (ISI), conhecidas sob a denominação de Web of Science (WoS). Para isso foram considerados todos os registros, em diversas línguas e tipos de documentos (artigos, editoriais, resenhas, entre outros) com as possíveis denominações que fizessem referência à Embrapa no campo “Afiliação de autor” no período compreendido entre 1973 e 17 de julho de 2015.

A busca teve início pela expressão mais simples. Depois, foram sendo incorporadas outras variações de acordo com as inconsistências encontradas nos artigos referentes ao nome da Embrapa ou de seus centros de pesquisa. O acréscimo dessas variações elevou o número de registros de 15.956 para 17.794 entre a primeira e terceira etapas. A quarta etapa contemplou uma investigação sobre registros únicos dos centros de pesquisa da Empresa (324 registros), o que aumentou o resultado final para 18.118 registros. A diferença entre esse total e o número de registros da primeira busca (15.956) é de 2.162 registros. Isso significa que, se a busca sobre a produção científica da Embrapa se limitasse aos termos originais adotados na primeira etapa, a sigla/nome da instituição, 11,93% dos documentos não estariam contemplados na sua produção científica. Veja abaixo a evolução das estratégias de busca no item “pesquisa avançada” da WoS do nome da Embrapa e seus resultados:

Resultado geral da busca: 17.794 + 324 = 18.118

Percentual de variações não contempladas na busca inicial: 11,93%

4 Análise e discussão dos resultados

A primeira parte da busca permitiu estabelecer uma lista visando codificar as expressões adotadas pelos autores em seus artigos científicos e incorporadas pela base, na forma de assinaturas-síntese criadas em 1996 pela Embrapa. Nessa mesma ocasião também foi adotada a denominação “Brazilian Agricultural Research Corporation” para o seu nome em inglês. A criação de assinaturas-síntese foi a forma encontrada pela instituição para associar o nome e a sigla específica de cada um de seus centros de pesquisa à sigla Embrapa e se encontra entre as principais medidas de sua Política de Comunicação (EMBRAPA, 2002). Por exemplo, o Centro de Pesquisa Agropecuária do Pantanal (CPAP) e o Centro Nacional de Pesquisa em Gado de Leite (CNPGL) se tornaram, respectivamente, com a criação da assinatura-síntese, Embrapa Pantanal e Embrapa Gado de Leite. Esse trabalho de decodificação permitiu posteriormente a realização de uma proposta de solução para os problemas de padronização do nome da Embrapa em documentos científicos. Diante do exposto, apresentamos no Quadro 1 essa lista de decodificação.

Quadro 1
Decodificação das expressões de busca encontradas na base Web of Science nas assinaturas-síntese dos centros da Embrapa
Decodificação das expressões de busca encontradas na base Web of Science nas assinaturas-síntese
dos centros da Embrapa
Fonte: Dados da pesquisa.

Outra iniciativa adotada neste estudo visando a posterior padronização do nome da Embrapa em bases de dados foi selecionar uma amostra das expressões recolhidas a partir dos mecanismos de busca para levantar a origem e os principais tipos de problemas de padronização encontrados. Essa investigação exploratória indicou que grande parte dos problemas estava na informação sobre a instituição fornecida pelo autor, ou ainda na redução do nome completo da instituição pela base de dados ou mesmo no cadastramento equivocado do nome da instituição pela base. Essas diversas formas equivocadas de menção ao nome da Embrapa, bem como sua origem e descrição dos principais tipos de problema são apresentados no Quadro 2.

Quadro 2
Levantamento preliminar dos problemas das expressões relacionadas à Embrapa na base Web of Science.
Levantamento preliminar dos problemas das expressões
relacionadas à Embrapa na base Web of
Science.
Fonte: Dados da pesquisa.

Conforme constatado, os problemas da falta de exatidão das informações encontrados nessa busca sobre a produção científica da Embrapa se devem a vários fatores, que vão desde a digitação errônea da sigla da Empresa pelo autor ou pela base de dados, passando pela ausência de uniformização do nome da instituição em português e outras línguas, até a ausência da sigla e/ou do nome da instituição nesses documentos. Apresentamos a seguir um resumo das inconsistências encontradas:

4.1. Um problema exclusivo da base de dados

Além dos problemas de incorreção relacionados ao nome e à sigla das instituições, este estudo também constatou a ocorrência de outro grave problema nos resultados do campo de afiliação de autores da base de dados Web of Science: erros introduzidos pelo algoritmo de padronização da própria base para siglas e endereços.

Alguns autores informam seus endereços brasileiros sem citar o nome do país. Seus endereços de afiliação, portanto, terminam na sigla do estado. Aparentemente, a WoS criou um algoritmo para introdução de nomes de países e estados quando os autores são omissos. Dessa forma, a sigla ES, adotada no Brasil para abreviar o nome do estado do Espírito Santo, está sendo interpretada pela base como sigla da Espanha; a sigla BA, relativa ao estado da Bahia, é interpretada pela base como Buenos Aires, e o algoritmo da base chega a acrescentar “, Argentina”; ou então Bahia, BA é alterado pela WoS para “Bahia Blanca, Buenos Aires, Argentina”. Endereços que terminam na sigla SC do estado de Santa Catarina estão sendo transpostos para “South Carolina, USA”. A cidade de Santiago de Cuba é associada à Espanha e a de Cachoeiro de Itapemirim está sendo transferida para Belize (nesse caso a sigla encontrada foi BZ) e Vitória para a Espanha. Problemas como esse originados na própria editora da base acabam gerando trabalho adicional na pesquisa bibliométrica e a perda de eficiência das buscas geográficas.

4.2. Um problema não exclusivo da Embrapa

Tais problemas na afiliação dos autores não são exclusivos da Embrapa. Eles afetam todas as instituições com as quais a Embrapa produziu documentos científicos. Veja, no Quadro 3, uma estatística da diversidade de grafias referentes aos nomes dos cinco principais parceiros da Embrapa na elaboração dos seus artigos. Para efeito didático, de demonstrar a extensão e o alcance desse problema de padronização, acrescentamos cada uma dessas listas no Anexo de 165 páginas disponibilizado em link da Internet da Embrapa. Veja o link para o arquivo no final do trabalho.

Quadro 3
Estatísticas de artigos e grafias dos cinco principais parceiros da Embrapa em artigos na base Web of Science.
Estatísticas de artigos e grafias dos cinco principais
parceiros da Embrapa em artigos na base Web
of Science.
Fonte: Dados da pesquisa.*Nota: Os escores de afiliações da UNESP e USP-ESALQ superiores ao próprio número de artigos podem ser explicados pela existência de dois ou mais autores que, num mesmo artigo, citaram sua afiliação de maneira diferente.

Quando examinados no nível micro, isto é, do centro de pesquisa, esses erros de padronização têm o poder de se multiplicar de forma exponencial. Por exemplo, a Embrapa Recursos Genéticos e Biotecnologia possui 1.545 artigos científicos publicados no período na WoS, nos quais foram encontradas 1.188 diferentes afiliações.

Para efeito de contagem da produção científica na base WoS, cada uma das diferentes grafias (1.188) corresponde a uma instituição. Essa é a principal razão porque, apesar de produzir artigos suficientes para figurar sozinha entre as 50 primeiras instituições do país, a Embrapa Recursos Genéticos e Biotecnologia aparece, na base não tratada, na sua primeira menção, “Embrapa Recursos Genet & Biotecnol, BR-70770900 Brasilia, DF, Brazil”, com 174 artigos. Esse escore corresponderia aproximadamente ao 700º lugar das instituições brasileiras. Essas 1.188 diferentes entradas da Embrapa Recursos Genéticos e Biotecnologia também estão acessíveis no Anexo deste artigo.

O problema se reproduz, por exemplo, numa universidade, quando se desce ao nível do Departamento e vai além, nos dois casos, da Embrapa e de Instituições de Ensino Superior (IES), quando se contempla mais um nível, ou seja, o de Laboratório ou Grupo de Pesquisa. Nesse nível ocorrem os piores erros, que, muitas vezes, impedem inclusive a atribuição do artigo a qualquer instituição. É comum a inversão da afiliação, citando primeiro o laboratório, em seguida o departamento e, por último, a instituição. O bom senso indica a ordem inversa, sempre; instituição, departamento, laboratório.

A inversão de afiliação é um erro dos autores e carrega consigo a pior falta de exatidão, que é a elisão da instituição. Nesse caso aparecem entradas como “Bioagri Labs, BR-13412000 Piracicaba, SP, Brazil”, “Ctr Terapia Celular, Ribeirao Preto, SP, Brazil”, “Dept Biol Celular, Sao Paulo, Brazil”, “Dept Bioquim, Rio De Janeiro, Brazil”, “Dept Endodont, Rio De Janeiro, Brazil”, “Dept Biol Celular, Brasilia, DF, Brazil”, “Depto Desenvolvimento Ensino, Sao Paulo, Brazil”, “Lab Anim Physiol & Behav, Sao Paulo, Brazil”, “Lab Apoio Anim, Pernambuco, Brazil”, “Lab Biol Celular, Rio De Janeiro, Brazil”, “Lab Citogent, Sao Paulo, Brazil”, “Lab Mass Spectrometry, Brasilia, DF, Brazil”, “Mol Biol Lab, Brasilia, DF, Brazil”. Existem cidades que são sedes de mais de uma universidade. Nesses casos, como identificar a instituição?

Esse erro dos autores é comum também em instituições estrangeiras: “Dept Ecol & Biol, Tucson, AZ 85721 USA”, “DEPT AGR, DIV ENTOMOL, BANGKOK, THAILAND”, “Lab Cytogenet & Gebine Res, B-3000 Louvain, Belgium”, “Lab Invest Aplicada, Cordoba 14080, Spain”, “Opt Labs, Islamabad, Pakistan”, “QTL & Modifier Loci Grp, MRC Mammalian Genet Unit, Harwell, Oxon, England”, “Res Inst, Trichy 9, Tamil Nadu, India”, “Vet Informat & Epidemiol Res Grp, Glasgow G1 1XH, Lanark, Scotland”. Assim, torna-se difícil, quase impossível, descobrir a instituição de origem do(s) autor(es) do artigo e, por consequência, contar corretamente a produção científica da organização.

A menção do CEP ajuda, pois em alguns casos, para classificar a produção científica da Embrapa por centro de pesquisa esse foi o único identificador possível para as cidades onde a Empresa tem mais de um centro de pesquisa. No entanto, via de regra, quando os autores fazem a inversão de afiliação, há uma grande probabilidade de que a instituição responsável perderá esse artigo na contagem de sua produção científica, sobretudo quando se trata de rankings nacionais ou internacionais.

Tais efeitos são claramente sentidos no âmbito da Embrapa. A recuperação de 18.188 artigos da Empresa entre 1973 e 2015 a credencia como uma das dez primeiras instituições produtoras de artigos científicos indexados na WoS. No entanto, a maioria dos rankings de instituições brasileiras realizados a partir dessa base consegue enxergar melhor as universidades, ao passo que a Embrapa é vista de forma parcial (BRASIL, 2008; GOIS, 2008; GREGOLIN et al., 2005; LETA; CRUZ, 2003). Trata-se de uma perda considerável de visibilidade pública na base WoS, tanto da Empresa como de seus centros de pesquisa, parcialmente corrigida internamente pelo trabalho de acompanhamento da produção científica da Empresa na WoS realizado pela Secretaria de Gestão e Desenvolvimento Institucional (SGI), vinculada à própria Embrapa.

No caso geral das instituições brasileiras esses erros repetidos e constantes acarretam a perda de lugares preciosos nos rankings de IES, que estão se tornando cada vez mais populares em todos os continentes.

5 Conclusões e considerações finais

A partir da constatação dos problemas relatados os resultados preliminares deste estudo foram apresentados internamente a um grupo de trabalho coordenado pela Embrapa Informação Tecnológica, que propôs à presidência da Empresa a regulamentação da afiliação institucional dos seus empregados em publicações nacionais e internacionais. Essa proposta se materializou com a edição de uma resolução normativa interna em março de 2016 (EMBRAPA, 2016) com as seguintes determinações:

Agradecimento

Os autores agradecem o apoio recebido de Rosângela Galon Arruda e Alessandra Rodrigues da Silva, analistas da Embrapa Informação Tecnológica, na busca desses resultados.

Referências

BOURNE, Charles Percy. Frequency and impact of spelling errors in bibliographic databases. Information Processing & Management, Elmsford, NY, v. 13, n. 1, p. 1-12, 1977.

BRASIL. Ministério da Ciência e Tecnologia. Indicadores Nacionais de Ciência, Tecnologia e Inovação. Disponível em: . Acesso em: 18 mai. 2016.

EMBRAPA. Resolução Normativa n°4. Boletim de Comunicações Administrativas. Brasília: Embrapa, 2016.

EMBRAPA. Manual de editoração. Disponível em: . Acesso em: 18 mai. 2016.

EMBRAPA. Política de Comunicação. Brasília: Embrapa Informação Tecnológica, 2002. Disponível em: . Acesso em: 18 mai. 2016.

GOIS, Antônio. ITA lidera em produtividade científica. Folha de S. Paulo, São Paulo, 14 jan. 2008. Caderno Ciência, A10.

GREGOLIN, José Ângelo Rodrigues et al. Análise da produção científica a partir de indicadores bibliográficos. In: LANDI, Francisco Romeu; GUSMÃO, Regina (Coord.). Indicadores de ciência, tecnologia e inovação em São Paulo 2004. São Paulo: FAPESP, 2005. 2 v. Disponível em: . Acesso em: 18 mai.2016.

HOOD, William; WILSON, Concepción. Informetric studies using databases: opportunities and challenges. Scientometrics, Dordrecht, v. 58, n. 3, p. 587-608, 2003.

LETA, Jacqueline; CRUZ, Carlos Henrique de Brito. A produção científica brasileira. In: VIOTTI, Eduardo. B.; MACEDO, Mariano de M. (Orgs.). Indicadores de ciência, tecnologia e inovação no Brasil. Campinas: Editora da Unicamp, 2003. p. 123-168.

PENTEADO FILHO, Roberto de Camargo. Création de systèmes d'intelligence dans une organisation de recherche et développement avec la scientométrie et la médiamétrie. 2006. 328 p. Tese (Doutorado) - Université du Sud, Toulon Var, Toulon, 2006.

PENTEADO FILHO, Roberto de Camargo; FONSECA JÚNIOR, Wilson Corrêa da; AVILA, Antonio Flavio Dias. Perfil da produção científica da Embrapa entre 2007 e 2015: oportunidades e desafios. Documentos (Embrapa SGI) (1679-4680), v. 17, 2016. No prelo.

TAŞKIN, Zehra; AL, Umut. Standardization problem of author affiliations in citation indexes. Scientometrics, Dordrecht, v. 98, n. 1, p. 347-368, jan. 2014.

Autor notes

1 Doutor; Empresa Brasileira de Pesquisa Agropecuária, Brasília, DF, Brasil;

roberto.penteado@embrapa.br

2 Doutor; Empresa Brasileira de Pesquisa Agropecuária, Brasília, DF, Brasil;

wilson.fonseca@embrapa.br

HMTL gerado a partir de XML JATS4R por