Artigos

Um processo para caracterização e análise de redes de colaboração científica institucional

A process for characterization and analysis of networks scientific collaboration institutional

Thiago Magela Rodrigues DIAS
Centro Federal de Educação Tecnológica de Minas Gerais, Brasil
Roberth Santos GOMES
Universidade do Estado de Minas Gerais, Brasil
Jhonatan Fernando OLIVEIRA
Universidade do Estado de Minas Gerais, Brasil
Gray Farias MOITA
Centro Federal de Educação Tecnológica de Minas Gerais, Brasil

Um processo para caracterização e análise de redes de colaboração científica institucional

Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, vol. 22, núm. 48, pp. 59-72, 2017

Universidade Federal de Santa Catarina

Recepção: 11 Fevereiro 2016

Aprovação: 10 Novembro 2016

Resumo: O conhecimento é nos dias atuais fator primordial na definição e análise do desenvolvimento de um país e de sua população como um todo. A construção do conhecimento ocorre inevitavelmente através de colaborações, onde pesquisadores se reúnem em prol de objetivos em comum, formando as redes de colaboração científica. Tais redes são caracterizadas quando pesquisadores realizam e publicam seus trabalhos de forma conjunta, independentemente da instituição ou região geográfica em que estejam localizados. A colaboração científica entre instituições distintas, possibilita o intercâmbio de conhecimento e consequentemente efetiva troca de experiências, impulsionando a evolução da ciência. Nesse contexto, analisar tais redes pode proporcionar conhecimento sobre como vem ocorrendo à colaboração científica entre instituições de pesquisa e o quanto estas colaborações tem contribuído para a excelência das pesquisas realizadas. Este trabalho tem como objetivo analisar as redes de colaborações institucionais a partir de dados dos currículos Lattes. As redes são caracterizadas pelas colaborações entre pesquisadores de diferentes instituições, após a caracterização das redes, técnicas de visualização de grande volume de dados e métricas de análise de redes são aplicadas para verificar como a colaboração científica nacional tem ocorrido.

Palavras-chave: Redes de colaboração científica, Extração de dados, Recuperação da informação.

Abstract: Knowledge is, nowadays, a key factor in defining and analyzing the development of a country and its population as a whole. The construction of knowledge inevitably occurs through collaborations, where researchers gather towards common goals, forming the scientific collaboration networks. Such networks are characterized when researchers perform and publish their work jointly, regardless of the institution or geographic region in which they are located. The scientific collaboration between different institutions enables the exchange of knowledge and consequently effective exchange of experiences, promoting the evolution of science. In this context, analyzing such networks can provide knowledge as it has the scientific collaboration between research institutions and how these collaborations have contributed to the excellence of the research conducted. This job aims to analyze the network of institutional collaborations from data from Lattes Curriculum. Networks are characterized by collaboration between researchers from different institutions after the characterization of networks, large data visualization techniques and metrics of network analysis are applied to see how the national scientific collaboration has occurred.

Keywords: Networks scientific collaboration, Data extraction, Recovery information.

1 INTRODUÇÃO

A colaboração científica, objeto de estudos de vários trabalhos vem evoluindo ao longo dos anos. Os autores Beaver e Rosen (1978), em seu trabalho, afirmam que o primeiro artigo científico escrito de forma colaborativa entre diferentes pesquisadores, surgiu em 1678. Com o passar dos anos as redes de colaboração científica foram se consolidando e passaram a ter relação direta com o crescimento do conhecimento científico e das comunidades de pesquisa como um todo.

Nudelman e Landers (1972), sugerem que a credibilidade concedida pela comunidade científica a artigos de autoria conjunta é consideravelmente maior do que a creditada a artigos de autoria única, o que posteriormente é comprovado por Goffman e Warren (1980), ao mostrarem que as pesquisas desenvolvidas por grandes grupos tendem a ter mais influência no meio científico.

Portanto, visualizar a colaboração ocorrida na construção do conhecimento passa a ser algo relevante para que se possa mensurar o grau de importância de cada região ao longo deste processo, podendo auxiliar instituições, agências de fomento ou órgãos governamentais no direcionamento mais assertivo de seus investimentos.

No contexto deste trabalho, para a modelagem e caracterização de redes de institucionais, em especial, de instituições brasileiras, a Plataforma Lattes surge como excelente fonte de dados. A Plataforma Lattes tem como objetivo representar a experiência do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) na integração de bases de dados de currículos, grupos de pesquisa e de instituições em um único sistema de informações. Cadastrar um currículo na plataforma e mantê-lo atualizado, atualmente, é indicado e está disponível a todos aqueles inseridos no contexto acadêmico e/ou científico. Isto se deve em função de sua adoção pela maior parte das instituições de fomento, universidades e institutos de pesquisa do país. A riqueza de informações providas pela plataforma em função de seu constante crescimento, abrangência e confiabilidade, torna-a indispensável e compulsória na análise meritória a pleitos de financiamentos de pesquisas científicas e tecnológicas. Lane (2010) destaca a Plataforma Lattes como excelente fonte para medição das produções científicas, em seu artigo publicado na revista Nature.

Em fevereiro de 2016, a plataforma Lattes atingiu a marca de 4.480.000 currículos cadastrados. Estes currículos estão disponíveis para consulta, porém, a consulta do currículo de forma isolada fragmenta o conhecimento disposto no conjunto de currículos, além do fato que a ferramenta de consulta disponibilizada pela própria plataforma Lattes não permite a identificação de colaborações científicas, por este motivo, o processamento e análise do grande volume de dados torna-se essencial para transformação destes currículos em conjunto de dados que possam auxiliar na compreensão de como ocorre a colaboração científica institucional no Brasil e ainda nas tomadas de decisões sobre a distribuição de recursos e investimentos.

Atualmente não há ferramentas que possibilitem a visualização de mapas de colaboração entre as instituições de pesquisa no cenário nacional. Essa ausência de ferramenta corrobora para inexistência de trabalhos compostos por embasamento visual que demonstre o grau de colaboração entre instituições de pesquisa no que tange ao conhecimento provido em determinada área do conhecimento.

Portanto, o objetivo deste trabalho consiste na exploração da plataforma Lattes como principal fonte de informação, a fim de caracterizar redes de colaboração e aplicar técnicas de visualização de grande volume de dados através da geração de mapas de colaboração institucionais.

2 MATERIAIS E MÉTODOS

Os dados dos currículos Lattes utilizados para a caracterização das redes foram obtidos pela plataforma de extração e integração de dados proposta por Dias e Moita (2014). Na plataforma desenvolvida pelos autores, é apresentado que o processo de extração e integração dos dados foi dividido em três partes principais denominadas: Extração, Processamento e Visualização. Porém, neste trabalho somente foram utilizados os resultados da etapa de extração dos currículos, tendo em vista, que para a identificação das colaborações utiliza-se dos dados das publicações cadastradas em cada um dos artigos, como título e autores. Figura 1.

Arquitetura da Plataforma de Extração e Integração
Figura 1
Arquitetura da Plataforma de Extração e Integração
Fonte: Dias e Moita (2014).

Todos os currículos extraídos são armazenados em disco em formato XML (eXtensible Markup Language). Na etapa de extração, várias falhas estruturais que estão nos currículos são corrigidas. Erros estes que dificultam o processo de análise dos dados. Importante ressaltar que neste caso, tratamentos de exceções foram desenvolvidos para contornar estes problemas e permitir que os arquivos sejam salvos normalmente e com o máximo de consistência possível. Os autores destacam que, diante do conjunto de currículos extraídos é possível realizar diversos tipos de análises bibliométricas, já que todos os dados dos currículos estão armazenados em arquivos estruturados. Tendo em vista a grande quantidade de dados extraídos, um grande desafio para a compreensão de como acontece a colaboração científica nacional passa a ser a identificação das colaborações. Para isso, o processo de identificação proposto por Dias e Moita (2015) é utilizado. Tal processo permite identificar colaborações científicas com base nos títulos das publicações de trabalhos em conjuntos com grande quantidade de dados, apresentando resultados satisfatórios com baixo custo computacional.

De posse de todas as colaborações devidamente identificadas entre pares de pesquisadores, o nome das instituições e o respectivo endereço profissional de cada pesquisador são considerados e dessa forma é possível identificar a colaboração entre as instituições, nesse caso, caracterizada pelo trabalho publicado por pesquisadores de instituições distintas, sendo utilizado a instituição de pesquisa atual para a caracterização das redes institucionais.

3 MODELAGEM E CARACTERIZAÇÃO

Para análise e visualização das informações, foi necessário o desenvolvimento de uma plataforma utilizando a linguagem Python. Os principais motivos pela escolha da linguagem, consistem: na praticidade; otimização dos códigos e no alto poder de processamento de grandes volumes de dados textuais, todos obtidos através de bibliotecas nativas da linguagem ou desenvolvidas por terceiros.

A plataforma desenvolvida, permite processar e analisar os dados do repositório Lattes, podendo ser parametrizada para trabalhar com áreas específicas do conhecimento como, por exemplo, as nove grandes áreas: Ciências Exatas e da Terra; Ciências da Saúde; Linguística, Letras e Artes; Ciências Biológicas; Engenharias; Ciências Humanas; Ciências Agrárias; Ciências Sociais Aplicadas e Outras. Áreas estas extraídas do currículo de cada pesquisador.

Diante os dados referente as colaborações que foram identificadas, as manipulações e análises são realizadas pela plataforma desenvolvida. As etapas descritas abaixo relatam o funcionamento da plataforma:

A figura 2 descreve o funcionamento da plataforma proposta, nela as etapas: seleção de dados, manipulação dos arquivos e processamento de dados, descritas anteriormente, estão representadas por análise / processamento dos dados.

Funcionamento da plataforma proposta.
Figura 2
Funcionamento da plataforma proposta.
Fonte: Os autores.

Os mapas foram gerados, utilizando como parâmetro a instituição atual informada no currículo dos pesquisadores, logo, todas as colaborações realizadas (independente do período) foram acrescidas a instituição atual a qual estão vinculados. Quando o pesquisador migra de uma instituição, a atual recebe todas as suas produções realizadas nas instituições anteriores, já que não neste trabalho não é possível vincular a colaboração a instituição da época.

Em função do objetivo do presente trabalho (gerar mapas de colaboração institucionais), os currículos que não possuem instituição de atuação registrado foram descartados, pois a ausência das informações de sua instituição, impossibilita a manipulação das informações nos mapas.

4 RESULTADOS OBTIDOS

Para a análise e processamento dos dados aqui apresentados, utilizou-se como amostra os bolsistas de produtividade em pesquisa do CNPq, bem como suas respectivas colaborações. A escolha dos bolsistas justifica-se por serem os pesquisadores de excelência do país e tendo em vista que um dos critérios para receber a bolsa é manter o currículo Lattes atualizado, logo estes se caracterizam como um excelente conjunto para análise.

Além da definição da amostra, utilizou-se como filtro, a grande área Ciências Exatas e da Terra, por ser a com o maior número de bolsistas, conforme representado no gráfico 1. Os bolsistas dessa grande área, correspondem a 23% do total de bolsistas do país, sendo todos eles doutores.

Bolsistas por grande área.
Gráfico 1
Bolsistas por grande área.
Fonte: Os autores.

Para melhor representação visual e apresentação tabular dos resultados, apenas as colaborações entre 30 instituições de pesquisa com o maior número de bolsistas foram consideradas. O critério para definição das instituições foi o de bolsistas a elas vinculados. O ranking das 30 instituições está representado na tabela 1.

Tabela 1
Instituições de pesquisa selecionadas
CódigoInstituiçãoSiglaN°. de bolsistas
1Universidade de São PauloUSP499
2Universidade Federal do Rio de JaneiroUFRJ213
3Universidade Federal de Minas GeraisUFMG153
4Universidade Estadual Paulista Júlio de Mesquita FilhoUNESP144
5Universidade Estadual de CampinasUNICAMP200
6Universidade Federal do Rio Grande do SulUFRGS160
7Universidade Federal de Santa CatarinaUFSC71
8Universidade de BrasíliaUNB79
9Universidade Federal de PernambucoUFPE89
10Universidade Federal do ParanáUFPR75
11Universidade Federal FluminenseUFF97
12Universidade do Estado do Rio de JaneiroUERJ37
13Universidade Federal de ViçosaUFV27
14Universidade Federal do CearáUFC67
15Universidade Federal de São PauloUNIFESP21
16Universidade Federal de São CarlosUFSCAR64
17Fundação Oswaldo CruzFIOCRUZ6
18Universidade Federal de Santa MariaUFSM41
19Universidade Federal da BahiaUFBA51
20Pontifícia Universidade Católica do Rio de JaneiroPUC-RIO57
21Universidade Federal da ParaíbaUFPB51
22Universidade Federal do Rio Grande do NorteUFRN48
23Empresa Brasileira de Pesquisa AgropecuáriaEMPRAPA7
24Universidade Estadual de MaringáUEM32
25Universidade Federal de LavrasUFLA12
26Universidade Federal de GoiásUFG34
27Universidade Federal do ParáUFPA28
28Universidade Federal de UberlândiaUFU36
29Pontifícia Universidade Católica do Rio Grande do SulPUCRS14
30Universidade Federal de PelotasUFPEL20
Fonte: Os autores.

Os mapas de colaboração, demonstrados nas figuras 3 e 4, representam todo processamento e análise realizada sobre os dados da grande área Ciências Exatas e da Terra. Neles constam apenas as colaborações interinstituições (entre pesquisadores de instituições distintas). Informações relevantes podem ser extraídas através da sua análise visual, como por exemplo, a maior concentração das publicações nas regiões sudeste do país, intensificadas em sua grande maioria por instituições federais, como: Universidade de São Paulo, Universidade Federal do Rio de Janeiro e Universidade Federal de Minas Gerais. Em contra partida, temos a imaturidade da rede, tendo em vista a relação direta de dependência de instituições para proliferação do conhecimento.

Mapa de colaboração interinstituições de todo o país.
Figura 3
Mapa de colaboração interinstituições de todo o país.
Fonte: Os autores.

Mapa dos estados com colaborações
Figura 4
Mapa dos estados com colaborações
Fonte: Os autores.

Fonte: Os autores.

O gráfico 2 demonstra a representatividade das principais instituições de pesquisa no processo de proliferação do conhecimento. Nele, para melhor visualização, as instituições que possuem um percentual de representatividade inferior a 2%, estão agrupadas em outros. Em sequência, o ranking das colaborações interinstituições, representado na tabela 2, complementa as informações apresentadas no gráfico.

Representatividade das instituições nas colaborações interinstituições.
Gráfico 2
Representatividade das instituições nas colaborações interinstituições.
Fonte: Os autores.

Tabela 2
Ranking de colaborações interinstituições
InstituiçãoN. de colaborações%
USP92213,95%
UNESP69610,53%
UFMG4867,35%
UFPR4546,87%
UFF4266,45%
UFRJ4116,22%
UNICAMP3775,71%
UFSCAR3575,40%
UFSM2994,52%
UFRGS2383,60%
UNB2053,10%
UFSC1942,94%
UNIFESP1752,65%
UFPE1612,44%
UFU1572,38%
UFV1311,98%
UFC1171,77%
UFLA1141,73%
UFRN1051,59%
PUC-RIO991,50%
UFPB881,33%
UFBA741,12%
UFPA711,07%
UFPEL650,98%
UFG470,71%
FIOCRUZ400,61%
UEM400,61%
UERJ280,42%
EMPRAPA160,24%
PUCRS150,23%

Pelo gráfico 3, verifica-se que quando a análise das colaborações é realizada de forma proporcional ao número de bolsistas que cada instituição possui, há modificação no ranking. Como exemplo, pode se mencionar a USP, que tem um número considerável de colaborações em função da quantidade de bolsistas que possui, pois quando a análise é realizada de forma per capita, sua representatividade diminui o que comprova que nem todos os seus bolsistas publicam com a mesma intensidade.

Colaborações per capita
Gráfico 3
Colaborações per capita
Fonte: Os autores.

Importante mencionar que a proximidade das instituições de pesquisa em alguns estados, prejudica a visibilidade de suas respectivas colaborações no mapa apresentado. Como exemplo, as instituições de pesquisa do estado do Rio de Janeiro. O estado possui cinco instituições dentre o conjunto selecionado, e destas, quatro estão em sua capital. Portanto, ao gerar o grafo utilizando as coordenadas geográficas, em função da escala do mapa político do Brasil, as instituições ficam praticamente sobrepostas. Quanto as colaborações, a UFRJ e UERJ, por exemplo, possuem 20 entre si, no mapa tal informação não pode ser visualizada. Situação semelhante também ocorre no estado de São Paulo.

Esta situação de difícil solução, contribui com a ausência de trabalhos correlatos que tratem instituições de pesquisa dentro de um contexto nacional. Em virtude da dificuldade mencionada e para complementar à informação visual apresentada no mapa, uma matriz de colaborações foi gerada e está sendo representada nas figuras 5 e 6. Na matriz é possível verificar com quais instituições de pesquisa houve as colaborações com suas respectivas quantidades.

Matriz de colaborações.
Figura 5
Matriz de colaborações.
Fonte: Os autores.

Continuação da matriz de colaborações.
Figura 6
Continuação da matriz de colaborações.
Fonte: Os autores.

Como exemplo de possibilidade de informações que podem ser obtidas através da exploração qualitativa da matriz apresentada, realizou-se uma análise, com a finalidade de identificar porque a maior parte das colaborações realizadas pela PUCRS ocorreram com a UFRGS. Os fatores primordiais foram: pesquisadores terem pelo menos uma formação acadêmica em conjunto, ou por publicarem com seus orientadores.

A tabela 3 representa o ranking das colaborações intra-instituição (entre pesquisadores da mesma instituição). Embora estas colaborações não sejam o foco principal do trabalho, sua análise foi fundamental para posterior comparação entre as colaborações interinstituições, possibilitando verificar não apenas a representatividade de cada instituição, mas também como ocorreram as suas colaborações.

Tabela 3
Ranking de colaborações intrainstituição
InstituiçãoN. de colaborações%
USP48816,43%
UFRGS2769,29%
UFMG2357,91%
UNESP2177,30%
UNB1715,76%
UFRJ1615,42%
UNICAMP1595,35%
UFSM1274,27%
UFPR1183,97%
UFC1173,94%
UFPE1153,87%
UFSCAR1003,37%
UFF792,66%
UEM692,32%
UFPB662,22%
UFSC602,02%
UFPEL591,99%
UFU571,92%
UERJ511,72%
UFBA511,72%
UFV471,58%
UFRN441,48%
UFG250,84%
PUC-RIO240,81%
UFLA180,61%
UNIFESP110,37%
UFPA100,34%
FIOCRUZ90,30%
PUCRS70,24%
EMPRAPA00,00%
Fonte: Os autores.

As colaborações das instituições selecionadas, correspondem a um total de 6275. Destas, 3304 (52.65%) são interinstituições e 2971 (47,35%) intra-instituição, ou seja, a diferença apresentada é relativamente pequena.

A tabela 4 detalha como as instituições de pesquisa contribuíram através das suas colaborações. Nesta é possível verificar que as instituições de pesquisa UFRGS, UERJ e UEM; possuem menos de 50% das suas publicações com instituições distintas, ou seja, a maior parte do conhecimento gerado nas instituições ocorre entre seus próprios pesquisadores. Em contra partida, EMPRAPA (100%), UNIFESP (94%), UFPA (88%) e FIOCRUZ (82%) tem grande parte do conhecimento provido realizado de forma conjunta com outras instituições.

Analisando de forma isolada a instituição EMPRAPA, verifica-se que grande parte dos seus bolsistas selecionados, são da área de química e têm pelo menos uma de suas formações acadêmicas na USP, porém as datas de formação são distintas, assim como a data de ingresso a instituição, o que possivelmente justifica o fato de todas as colaborações serem realizadas com outras instituições de pesquisa.

As instituições USP, UNESP e UFMG que estão no topo do ranking de colaborações interinstituições, possuem respectivamente os seguintes percentuais: 65%, 76% e 67%; ou seja, mesmo tendo uma intensidade considerável nas colaborações com outras instituições, ainda possuem um percentual relevante de publicações intra-instituição.

Tabela 4
Detalhamento das colaborações
InstituiçãoT. de colaboraçõesIntra-Instituição%Interinstituições%
USP141048835%92265%
UFRJ57216128%41172%
UFMG72123533%48667%
UNESP91321724%69676%
UNICAMP53615930%37770%
UFRGS51427654%23846%
UFSC2546024%19476%
UNB37617145%20555%
UFPE27611542%16158%
UFPR57211821%45479%
UFF5057916%42684%
UERJ795165%2835%
UFV1784726%13174%
UFC23411750%11750%
UNIFESP186116%17594%
UFSCAR45710022%35778%
FIOCRUZ49918%4082%
UFSM42612730%29970%
UFBA1255141%7459%
PUC-RIO1232420%9980%
UFPB1546643%8857%
UFRN1494430%10570%
EMPRAPA1600%16100%
UEM1096963%4037%
UFLA1321814%11486%
UFG722535%4765%
UFPA811012%7188%
UFU2145727%15773%
PUCRS22732%1568%
UFPEL1245948%6552%
Fonte: Os autores.

5 CONCLUSÕES

Através das técnicas aplicadas, foi possível analisar um grande volume de dados e visualizar a representatividade dos principais institutos de pesquisa do país, no processo evolutivo da ciência referente a grande área Ciências Exatas e da Terra. Demonstrando dessa forma a viabilidade da adoção do processo de análise de redes de colaborações institucionais, proposto neste trabalho.

Pelo estudo realizado, conclui-se que embora a comunidade científica brasileira esteja cada vez mais receptiva as análises de redes de colaboração, o percentual de publicações entre pesquisadores da mesma instituição ainda é relativamente alto, contribuindo com o baixo intercâmbio de informações, dificultando a proliferação do conhecimento e consequentemente a evolução científica. Há ainda uma relação direta de dependência de algumas instituições na consolidação da rede, caracterizando-as como redes pouco conectadas.

REFERÊNCIAS

BEAVER, Donald B.; ROSEN, Robert. Studies in Scientific Collaboration: part I: the professional origins of scientific co-authorship. Scientometrics, Budapeste, v. 1, n. 1, p. 65-84, 1978.

DIAS, Thiago. M. R.; MOITA, Gray F.; DIAS, Patrícia M.; MOREIRA, Tales H. J. Identificação e Caracterização de Redes Científicas de Dados Curriculares. iSys: Revista Brasileira de Sistemas de Informação, Rio de Janeiro , v. 7, n. 3, p. 5-18, 2014.

DIAS, Thiago M. R.; MOITA, Gray F. Method for Identification of Collaborations in Large Scientific Databases. Em Questão, Porto Alegre, v. 21. n. 2, p. 140-161, 2015.

GOFFMAN, William; WARREN, Kenneth S. Scientific information systems and the principle of selectivity. New York: Praeger, 1980. p. 127.

LANE, J. Let's make science metrics more scientific. Nature, v. 464, n. 7288, p. 488-489, 2010.

NUDELMAN, Arthur. E.; LANDERS, Clifford. E. The failure of 100 divided by 3 to equal 33 1/3. The American Sociologist, v. 7, n. 9, p. 9-11, 1972.

SIDONE, Otávio. J. G. Análise Espacial do Conhecimento no Brasil: Parte II - Redes de Colaboração Científica. Boletim de Informações FIPE - Temas de Economia Aplicada, n. 400, p. 19-27, 2014.

Informação adicional

Editores do artigo: Adilson Luiz Pinto, Rafaela Paula Schmitz e Enrique Muriel-Torrado

HMTL gerado a partir de XML JATS4R por