Artigo
Recomendações para a integração de publicações ampliadas em repositórios digitais confiáveis
Recommendations for the integration of enhanced publications in trustworthy digital repositories
Recomendações para a integração de publicações ampliadas em repositórios digitais confiáveis
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, vol. 24, núm. 55, pp. 1-23, 2019
Universidade Federal de Santa Catarina
Recepção: 08 Agosto 2018
Aprovação: 10 Janeiro 2019
Resumo:
Objetivo: Estabelecer recomendações para a integração de publicações ampliadas em repositórios digitais confiáveis. As publicações ampliadas se configuram como objetos digitais compostos e estão adquirindo relevância na pesquisa científica como forma de compartilhar os dados de pesquisa.
Método: Utiliza uma pesquisa qualitativa com caráter exploratório que analisa as publicações ampliadas e as abordagens presentes na literatura, bem como iniciativas atuais para arquivamento em repositórios de objetos de pesquisa. Além da análise, combinam-se os requerimentos gerais para repositórios digitais confiáveis da Research Library Group (RLG) e Online Computer Library Centre (OCLC), as pautas da norma ISO 16363:2012 e os requerimentos para sistemas de informação que trabalhem com publicações ampliadas.
Resultado: Propõe-se uma série de recomendações e formas de execução para a integração de publicações ampliadas em repositórios digitais confiáveis.
Conclusões: Essas recomendações podem servir como base para futuros desenvolvedores de repositórios que queiram construir um marco de trabalho confiável para tal tipo de publicações.
Palavras-chave: Publicação ampliada, Investigação multimodal, Repositórios digitais confiáveis, Infraestrutura de informação.
Abstract:
Objective: Establish recommendations for the integration of enhanced publications into trustworthy digital repositories. Enhanced publications are configured as composite digital objects and are acquiring relevance in scientific research as a way of sharing research data.
Methods: This paper uses exploratory qualitative research that analyses enhanced publications and the approaches present in the literature, as well as current initiatives for archiving research objects in repositories. In addition to the analysis, the general requirements for trustworthy digital repositories of the Research Library Group (RLG) and Online Computer Library Centre (OCLC), the guidelines of ISO 16363:2012 and the requirements for information systems that work with extended publications are combined.
Results: We propose a series of recommendations and execution methods for the integration of enhanced publications into trustworthy digital repositories.
Conclusions: These recommendations can serve as a basis for future repository developers who want to build a solid framework for such publications.
Keywords: Enhanced publications, Multimodal scholarship, Trustworthy digital repositories, Information infrastructure.
1 INTRODUÇÃO
Os dados de pesquisa têm adquirido uma grande relevância na pesquisa científica. O dinamismo da prática científica atual se deve, em parte, aos dados, os quais têm se convertido no pilar principal da ciência (TENOPIR et al., 2011, HEY; TANSLEY; TOLLEY, 2009). Por meio de relatórios como Science as an open enterprise (2012) da Royal Society de Londres ou Amsterdam Call forAction on Open Science (2016), promove-se ativamente o compartilhamento de dados por parte da comunidade científica. Esse movimento é conhecido globalmente como e-Science a partir do livro O Quarto Paradigma (HEY; TANSLEY; TOLLEY, 2009) ou Ciência Aberta (termo mais abrangente defendido pela iniciativa europeia FOSTER Open Science[1]).
Os dados de pesquisa vão além dos dados brutos coletados e podem ser definidos de diferentes formas. Assim, a Fundação Nacional de Ciência dos Estados Unidos (National Science Foundation – NSF) destaca a natureza diversa dos dados que incluem “[...] números, imagens, vídeos ou áudios, software e informação da versão do software, algoritmos, equações, animações ou modelos/simulações” (NSF, 2005, p. 18). A Comissão Europeia também destaca a heterogeneidade dos dados no âmbito da pesquisa, considerados como “[...] estatísticas, resultados de questionários, gravações de entrevistas e imagens” (COMISSÃO EUROPEIA, 2017, p. 16). No Brasil, para a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), um projeto científico produz dados como “[...] amostras, registros de coletas, formulários, modelos, resultados experimentais, software, gráficos, mapas, vídeos, planilhas, gravações de áudio, banco de dados, material didático e outros” (FAPESP, 2017). Desde as próprias instituições, também surgem demandas de planos de gestão de dados que sejam apresentados junto à proposta de projeto. Um exemplo é o programa europeu Horizon2020, que inclui um apartado específico sobre o tratamento dos dados de pesquisa, a descrição do tipo de dado coletado, a metodologia e os padrões aplicados, a especificação do compartilhamento dos dados ou a sua disponibilização como dados abertos e como serão curados e preservados[2].
Segundo as definições anteriores, os dados de pesquisa são todos os produtos resultantes de uma investigação, além do artigo textual. Esses produtos devem ser entendidos como contribuições intelectuais dos pesquisadores (PIWOWAR, 2013) e, para isso, uma das formas possíveis de publicação é criar uma publicação ampliada ou enriquecida com os dados. Woutersen-Winhouwer e Brandsma (2009) propõem uma combinação do artigo e os dados de forma que a pesquisa “[...] se amplie com dados de pesquisa como prova da investigação, recursos adicionais para ilustrar ou esclarecer ou dados pós-publicação como comentários ou rankings” (Woutersen-Winhouwer e Brandsma. 2009, p. 79, tradução própria).
Para cumprir com o ponto da preservação dos dados, os ambientes informacionais digitais, como os repositórios, precisam se adaptar a novas configurações para absorver os diferentes tipos de formatos presentes entre os produtos de pesquisa, além de garantir seu arquivamento em longo prazo.
Isso exposto, o objetivo principal deste trabalho é estabelecer recomendações para a introdução de publicações ampliadas em repositórios digitais confiáveis, a partir dos marcos de trabalho propostos, tanto para repositórios digitais confiáveis quanto para publicações ampliadas respectivamente.
Para atingir tal objetivo, este texto segue a seguinte estrutura: a presente seção introduz o tema, a problemática e o objetivo da pesquisa; a segunda seção descreve os procedimentos metodológicos; a terceira seção descreve a publicação ampliada; a quarta seção apresenta os repositórios digitais e algumas iniciativas para produtos de pesquisa; a quinta seção enuncia as recomendações para trabalhar com publicações ampliadas em repositórios digitais confiáveis e a sexta seção contém as considerações finais.
2 PROCEDIMENTOS METODOLÓGICOS
A metodologia utilizada neste trabalho é de caráter qualitativo, sendo uma pesquisa exploratória, que parte dos estudos sobre publicação de produtos de pesquisa não textuais com o artigo textual (publicação ampliada) e as normas para repositórios confiáveis, para delinear a integração de publicações ampliadas em repositórios digitais confiáveis.
Para o desenvolvimento dessa metodologia, recorreu-se à literatura sobre publicação ampliada no contexto brasileiro e internacional, disponível por intermédio de Google Scholar, a base de dados aberta Dimensions[3] e Brapci até 2017, para estabelecer uma descrição sobre o que é uma publicação ampliada e como pode ser abordada desde a perspectiva dos sistemas da informação. Observou-se que o número de artigos nas bases de dados Scopus e Web of Science e muito limitado para o cruzamento das palavras chave “enhanced publications” e “trustworthy repositories”. Da mesma forma, analisaram-se os requerimentos gerais para repositórios digitais confiáveis da Research Library Group (RLG) e Online Computer Library Centre (OCLC), as pautas da norma ISO 16363:2012, entendidas como normas principais para esse tipo de repositórios.
Na sequência, a partir do relatório da SURF Foundation Emerging Standards for Enhanced Publications and Repository Technology (2009), buscaram-se exemplos de iniciativas de repositórios digitais — não necessariamente certificados como confiáveis — que inserissem elementos não textuais como parte do seu acervo, para reforçar a ideia do arquivamento de diferentes produtos de pesquisa.
A partir desses elementos teóricos e das iniciativas prévias sobre a publicação ampliada e o repositório digital, identificaram-se os nexos entre publicação ampliada e repositório digital confiável. Como ponto de partida, utilizou-se o relatório Digital Repository Infrastructure Vision for European Research II (DRIVER – II) (VERHAAR, 2008) e o marco de trabalho com publicações ampliadas proposto por Bardi e Manghi (2015). Ambos os textos forneceram pautas para a estrutura da publicação ampliada, bem como requerimentos para o desenvolvimento de um sistema de informação que lide com este tipo de publicação.
Por fim, apresentam-se algumas recomendações para a inserção de publicações ampliadas em repositórios digitais confiáveis, fundamentada na combinação dos requerimentos da RLG/OCLC e no marco de trabalho proposto por Bardi e Manghi (2015). Neste ponto, pretende-se adicionar a parte de confiabilidade ao marco desses dois autores, considerando as pautas da norma ISO 16363:2012.
3 PUBLICAÇÃO AMPLIADA
Um dos caminhos para a publicação de dados, identificados por Pampel et al. (2013), é a publicação ampliada, que transforma o conceito de publicação científica e a entende como um conglomerado de produtos científicos que tornam visíveis tanto os resultados quanto o processo para atingi-los.
Inicialmente a publicação ampliada surgiu com a ideia de entender um artigo científico como módulos e de romper com a linearidade (KIRCZ, 1998). Um módulo possui uma quantidade de informação compreensível e transmite um significado à pessoa receptora, além de permitir seu uso em diferentes ambientes (KIRCZ, 2002). Os módulos podem ser elementares (abstract, imagem, corpo do texto...) ou complexos. Nos complexos, há dois tipos: compostos (uma agregação de módulos independentes que podem ser analisados individualmente ou como conjunto) e aglomerados (centrados em um conceito que se expande nos elementos restantes). Se os módulos estão presentes ou são citados em diferentes textos, é necessário que estejam ancorados tanto na fonte quanto no alvo. Além disso, o módulo deve possuir metadados bibliográficos descritivos, como autor, data ou proveniência.
Van de Sompel et al. (2004) entendem que na unidade de comunicação científica não pode existir uma discriminação entre formatos. Se a unidade transmite uma informação não importa se é textual, visual ou auditiva. Van de Sompel e Lagoze (2007) indicam a necessidade de descrever as unidades seguindo padrões de metadados e respeitar cinco componentes estruturais. Esses componentes são o tipo semântico, o tipo de mídia, o formato de mídia, a localização na rede e a acessibilidade por diferentes repositórios. Devido à dispersão das unidades na rede, sugere-se uma descrição mediante um identificador persistente (Digital Object Identifier – DOI) que garanta a conexão do recurso e dos metadados. No entanto, existe ainda uma preferência pela URL (VAN DE SOMPEL; KLEIN; JONES, 2016).
Marcondes (2011, 2005) propõe um modelo semântico para publicações eletrônicas composto por duas fases. Na primeira fase, mediante o uso de uma ontologia, o autor insere as relações entre as entidades presentes no texto. A proposta para a segunda fase é que, na hora da submissão, possam ser adicionadas as principais afirmações do texto com os metadados bibliográficos. De Waard (2010) destaca a publicação semântica que fortaleça o discurso científico, o maior modo de transmissão do conhecimento, graças aos relacionamentos entre entidades. Ainda incide na importância da integração de dados nas publicações para conhecer as origens da pesquisa. Nessa mesma linha, Hunter (2006) define o “Pacote de Publicação Científica (PPC)”[4], que encapsularia dados brutos e derivados, algoritmos, software, fórmulas matemáticas (por exemplo, em MathML[5]), publicações textuais e todos os metadados associados. No contexto das tecnologias semânticas, o PPC é um pacote descrito mediante Resource Description Framework (RDF).
No contexto brasileiro, Sales (2014) retoma a ideia de integração semântica das partes de uma publicação, destacando as dificuldades existentes nos diferentes entornos de publicação, principalmente nos catálogos em linha das bibliotecas (OPACs). Sales e Sayão (2015) apresentam um modelo de publicação científica baseado nos relatórios do projeto DRIVER – II. No modelo, específico para a área de Ciência Nuclear, os dados de pesquisa e as publicações estão ligadas mediante relações semânticas seguindo uma taxonomia própria.
No relatório DRIVER – II, abrangendo tanto a publicação modular quanto a de classes e semântica, Vehaar (2008) identifica dez requerimentos e especificações estruturais para publicações ampliadas:
A norma OAI-ORE permite descrever as agregações efetuadas no entorno web as quais criam objetos digitais compostos que “[...] podem combinar recursos distribuídos com vários tipos de mídia, incluindo texto, imagens, dados e vídeo” (OAI-ORE,?)[6], com o objetivo de expor o conteúdo enriquecido de forma padronizada.
As publicações ampliadas podem ser consideradas objetos digitais compostos ou objetos dinâmicos do conhecimento, como exposto por Mucheroni, Da Silva e Paletta (2015), em que as agregações pós-publicação também possuem um papel relevante. Para entender melhor essas agregações de conteúdo, Bardi e Mangui (2014) identificam os modelos de dados adotados no contexto das publicações ampliadas. Existem, portanto, cinco modelos recorrentes: partes embutidas (arquivos de materiais suplementares), partes de texto estruturado (estrutura editorial de seus subcomponentes textuais), partes de referência (URL para objetos externos), partes executáveis (software e dados para executar uma experiência), partes geradas (tabelas que podem mudar dinamicamente, dependendo das atualizações de entradas de dados de pesquisa).
Os mesmos autores apresentaram, em 2015, um marco de trabalho para publicações ampliadas, formado por nove requerimentos (esses requerimentos podem se unir aos apresentados por Verhaar, 2008). Dividem-se em quatro gerais para publicações científicas (suportar diferentes back-ends para armazenamento de dados; oferecer definição de dados, manipulação e acesso linguístico; possibilitar o compartilhamento de dados; suportar a portabilidade dos dados) e cinco específicos para publicações ampliadas (suportar a integração de fontes de dados heterogêneos; suportar o gerenciamento de fontes dinâmicas de dados; suportar a integração de conteúdo; permitir a customização do modelo de dados para publicações ampliadas; suportar o enriquecimento e a curadoria de conteúdo).
No contexto de implementação das publicações ampliadas, a confiabilidade do arquivamento, bem como o arquivamento de longo prazo, são questões a serem discutidas, como exposto nos relatórios da SURF Foundation (Enhanced Publications: Linking Publications and Research Data in Digital Repositories e Emerging Standards for Enhanced Publications and Repository Technology: Survey on Technology). Na seguinte seção, abordam-se algumas das iniciativas para o arquivamento de produtos de pesquisa e publicações ampliadas.
4 INICITATIVAS PARA O ARQUIVAMENTO DE PRODUTOS DE PESQUISA E PUBLICAÇÕES AMPLIADAS
O Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) define os repositórios digitais (RD) e os tipos de repositórios existentes como
[...] bases de dados online que reúnem de maneira organizada a produção científica de uma instituição ou área temática. Os RDs armazenam arquivos de diversos formatos. Ainda, resultam em uma série de benefícios tanto para os pesquisadores quanto às instituições ou sociedades científicas, proporcionam maior visibilidade aos resultados de pesquisas e possibilitam a preservação da memória científica de sua instituição. Os RDs podem ser institucionais ou temáticos. Os repositórios institucionais lidam com a produção científica de uma determinada instituição. Os repositórios temáticos com a produção científica de uma determinada área, sem limites institucionais. (IBICT[7], 2018).
Segundo a definição do IBICT, um RD armazena arquivos de diferente natureza, o que permite a inserção sem complicações dos diferentes produtos de pesquisa que compõem uma publicação ampliada.
Segundo o Digital Curation Centre (DCC)[8], no contexto web existem dois tipos de objetos digitais: os simples e os compostos. Os primeiros são “[...] itens digitais discretos como arquivos de texto, de imagem ou som, junto com seus identificadores e metadados”. Os segundos são “[...] objetos digitais discretos originados mediante a combinação de um número de outros objetos digitais, como páginas web”. Nesse sentido, afirmamos que uma publicação ampliada é um objeto digital composto; no entanto, esses objetos nem sempre têm sido incluídos nos processos de arquivamento, como acontece com os manuscritos e seus metadados (KLUMP et al., 2003).
Tradicionalmente, a informação textual resultante de uma pesquisa era rapidamente publicada e arquivada. No entanto, a informação não textual ficava fora de uma integração em repositórios ou bibliotecas e da correta disponibilização para a comunidade científica. Ao entender a publicação ampliada como um objeto digital composto, surge a questão do arquivamento e da disponibilização em repositórios. Por isso, é importante se questionar como é feita essa tarefa e quais as iniciativas que existem para objetos de pesquisa.
O relatório da SURF Foundation (2009) descreve alguns projetos de repositórios digitais que servem de base para o arquivamento de publicações ampliadas, entre os quais The eCrystals Federation, ARROW, DART and Archer at Monash University e eSciDoc Project.
O projeto da eCrystals Federation[9] cria uma rede de dados sobre cristalografia que garante a interoperabilidade com outros sistemas e centros de pesquisa. Os metadados dentro do repositório seguem o padrão Dublin Core e procedem tanto dos grupos de pesquisa quanto de agregadores de metadados. Além disso, permite a ligação entre os dados e as publicações científicas. O repositório está fomentado pelo Joint Information Systems Committee (JISC) do Reino Unido. De forma similar, funciona o projeto Protein Data Bank[10], uma base de dados centralizada para estruturas proteicas. Esse tipo de base de dados é uma ciberinfrastutura simples, mas efetiva na hora de disponibilizar dados sobre proteínas (STEIN, 2008).
Os projetos ARROW, DART e Archer surgem com o intuito de armazenar os dados produzidos pela Universidade de Monash (Austrália). Os dados validam a produção científica da instituição e disponibilizam dados para futuras análises por terceiros. Os repositórios possuem uma arquitetura que separa os dados, entre os dados públicos (aptos para reuso), os dados compartilhados e os dados privados, com uma fase de migração entre cada uma das camadas.
O projeto alemão eSciDoc[11] baseia sua infraestrutura em um repositório Fedora[12], que permite o arquivamento semântico, além de suportar diferentes padrões de metadados. A ideia principal é a publicação interdisciplinar de dados, bem como dados de pesquisa; manter relações semânticas entre os diferentes objetos e fornecer qualidade e preservação de longo prazo para os dados.
Por sua vez, o projeto myExperiment[13] aborda os produtos de pesquisa como “[...] objetos sociais de pesquisa”, já que a disponibilização em rede dos produtos fomenta a interação entre a comunidade científica da área (ROURE et al., 2009). Uma das diferenças desse repositório é a publicação de processos de trabalho (workflows) que permitem o trabalho colaborativo com o(s) produto(s). Cria-se, assim, um pacote de produtos de pesquisa cujos relacionamentos estão devidamente anotados graças, em parte, à intervenção da comunidade científica (Figura 1).
A interação da comunidade científica com os produtos auxilia na avaliação e pode ser uma maneira de garantir uma apropriada revisão. Sem a existência dessa interação, uma falta de avaliação, unida a um excesso de material suplementar, poderia comprometer a qualidade das pesquisas (POP; SALZBERG, 2015). A possibilidade de lidar com processos de trabalho situa o projeto myExperiment como exemplo de modelo de dados de partes executáveis (BARDI; MANGUI, 2014). Dessa forma também, mantém-se a semântica da pesquisa (PAGE et al., 2012) e serve como apoio do modelo semântico de publicação.
No contexto brasileiro, também existem iniciativas para pesquisas e objetos de pesquisa. Um exemplo é o repositório CarpeDIEN[14] (Dados e Informação em Engenharia Nuclear) que, baseado no software DSpace[15], integra diferentes objetos de pesquisa e garante a integração com o OPAC da biblioteca, bem como a preservação de longo prazo (SALES; SAYÃO, 2013). Além disso, motivado pelos requerimentos da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), têm se iniciado projetos-pilotos para a disponibilização dos objetos de pesquisa desde os próprios grupos de pesquisa, como exposto por Vidotti et al. (2017). Estes tipos de projetos são em menor escala, porém predizem uma evolução no conceito de compartilhamento e reuso de dados de pesquisa.
A metodologia utilizada neste trabalho é de caráter qualitativo, sendo uma pesquisa exploratória, que parte dos estudos sobre publicação de produtos de pesquisa não textuais com o artigo textual (publicação ampliada) e as normas para repositórios confiáveis, para delinear a integração de publicações.
5 REPOSITÓRIOS DIGITAIS CONFIÁVEIS
Além das características de um RD, o RLG, em parceria com o Centre OCLC, propõe em 2002 características que os repositórios devem cumprir para serem considerados confiáveis (p.5): (1) aceitar, em nome de seus depositários, a responsabilidade pela manutenção, em longo prazo, de recursos digitais para seu uso agora e no futuro; (2) contar com um sistema organizacional que apoie não somente a visibilidade de longo prazo do repositório, mas também a informação digital em que ele tenha responsabilidade; (3) demonstrar responsabilidade fiscal e sustentabilidade; (4) projetar seu(s) sistema(s) em conformidade com as convenções e os padrões aceitos para assegurar a gestão, o acesso e a segurança contínua dos materiais depositados; (5) estabelecer metodologias para avaliação dos sistemas que considerem as expectativas de confiabilidade esperadas pela comunidade; (6) ser dependente para desempenhar suas responsabilidades de longo prazo aos depositários e aos usuários, de maneira aberta e explícita; (7) ter políticas, práticas e desempenho que possam ser auditáveis e mensuráveis; (8) cumprir um conjunto de responsabilidades (ou atributos).
Estes atributos para garantir a confiabilidade de um RD, considerando-o assim um “Repositório Digital Confiável” são:
Conformidade com o Reference Model for an Open Archival Information System (OAIS).
Responsabilidade administrativa.
Viabilidade organizativa.
Sustentabilidade financeira.
Sustentabilidade tecnológica e de procedimento.
Segurança no sistema
Responsabilidade de procedimento. (RLG/OCLC, 2002, p.13).
No cenário internacional, no ano de 2012 foi publicada a Space data and information transfer systems – Audit and certification of trustworthy digital - ISO 16363:2012, que avalia e certifica os RDs como confiáveis, isto é, se propõe a fornecer ferramentas para avaliar a confiabilidade e, consequentemente, a certificação de confiabilidade dos repositórios.
A norma ISO 16363:201 está pautada nos atributos que serão detalhados na seção seguinte para a integração das publicações ampliadas em repositórios confiáveis.
6 RECOMENDAÇÕES PARA A INTEGRAÇÃO DE PUBLICAÇÕES AMPLIADAS EM REPOSITÓRIOS CONFIÁVEIS
Os dados de pesquisa abrangem uma série de objetos de diversa natureza (ver seção 1) e, seguindo a definição de Bardi e Mangui (2014, 2015), uma publicação ampliada caracteriza-se por uma parte narrativa textual central e uma série de subpartes não necessariamente textuais.
Como exposto na seção 5, em 2002, RLG e OCLC enumeraram uma série de atributos que caracterizam a um repositório digital confiável. Por sua vez, Bardi e Mangui (2015) detalharam os requerimentos de um sistema de gestão para publicações ampliadas (Enhanced Publication Management Systems - EPMS) e Verhaar (2008) destaca dez especificações estruturais para publicações ampliadas. A combinação dos grupos de requerimentos com as indicações da norma ISO 16363:2012 garantirá o trabalho com publicações ampliadas dentro de repositórios digitais confiáveis. No Quadro 1, detalham-se os requerimentos e as formas de execução.
| Requerimento | Execução | |
| 1 | Suportar diferentes back-ends para armazenamento dos dados (BARDI; MANGUI, 2015) / Sustentabilidade tecnológica e de procedimento (RLG/OCLC, 2002) / Segurança no sistema (RLG/OCLC, 2002) / Preservação em longo prazo (VERHAAR, 2008) | Cópias de segurança e normas por escrito que considerem o tipo de publicação ampliada. Criação de um Plano Estratégico de Preservação que defina a abordagem do repositório no apoio a sua missão em longo prazo que inclua o tipo de informação que irá preservar, manter, gerencia e fornecer acesso (ISO, 2012) |
| 2 | Oferecer definição de dados, manipulação e linguagens de acesso (BARDI; MANGUI, 2015) | Perfil de metadados (e específico de aplicação) para um repositório que permita a manipulação individual de cada um dos recursos da publicação ampliada |
| 3 | Permitir o compartilhamento dos dados (BARDI; MANGUI, 2015) | Uso do protocolo OAI-PMH (compatível com os softwares de repositórios como DSpace). Também se considera a tecnologia semântica do Linked Data. |
| 4 | Suportar a portabilidade dos dados/ Suportar a integração de conteúdo (BARDI; MANGUI, 2015) | Relação com outros repositórios institucionais e ambientes de agregação. |
| 5 | Conformidade com o Reference Model for na Open Archival Information System (RLG/OCLC, 2002) / Disponibilização em conformidade com a norma OAI-ORE (VERHAAR, 2008). | Manter cópias de segurança e normas por escrito que considerem o tipo de publicação ampliada (ver item 1) e seguir as especificações do item 15. |
| 6 | Responsabilidade administrativa (RLG/OCLC, 2002) | Definição de comunidade-alvo, temáticas e especificação do funcionamento do repositório. Manutenção de práticas transparentes e auditadas por terceiros (ISO, 2012). |
| 7 | Viabilidade organizativa (RLG/OCLC, 2002) | Transparência na organização e sustentabilidade financeira (GONÇALEZ, 2017) |
| 8 | Sustentabilidade financeira (RLG/OCLC, 2002) | Declaração da fonte(s) financiadora(s) (p. ex., instituição de fomento, empresa, fundo estadual etc.) |
| 9 | Responsabilidade de procedimento (RLG/OCLC, 2002) | Elaboração de boas práticas que garantam pontos como a migração de formatos para fontes heterogêneas e planos de gestão de dados |
| 10 | Suportar a integração de fontes de dados heterogêneas (BARDI; MANGUI, 2015) / | Utilização de todos os formatos permitidos no software para repositórios (p.ex. DSpace[16]) para garantir a descrição de cada classe de informação (seja um texto estruturado, seja uma imagem, um conteúdo audiovisual, um código ou outras). |
| 11 | Registro das propriedades básicas da publicação e dos outros recursos que estão adicionados a ela (VERHAAR, 2008) | Descrição em RDF do conjunto da publicação ampliada e das subpartes (HUNTER, 2006). |
| 12 | Registro da autoria da publicação ampliada e dos recursos que estão adicionados a ela (VERHAAR, 2008) / Rastreio e gerenciamento de direitos de propriedade intelectual e as restrições à utilização de conteúdo do repositório como exigido pelo contrato de depósito contrato ou licença (ISO, 2012) | Definição das licenças aplicáveis no repositório por meio do contrato de depósito. |
| 13 | Suportar a gestão de fontes de dados dinâmicas (BARDI; MANGUI, 2015) / Acompanhamento das versões das publicações ampliadas (conjunto e partes constituintes) (VERHAAR, 2008) | Estar em conformidade com o requerimento 5, 10 e 16. |
| 14 | Identificação da publicação ampliada e seus componentes como recursos web referenciáveis por meio de URIs (VERHAAR, 2008) | Utilização de identificadores persistentes de objeto digital (VAN DE SOMPEL; KLEIN; SHAWN, 2016) |
| 15 | Permitir a customização do modelo de dados para publicação ampliada (BARDI; MANGUI, 2015) | Especificação das entidades executáveis e adaptação dos padrões de metadados (VERHAAR, 2008) |
| 16 | Suportar o enriquecimento e a curadoria do conteúdo (BARDI; MANGUI, 2015) | Coleta de dados de outras fontes (p. ex., melhora de metadados), manutenção do conteúdo respeitando as fases do ciclo de vida dos dados. Agregar objetos digitais compostos à publicação ampliada (VERHAAR, 2008). |
| 17 | Utilizar métricas alternativas para o acompanhamento do uso dos objetos. | Uso de tipo de métricas a partir de softwares compatíveis com repositórios (Altmetric ou PlumX) e que permitam valorizar todos os objetos de pesquisa (PIWOWAR, 2013). |
A combinação desses requerimentos permite criar um marco de trabalho confiável, mantendo como objeto as publicações ampliadas. Como recomendações para o trabalho dentro dos repositórios digitais confiáveis podem se unir ao checklist proposto por Gonçalez (2017) que detalha — seguindo a Norma ISO 16363:2012 e a Resolução 39 do Conselho Nacional de Arquivos do Brasil (CONARQ), de 2014 — a organização e a infraestrutura, o gerenciamento do documento digital e a infraestrutura e a segurança na gestão de riscos.
Para o caso das publicações ampliadas, o gerenciamento do documento digital deve levar em consideração a caracterização de tais publicações como objetos compostos e dinâmicos; por conseguinte, tanto o conjunto como cada subparte requerem um tratamento específico no arquivamento em repositórios.
Bardi e Manghi (2015) classificam os EPMS como um espaço de informação. Sendo um repositório digital confiável também um espaço de informação, é necessário o detalhamento dos requerimentos para a inserção de publicações ampliadas. Esses requerimentos devem ser considerados na hora do planejamento estratégico do repositório, para poder garantir a inserção das publicações seguindo diferentes modelos de dados (como na iniciativa myExperiment). Uma aproximação inicial deve permitir a customização dos padrões de metadados e da semântica para cada publicação (requerimento 14). Para isso, é possível começar com um núcleo central de metadados — baseado, por exemplo, em Dublin Core — que permitirá o compartilhamento dos dados seguindo iniciativas como OAI-PMH (requerimento 3) e depois acrescentar com metadados e relacionamentos provenientes de outros vocabulários controlados e ontologias para sustentar a semântica de cada publicação.
Os requerimentos 10, 11, 13 e 14 referem-se às fontes heterogêneas e dinâmicas de dados presentes na própria natureza das publicações ampliadas. Para esses requerimentos, torna-se necessário focar na criação do pacote de arquivamento e entender cada uma das classes de informação presentes, como descrito na Resolução 39 do CONARQ. O requerimento 12 complementa os anteriores, pois destaca a necessidade de definir a autoria da publicação como um todo e das subpartes adjacentes, cuja autoria pode diferir em um ou mais contribuintes.
Ainda, introduz-se o requerimento 16, que se refere ao uso de métricas alternativas para o mapeamento do uso da publicação ampliada. Como objeto digital composto, a publicação ampliada pode ser acessada como um único objeto digital ou como um conjunto de objetos digitais simples, que podem ser reutilizados separadamente. Tendo em consideração a composição da publicação ampliada por produtos de pesquisa de natureza heterogênea, a citação e o uso desses produtos nem sempre acontecerá seguindo os padrões e indicadores bibliométricos tradicionais. Portanto, a medição do uso e da citação pode ser analisada a partir do uso de métricas alternativas, de forma similar ao proposto por Fenner et al. (2018), no documento Code of practice for research data usage metrics, no qual se sugerem boas práticas para a citação de produtos de investigação, arquivados em repositórios e repositórios de dados.
7 CONSIDERAÇÕES FINAIS
A publicação ampliada estabelece-se no contexto da publicação digital como uma forma de publicação dos dados de pesquisa junto com a publicação textual, agregando valor ao produto final e mostrando, de forma transparente, os processos que levaram à obtenção dos resultados apresentados. Assim, uma publicação ampliada se considera um objeto digital composto e, portanto, apresenta certas particularidades na hora de desenhar um marco de trabalho para elas.
O repositório digital confiável se apresenta como sistema da informação para a preservação de produções, que mantém o foco na organização e infraestrutura, no gerenciamento do documento digital e na infraestrutura e segurança na gestão de riscos. Por isso, esse tipo de repositório digital é considerado apropriado para o arquivamento e a preservação das produções científicas de instituições de ensino superior e pesquisa. Entre essas produções, começa haver publicações ampliadas.
Nesse cenário, analisam-se quais seriam os requerimentos para a inserção de publicações ampliadas em repositórios digitais confiáveis, partindo da combinação dos requerimentos para repositórios digitais confiáveis (RLG/OCLC, 2002) com os requerimentos para sistemas de informação para publicações ampliadas (BARDI; MANGUI, 2015).
O resultado é uma lista de recomendações (Quadro 1), que juntam os requerimentos e as possíveis execuções orientadas ao planejamento de futuros repositórios digitais confiáveis (ou modificação dos existentes). Essa lista conta com 17 recomendações que fazem referência à viabilidade do repositório dentro da instituição, à flexibilidade dos modelos de dados para a inserção de fontes heterogêneas e dinâmicas e ao posterior mapeamento do uso da publicação (tanto como objeto digital composto quanto como parte individual).
Materiales Suplementarios
Parecer (pdf)
Gratidão
As autoras agradecem aos colegas do grupo de pesquisa “Novas Tecnologia em Informação” (GPNTI) da Universidade Estadual Paulista – UNESP.
REFERÊNCIAS
BARDI, A.; MANGHI, P. A Framework Supporting the Shift from Traditional Digital Publications to Enhanced Publications. D-Lib Magazine, v.21, n. 1-2, 2015. Disponível em: https://dx.doi.org/10.1045/january2015-bardi. Acesso em: 22 de novembro de 2017.
BARDI, A.; MANGHI, P. Enhanced Publications: Data Models and Information Systems. LIBER Quarterly, v.23, n. 4, p. 240-273, 2014. Disponível em: https://dx.doi.org/10.18352/lq.8445. Acesso em: 22 de novembro de 2017.
CONSELHO NACIONAL DE ARQUIVOS (Brasil). Resolução nº 39, de 29 de abril de 2014. Diário Oficial da União, Poder Executivo, Brasília, DF, 30 abr. 2014. Disponível em: http://www.conarq.arquivonacional.gov.br/legislacao/resolucoes-do-conarq/281- resolucao-n-39,-de-29-de-abril-de-2014.html. Acesso em: 28 de maio de 2018.
COMISSÃO EUROPEIA. H2020 programme: guidelines to the rules on open access to scientific publications and open access to research data in horizon 2020. Version 3.2, 2017. Disponível em: http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf. Acesso em: 3 de novembro de 2017.
FENNER, M. et. al. Code of practice for research data usage metrics release 1. PeerJ Prepints, v.6, e26505v1, 2018. Disponível em: https://peerj.com/preprints/26505/. Acesso em: 28 de maio de 2018.
FUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO. Plano de Gestão de Dados, 2017. Disponível em: http://www.fapesp.br/gestaodedados/. Acesso em: 10 set. 2017.
GONÇALEZ, P. R. V. A. Recomendações para certificação ou medição de confiabilidade para repositórios arquivísticos digitais confiáveis com ênfase no acesso. Informação & Informação, v.22, n.1, p.215-241, 2017. Disponível em: http://dx.doi.org/10.5433/1981-8920.2017v22n1p215. Acesso em: 1 dez. 2017.
HEY, T.; TANSLEY, S.; TOLLE, K. Jim Gray on e-science: a transformed scientific method. In: Stewart Tansley, Kristin Michele Tolle, Tony Hey (ed). The fourth paradigm: data-intensive scientific discovery. Washington. Microsoft Research, 2009. p. xxxi. Disponível em: http://research.microsoft.com/collaboration/fourthparadigm. Disponível em: 3 nov. 2017.
HUNTER, J. Scientific Publication Packages – A Selective Approach to the Communication and Archival of Scientific Output. The International Journal of Digital Curation, v.1, n.1, p.33-52, 2006. Disponível em: https://doi.org/10.2218/ijdc.v1i1.4. Acesso em: 3 nov. 2017.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO 16363:2012: Space data information transfer systems – Audit and certification of trustworthy digital repositories. Genebra, 2012.
KIRCZ, J.G. Modularity: the next form of scientific information presentation?. Journal of Documentation, v. 54, n. 2, p.210-235, 1998. Disponível em: https://dx.doi.org/10.1108/EUM0000000007185. Acesso em: 1 dez. 2017.
KIRCZ, J. G. New practices for electronic publishing 2: New forms of the scientific paper. Learned Publishing . Association of Learned and Professional Society Publishers. v. 15, n.1, p. 27-32, 2002. Disponível em: https://dx.doi.org/10.1087/095315102753303652. Acesso em: 1 dez. 2017
KLUMP, J. et al. Data Publication in the Open Data Access Initiative. Data Science Journal, v.5, p. 79-83, 2006. Disponível em: http://doi.org/10.2481/dsj.5.79. Acesso em: 3 nov. 2017.
MARCONDES, C. H. From scientific communication to public knowledge: the scientific article Web published as a knowledge base. In: INTERNATIONAL CONFERENCE ON ELECTRONIC PUBLISHING, 9. 2005, Leuven, Bélgica. Proceedings... Leuven, Bélgica, 2005. Disponível em: http://eprints.rclis.org/7389/1/ELPUB_2005-Marcondes.pdf. Acesso em: 22 nov. 2017.
MARCONDES, C. H. Um modelo semântico de publicações eletrônicas. A semantic model for electronic publishing. Liinc em Revista, v. 7, n. 1, 2011. Disponível em: http://revista.ibict.br/liinc/article/view/3290. Acesso em: 22 nov. 2017.
MUCHERONI, M. L.; SILVA, F. J. M. DA; PALETTA, C. F. Entre a publicação ampliada e a multimodalidade. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 16. 2015, João Pessoa. Anais…: João Pessoa: UFPA, 2015. Disponível em: http://www.ufpb.br/evento/lti/ocs/index.php/enancib2015/enancib2015/paper/viewFile/2873/1178. Acesso em: 22 nov. 2017.
NATIONAL SCIENCE FOUNDATION. Long-lived digital data collections: enabling research and education in the 21st century. Arlington: National Science Board, 2005. Disponível em: http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf. Acesso em: 3 nov. 2017.
NETHERLANDS’ EU PRESIDENCY. Amsterdam call for action on open science. AMSTERDAM CONFERENCE ‘OPEN SCIENCE – FROM VISION TO ACTION’, 2016, Amsterdam, Proceedings… Disponível em: https://www.government.nl/documents/reports/2016/04/04/amsterdam-call-for-action-on-open-science. Acesso em: 3 nov. 2017.
PAGE, K.; et al. From workflows to Research Objects: an architecture for preserving the semantics of science. In INTERNATIONAL WORKSHOP ON LINKED SCIENCE, 2, 2012, Boston. Proceeding… Boston, 2012. Disponível em: http://ceur-ws.org/Vol-951/paper7.pdf. Acesso em: 22 nov. 2017.
PAMPEL, H. et al. Making research data repositories visible: the re3data.org registry. PLOSone, v.8, n.11, 2013. Disponível em: https://dx.doi.org/10.1371/journal.pone.0078080. Acesso em: 3 nov. 2017.
PIWOWAR, H. Almetrics: Value all research products. Nature, v.493, p.159, 2013. Disponível em: https://www.nature.com/articles/493159a?foxtrotcallback=true. Acesso em: 22 nov. 2017.
POP, M.; SALZBERG, S.L. Use and mis-use of supplementary material in science publications. BMC Bioinformatics, v. 16, n.237, 2015. Disponível em: https://dx.doi.org/10.1186/s12859-015-0668-z. Acesso em: 22 nov. 2017
RESEARCH LIBRARY GROUP. Trusted Digital Repositories: Attributes and Responsibilities. An RLG-OCLC Report. RLG: Mountain View, CA. 2002. Disponível em: https://www.oclc.org/content/dam/research/activities/trustedrep/repositories.pdf. Acesso em: 1 dez. 2017
ROURE, D. et al. Scientific Social Objects: The Social Objects and Multidimensional Network of the my Experiment Website. In: CONFERÊNCIA INTERNACIONAL SOBRE PRIVACIDADE, SEGURANÇA RISCO E CONFIANÇA, 3 e CONFERÊNCIA INTERNACIONAL SOBRE COMPUTAÇÃO SOCIAL, 3, 2011, Boston, Conferences ..., 2011, Boston. Disponível em: https://dx.doi.org/10.1109/PASSAT/SocialCom.2011.245. Acesso em: 22 nov. 2017.
SALES, L. F.; SAYÃO, L. F. Enhanced publication: a new model of scientific publication for the nuclear area. IEN – Progress Report 2013-2014, v. 2, n. 2015, p. 1, 2015. Disponível em: http://carpedien.ien.gov.br/handle/ien/1832. Acesso em: 1 dez. 2017.
SALES, L.F.; SAYÃO, L.F. Repositório do Instituto de Engenharia Nuclear: curadoria digital, publicações ampliadas e gestão de pesquisa. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA, DOCUMENTAÇÃO E CIÊNCIA DA INFORMAÇÃO, 27, 2017, Fortaleza. Anais..., 2013. Fortaleza, 2017. Disponível em: https://portal.febab.org.br/anais/article/view/1315/1316. Acesso em: 1 dez. 2017.
SALES, L.F. Integração semântica de publicações científicas e dados de pesquisa: proposta de modelo de publicação ampliada para a área de ciências nucleares. 2014. 268 f. Tese (Doutorado em Ciência da Informação) - Instituto Brasileiro de Informação e Tecnologia. Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2014. Disponível em:http://repositorio.ibict.br/bitstream/123456789/874/1/LUANA%20SALES%20D.pdf. Acesso em: 28 maio 2018.
STEIN, L.D. Towards a cyberinfrastructure for biological sciences: progress, visions and challenges. Nature Reviews Genetics, v.9, p. 678-688, 2008. Disponível em: https://dx.doi.org/10.1038/nrg2414. Acesso em: 22 nov. 2017.
SURF FOUNDATION. Emerging Standards for Enhanced Publications and Repository Technology: Survey on Technology. Amsterdam: Amsterdam University Press, 2009. Disponível em: https://biblio.ugent.be/publication/1942496/file/6739529. Acesso em: 3 de novembro de 2017.
SURF FOUNDATION. Enhanced Publications: Linking Publications and Research Data in Digital Repositories. Amsterdam: Amsterdam University Press, 2009. Disponível em: http://arno.uva.nl/cgi/arno/show.cgi?fid=150723. Acesso em: 22 nov. 2017.
TENOPIR, C. et al. Data sharing by scientists: practices and perceptions. PLOSone, v. 6, n. 6, 2011. Disponível em: https://doi.org/10.1371/journal.pone.0021101. Acesso em: 3 nov. 2017.
THE ROYAL SOCIETY. Science as an open enterprise. London: Royal Society, 2012. Disponível em: https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf. Acesso em: 3 nov. 2017.
VAN DE SOMPEL, H.; KLEIN, M.; SHAWN, J. Persistent URIs Must Be Used To Be Persistent. Poster accepted for WWW 2016; Arxiv preprint. arXiv:1602.09102. Disponível em: https://arxiv.org/pdf/160209102.pdf. Acesso em: 22 nov. 2017
VAN DE SOMPEL, H.; LAGOZE, C. Interoperability for the Discovery, Use, and Re-Use of Units of Scholarly Communication. Cyberinfrastructure Technology Watch Quarterly, v.3, n.3, 2007. Disponível em: http://www.ctwatch.org/quarterly/articles/2007/08/interoperability-for-the-discovery-use-and-re-use-of-units-of-scholarly-communication/ . Acesso em: 22 nov.2017
VAN DE SOMPEL, H.; et al. Rethinking scholarly communication. D-Lib Magazine, v. 10, n. 9, 2004. Disponível em: http://www.dlib.org/dlib/september04/vandesompel/09vandesompel.html. Acesso em: 22 nov. 2017.
VERHAAR, P. Report on object models and functionalities. DRIVER II, 2007. Disponível em: https://openaccess.leidenuniv.nl/bitstream/handle/1887/16018/Report_on_Object_Models_and_Functionalities.pdf?sequence=1. Acesso em: 22 nov. 2017.
VIDOTTI, S.A.B.G.; et al. Repositório de dados de pesquisa para grupo de pesquisa: um projeto piloto. ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 18. Marília, 2017. Anais… Marília: UNESP, 2017. Disponível em:http://enancib.marilia.unesp.br/index.php/xviiienancib/ENANCIB/paper/viewFile/388/932. Acesso em: 1º dez. 2017.
WAARD, A. From Proteins to Fairytales: Directions in Semantic Publishing. IEEE Intelligent Systems, v.25, n.2, p.83-88, 2010. Disponível em: https://dx.doi.org/10.1109/MIS.2010.49. Acesso em: 22 nov. 2017
WOUTERSEN-WINDHOUWER, S.; BRANDSMA, R. Enhanced Publications, State of the Art. In: VERNOOY-GERRITSEN, M. (Ed.). Enhanced Publications. Linking Publications and Research Data in Repositories. Amsterdam: Amsterdam University Press, 2009.
Notas
autores, não representando, necessariamente, a opinião dos editores ou da universidade.
EDITORES –
Enrique Muriel-Torrado, Edgar Bisset Alvarez, Camila Barros.
Informação adicional
CONTRIBUIÇÃO DE AUTORIA: Concepção e elaboração do manuscrito: P. Marín Arraiza Coleta de dados: P. Marín Arraiza Análise de dados: P. Marín Arraiza Discussão dos resultados: P. Marín Arraiza, P.R.V.A. Gonçalez. Revisão e aprovação: P.R.V.A. Gonçalez, S.A.B.G. Vidotti.
CONJUNTO DE DADOS DE PESQUISA: Todo o conjunto de dados que dá suporte aos resultados deste estudo foi publicado no próprio artigo.
LICENÇA DE USO: Os autores cedem à Encontros Bibli os direitos exclusivos de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution (CC BY) 4.0 International. Estra licença permite que terceiros remixem, adaptem e criem a partir do trabalho publicado, atribuindo o devido crédito de autoria e publicação inicial neste periódico. Os autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada neste periódico (ex.: publicar em repositório institucional, em site pessoal, publicar uma tradução, ou como capítulo de livro), com reconhecimento de autoria e publicação inicial neste periódico.
PUBLISHER: Universidade Federal de Santa Catarina. Programa de Pós-graduação em Ciência da Informação. Publicação no Portal de Periódicos UFSC. As ideias expressadas neste artigo são de responsabilidade de seus autores, não representando, necessariamente, a opinião dos editores ou da universidade.
EDITORES: Enrique Muriel-Torrado, Edgar Bisset Alvarez, Camila Barros