Secciones
Referencias
Resumen
Servicios
Descargas
HTML
ePub
PDF
Buscar
Fuente


SCHEMA.ORG PARA CATÁLOGOS DIGITAIS
SCHEMA.ORG FOR DIGITAL CATALOGS
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, vol. 27, pp. 1-21, 2022
Universidade Federal de Santa Catarina

Artigo Original


Recepção: 29 Setembro 2021

Aprovação: 24 Agosto 2022

Publicado: 09 Setembro 2022

DOI: https://doi.org/10.5007/1518-2924.2022.e87046

RESUMO

Objetivo: O objetivo consistiu em apresentar o vocabulário Schema.org como uma alternativa para adequação dos catálogos digitais ao contexto atual.

Método: A pesquisa é caracterizada como uma revisão bibliográfica, realizada a partir de uma abordagem qualitativa, visando explorar a relação entre as temáticas: catálogos digitais e Schema.org.

Resultado: O Schema.org apresenta como principais contribuições, a estruturação dos dados para melhor interpretação dos mecanismos de busca, resultando na obtenção de resultados precisos e o enriquecimento semântico, integrados as tecnologias Rich Snippets e Knowledge Graph.

Conclusões: Considera-se que a aderência do Schema.org associada aos instrumentos de representação utilizados no contexto das bibliotecas, pode favorecer a exposição dos dados na Web, ampliando o alcance do conteúdo dos catálogos. Desse modo, além de se beneficiarem das tecnologias da Web, as bibliotecas poderiam contribuir para o desenvolvimento da mesma, atuando como provedoras de metadados de qualidade, recuperados como resultados enriquecidos em conjunto com outras fontes de informação.

PALAVRAS-CHAVE: Schema.org, catálogo digital, opac, dados bibliográficos, enriquecimento semântico.

ABSTRACT

Objective: The objective was to present the Schema.org vocabulary as an alternative for adapting digital catalogs to the current context.

Methods: The research is characterized as a bibliographic review, carried out from a qualitative approach, aiming to explore the relationship between the themes: digital catalogs and Schema.org.

Results: The Schema.org presents as main contributions, the structuring of data for better interpretation of search engines, resulting in accurate results and semantic enrichment, integrated with rich snippets and knowledge graph technologies. Conclusions: It is considered that the adherence of Schema.org associated with the representation instruments used in the context of libraries, can favor the exposure of data on the Web, expanding the reach of the content of the catalogs. Thus, in addition to benefiting from Web technologies, libraries could contribute to its development, acting as providers of quality metadata, retrieved as enriched results together with other sources of information.

KEYWORDS: Schema.org, digital catalog, opac, bibliographic data, semantic enrichment.

1 INTRODUÇÃO

Os catálogos viabilizam a busca, a recuperação e o acesso aos recursos informacionais para os usuários. Sendo que a construção dos catálogos é estabelecida pelos processos e técnicas da catalogação, que a partir de instrumentos como códigos, modelos e padrões reconhecidos internacionalmente propiciam o tratamento dos recursos informacionais. Desse modo, a catalogação pode garantir a padronização, identificação, localização e a consistência dos dados bibliográficos, de autoridade e outros dados disponíveis no catálogo. Em virtude dessas características, as bibliotecas destacam-se como fontes de informações confiáveis, pois, produzem metadados de qualidade e promovem o acesso a informações fidedignas.

Com as possibilidades de representação e disponibilização de informações na Web, sugiram novos desafios para o compartilhamento de recursos informacionais. Paralelamente, os usuários contemporâneos estão cada vez mais habituados a praticidade e dinamismo proporcionados no ambiente Web. Outro aspecto de um ambiente aberto, como a Web, está relacionado aos mecanismos de busca que propiciam resultados instantâneos e visualmente enriquecidos, permitindo o acesso à multiplicidade de recursos disponíveis.

Diante desta realidade, é necessário repensar a estrutura dos dados gerados e armazenados no catálogo, pois a estrutura de software e os protocolos de comunicação utilizados pelas bibliotecas até o momento não permitem a interoperabilidade com os mecanismos de busca ou com outros tipos de ambientes abertos. Em contraponto, a estrutura da Web já prevê alternativas que possibilitam a recuperação dos dados, uma delas é o Schema.org.

O Schema.org consiste em um vocabulário genérico e extensível, desenvolvido a partir da parceria entre as companhias de mecanismos de busca: Google, Microsoft, Yahoo e Yandex. A iniciativa propõe padronizar e simplificar a estruturação dos dados na Web, a partir de um vocabulário padrão entre os mecanismos de busca. O Schema.org é organizado de modo hierárquico em classes, propriedades e relacionamentos. Para estruturação dos dados, são fornecidas diretrizes flexíveis, permitindo o desenvolvimento de extensões, inclusive para descrição de recursos bibliográficos.

Desse modo, o objetivo do presente artigo consiste em apresentar o Schema.org, explicitando as principais características do vocabulário com enfoque nos metadados para representação bibliográfica em catálogos digitais.

Em relação ao método utilizado, a pesquisa é caracterizada como bibliográfica e descritiva, realizada a partir de uma abordagem qualitativa, visando identificar e explorar a relação entre as temáticas: catálogos digitais e Schema.org. Para o levantamento bibliográfico, foram consultadas as seguintes bases de dados: Base de Dados Referenciais de Artigos de Periódicos em Ciência da Informação (BRAPCI), Biblioteca Digital Brasileira de Teses e Dissertações (BDTD), Information Science & Technology Abstracts (ISTA), Library, Information Science & Technology Abstracts (LISTA), Scientific Electronic Library Online (SciELO), Scopus, Google Scholar e Web of Science (WoS) via Portal de Periódicos da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). O recorte da pesquisa abrange estudos publicados nos idiomas: português, inglês e espanhol. Para recuperação de estudos sobre a temática Schema.org, foi estabelecido o período de 2011 a 2022, pois, o ano inicial corresponde ao lançamento oficial do vocabulário e o ano final, ao período de realização da pesquisa.

Além da seção de Introdução, este artigo versa sobre a representação de recursos informacionais no contexto das bibliotecas. Posteriormente, apresenta-se o Schema.org, com enfoque nas principais características do vocabulário e benefícios para descrição na Web. Em seguida, são apresentados os metadados do Schema.org para representação de recursos bibliográficos. Por fim, os principais aspectos tratados ao logo do texto são discutidos na seção de Considerações finais.

2 DESCRIÇÃO BIBLIOGRÁFICA, CATÁLOGOS E METADADOS

Os catálogos digitais também são conhecidos como Online Public Access Catalogs (OPACs), as principais funções dos catálogos são descritas na Declaração dos Princípios Internacionais de Catalogação, publicada pela International Federation of Library Associations (IFLA) no ano de 2016. Segundo a Declaração, os catálogos devem permitir ao usuário: encontrar um único recurso ou um conjunto de recursos; identificar se a entidade descrita corresponde a entidade pesquisada, assim como deve ser possível distinguir entre entidades semelhantes; selecionar recursos que melhor satisfaçam as necessidades informacionais do usuário, descartando aqueles que não correspondam as mesmas; adquirir ou obter, promovendo as condições necessárias para garantir o acesso, a partir da compra, empréstimo, acesso online, entre outras possibilidades; navegar e explorar, a partir da organização lógica dos dados bibliográficos, dados de autoridade e dos relacionamentos entre entidades, em outros catálogos e fontes de informação (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS, 2016).

Observa-se nos Princípios de Catalogação (INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS, 2016) que as funções estabelecidas para os catálogos foram adaptadas para os ambientes digitais, incluindo a garantia de acesso ao recurso, em meio analógico ou digital, além da possibilidade de descoberta de informações em um conjunto de catálogos e até mesmo em fontes externas, isto é, além do contexto das bibliotecas.

Com o surgimento da Web, os catálogos, antes limitados a um público específico e a consulta ao acervo físico, foram disponibilizados para acesso online. Apesar dos benefícios do acesso online, os dados bibliográficos não são identificados e recuperados na Web. Sendo assim, para ter acesso a um recurso informacional, a busca deve ser realizada diretamente no catálogo, o que reduz consideravelmente o alcance dessas informações.

Nos atuais catálogos, os registros são comumente estruturados conforme as regras estabelecidas no código de catalogação, na segunda revisão do Anglo-American Cataloguing Rules (AACR2r), e os dados bibliográficos são codificados no formato Machine Readable Cataloging 21 (MARC 21). O MARC 21 foi desenvolvido para “[...] acomodar os elementos presentes no AACR e, portanto, ser aderente aos princípios de descrição.” (SERRA et al., 2018, p. 65). O formato MARC é baseado nos elementos presentes no AACR e permite a comunicação entre eles em linguagem legível por máquina, entretanto, “[...] sua concepção e tipo de funcionamento ainda possuem forte resquício analógico [...].” (SERRA, et al. 2018, p. 65). Nesse viés, é importante destacar que desde a década de 60, o MARC 21 ainda é o principal formato utilizado para estruturação dos registros nos catálogos.

A lógica de recuperação, importação e armazenamento dos registros nos catálogos, é baseada no protocolo Z39.50. Esse protocolo especifica estruturas e regras para o intercâmbio de dados, permitindo que uma máquina cliente pesquise em bancos de dados de uma máquina servidor para recuperação de registros (SANTARÉM SEGUNDO; SILVA; MARTINS, 2018). Em vista disso, os mecanismos de busca da Web não recuperam os dados dos catálogos, pois, o protocolo utilizado garante a interoperabilidade apenas entre sistemas compatíveis.

A Web apresenta-se como um ambiente dinâmico, com ferramentas intuitivas que permitem o compartilhamento de informações em escala global. Os serviços de busca e recuperação fornecidos pelas bibliotecas são limitados em relação às ferramentas da Web, conforme aponta Díez (2012). Nesse aspecto, a autora argumenta que “[...] de certo modo a perspectiva dos bibliotecários permanece muito apegada aos princípios clássicos de organização da informação, enquanto as expectativas do usuário são claramente influenciadas pelas ferramentas e serviços da web que utilizam.” (DÍEZ, 2012, p. 184, tradução nossa). Nesse cenário, “[...] os profissionais da informação se deparam com novos desafios na constante busca para atender as necessidades informacionais de uma nova geração de usuários que já nasceram imersos em ambientes computacionais.” (RAMALHO; OUCHI, 2011, p. 61).

Adequar os catálogos em consonância com o cenário atual e as tecnologias disponíveis, demanda alterações significativas na estrutura dos registros. O tratamento da informação exige do catalogador atividades que vão além da técnica “[...] desde a modelagem do catálogo, a escolha do código de catalogação, a definição do nível de descrição, a composição da descrição, a definição dos atributos e dos relacionamentos.” (SANTOS, 2013, p. 5).

O estabelecimento do processo comunicativo entre o catálogo e os usuários têm como elementos centrais, os metadados, definidos por Gilliland (2016, não paginado, tradução nossa) como “[...] a descrição estruturada dos atributos essenciais de um objeto de informação.” Os metadados explicitam os principais aspectos de um recurso informacional, como, estrutura, conteúdo, qualidade, contexto, origem, propriedade e condição (SANTOS; SIMIONATO; ARAKAKI, 2014, p. 150).

Os metadados são estruturados conforme padrões e vocabulários, os padrões de metadados consistem em “[...] estruturas de descrição constituídas por um conjunto predeterminado de metadados (atributos codificados ou identificadores de uma entidade) metodologicamente construídos e padronizados.” (ALVES, 2010, p. 47). A estrutura propiciada pelos padrões de metadados viabilizam a descrição padronizada, favorecendo a recuperação e a interoperabilidade dos dados.

O World Wide Web Consortium (W3C) recomenda a aderência de padrões e vocabulários existentes, com o intuito de estabelecer um consenso entre as comunidades e possibilitar a reutilização dos dados (WORLD WIDE WEB CONSORTIUM, 2019). Os vocabulários são constituídos por termos padronizados e determinam possíveis conexões e restrições de uso (WORLD WIDE WEB CONSORTIUM, 2019).

A Web Semântica, também denominada Web de Dados propõe o desenvolvimento de tecnologias que viabilizem tanto a interpretação humana como de sistemas computacionais. Segundo World Wide Web Consortium (2015a), na Web Semântica os computadores devem atuar de maneira mais útil, a partir de sistemas que forneçam suporte a interações confiáveis na rede (WORLD WIDE WEB CONSORTIUM, 2015a).

A iniciativa Linked Data está atrelada ao escopo da Web Semântica, segundo World Wide Web Consortium (2015b) o conceito de dados conectados é a ideia central da Web Semântica. Para Riley (2017) a publicação de dados estruturados e interligados é a etapa prática para concretização da Web Semântica. Na literatura sobre o aperfeiçoamento dos OPACs, a iniciativa Linked Data é apresentada com frequência, no sentido de ampliar o alcance dos dados bibliográficos, a partir da conexão com fontes externas. Neish (2015) aponta que existem várias maneiras para publicar dados conectados, a mais simples consiste na estruturação dos metadados conforme ontologias amplamente adotadas na Web, como o Open Graph Protocol e Schema.org.

As ontologias são o principal veículo para integração, compartilhamento e descoberta, cuja ideia central consiste na possibilidade de reutilização dos dados (HITZLER, 2021). Cabe ressaltar que não foi encontrado na literatura um consenso entre os conceitos ontologias e vocabulários, conforme World Wide Web Consortium (2015c), geralmente, o termo ‘ontologia’ é utilizado para referir-se a coleções mais complexas e formais do que os vocabulários. Em muitos casos os vocabulários são considerados ontologias simples (ISOTANI; BITTENCOURT, 2015).

Nessa perspectiva, o presente artigo versa sobre o Schema.org, caracterizado como um vocabulário genérico, com o propósito de possibilitar a identificação e a interpretação de entidades e relacionamentos com maior precisão, favorecendo a descoberta de informações na Web. O modo como o Schema.org é estruturado torna-o “[...] uma boa escolha como vocabulário a ser usado na codificação de dados para o compartilhamento.” (WORLD WIDE WEB CONSORTIUM, 2019, não paginado, tradução nossa).

O Schema.org foi criado com base no escopo da Web Semântica, sendo frequentemente associado na literatura a iniciativa Linked Data. Para Nogales et al. (2016) o Schema.org é um tipo de ontologia com o potencial de se tornar uma ponte para a Web de dados conectados, os autores argumentam que a iniciativa Linked Open Data (LOD) e Schema.org compartilham o propósito de promover a estruturação dos dados e viabilizar o estabelecimento de conexões partir de links. O vocabulário é compatível com as regras lógicas para descrição na Web Semântica, com formatos como: Resource Description Framework in Attributes (RDFa), JavaScript Object Notation for Linked Data (JSON-LD) e Microdados.

Desse modo, além de os metadados do Schema.org serem acessíveis aos mecanismos de busca, auxiliam na conexão entre fontes de informação. Segundo Neish (2015) as bibliotecas buscam no Linked Data a solução para tornar os dados dos catálogos mais detectáveis na Web, nesse sentido, o Schema.org é uma possibilidade para viabilizar a exposição desses dados.

3 SCHEMA.ORG

O Schema.org consiste em um vocabulário genérico desenvolvido pelas companhias de mecanismos de busca, Google, Microsoft, Yahoo e Yandex. Segundo o site oficial do vocabulário, “Schema.org é uma atividade colaborativa comunitária, com a missão de criar, manter e promover esquemas para dados estruturados na internet em páginas da Web, em mensagens de e-mail e além.” (SCHEMA.ORG, 2021a, não paginado, tradução nossa).

O Schema.org é um projeto independente, baseado nos padrões projetados pelo W3C e conta com contribuições de uma rede ampla e informal na Web. As discussões sobre o aperfeiçoamento e atualização do vocabulário são realizados nos grupos do W3C, o rastreamento de problemas, o armazenamento de esquemas e exemplos e softwares para publicação do Schema.org são armazenados no GitHub (GITHUB, 2022).

A iniciativa propõe simplificar o processo de estruturação das páginas na Web e otimizar a recuperação de informações pelos mecanismos de busca. A multiplicidade de vocabulários utilizados na Web exige que os webmasters lidem com codificações distintas, nomeando recursos semelhantes de modos diferentes, consequentemente podem ser gerados termos incorretos e duplicações. Em vista disso, a iniciativa propõe a aderência do Schema.org como um vocabulário padrão entre os mecanismos de busca, com o intuito de proporcionar maior praticidade na estruturação dos dados, pois “Um vocabulário compartilhado torna mais fácil para webmasters e desenvolvedores decidirem sobre um esquema e obter o máximo benefício por seus esforços.” (SCHEMA.ORG, 2021a, não paginado, tradução nossa). Segundo Mika (2015, p. 54, tradução nossa) “[...] o Schema.org abordou um problema crítico para Web - simplificando a anotação dos dados em páginas da web, pelo menos para os tipos mais populares de conteúdo.”

O Schema.org é constituído por esquemas de metadados com termos genéricos, padronizados e organizados em uma hierarquia de classes, propriedades e enumerações. Atualmente, o vocabulário possui 792 classes, 1447 propriedades, 15 tipos de dados, 83 enumerações e 445 membros de enumeração (SCHEMA.ORG, 2021b). Em Schema.org (2021c, não paginado, tradução nossa) a estrutura e organização do vocabulário é descrita da seguinte maneira:

  1. 1. 1.

    Temos um conjunto de tipos, organizados em uma hierarquia de herança múltipla, onde cada tipo pode ser uma subclasse de vários tipos.

  2. 2. 2.

    Temos um conjunto de propriedades:

  3. 3. 1.

    cada propriedade pode ter um ou mais tipos como seus domínios. A propriedade pode ser usada para instâncias de qualquer um desses tipos.

  4. 4. 2.

    cada propriedade pode ter um ou mais tipos como seus intervalos. O valor ou valores da propriedade devem ser instâncias de pelo menos um desses tipos.

Sendo assim, a hierarquia principal abrange um conjunto de classes (types) que possuem uma ou mais subclasses, as classes incluem um conjunto de propriedades (properties) e enumerações (enumerated values). A classe Thing é a principal e mais genérica do vocabulário e inclui as classes subordinadas: Action, BioChemEntity, CreativeWork, Event, Intangible, MedicalEntity, Organization, Person, Place, Product e Taxon, essas classes são descritas brevemente no Quadro 1.

Quadro 1
Subclasses de Thing

Fonte: Elaboração da autora com base em Schema.org (2021d).

As classes derivadas de Thing possuem suas próprias subclasses e propriedades, que podem incluir tipos esperados, como: um valor, uma enumeração ou uma entidade. Os tipos esperados são organizados em uma hierarquia paralela, denominada DataTypes. As propriedades podem abranger os tipos: Boolean, Data, DateTime, Number, Text e Time. O tipo Boolean abrange os valores, false e true; Date representa datas no formato ISO 8601 e DateTime consiste em uma combinação de data e hora; Number representa números, incluindo tipos específicos, como float e integer; Text representa documentos no formato texto e Time representa momentos que se repetem ao longo dos dias (SCHEMA.ORG, 2021d).

A configuração e relacionamentos estabelecidos entre classes, subclasses e propriedades do Schema.org não são rígidos ou formais, são fornecidas diretrizes para orientar a descrição (SCHEMA.ORG, 2021c). Segundo Schema.org (2021c) o vocabulário não foi projetado para ser uma ontologia global, o objetivo principal do projeto consistiu em representar as entidades mais relevantes para os fundadores, visando proporcionar um tratamento diferenciado aos dados e otimizar a interpretação dos mecanismos de busca.

O modelo de dados do vocabulário é flexível e fornece uma base extensível para dados estruturados

[..] algo pode ser simultaneamente um Livro e um Produto e ser descrito de forma útil com propriedades de ambos os tipos. É útil, mas não obrigatório, que os tipos relevantes sejam incluídos em tal descrição. Essa flexibilidade permite que os tipos do schema.org sejam desenvolvidos com alguma descentralização e que o vocabulário seja reutilizado e combinado de maneiras úteis. Quando listamos os tipos esperados associados a uma propriedade (ou vice-versa), pretendemos indicar as principais formas como esses termos serão combinados na prática. (SCHEMA.ORG, 2021c, não paginado, tradução nossa).

Desse modo, o vocabulário possibilita a reutilização e adaptação dos metadados, conforme as necessidades de contextos informacionais distintos. As contribuições de equipes heterogêneas no desenvolvimento do Schema.org permitiram expandir o escopo do vocabulário, proporcionando maior expressividade para os dados estruturados. O Schema.org é constantemente aprimorado com a adição de propriedades, os significados dos termos não sofrem mudanças drásticas e as alterações são realizadas gradualmente (SCHEMA.ORG, 2021e). Na descrição baseada em Schema.org, a codificação nos formatos RDFa, JSON-LD e Microdados permite a combinação de outros esquemas de metadados independentes, promovendo maior expressividade para os dados (SCHEMA.ORG, 2021e).

Os dados estruturados conforme as diretrizes e metadados do vocabulário são enriquecidos semanticamente e integram as tecnologias Rich Snippets e Knowledge Graph, auxiliando os mecanismos de busca na coleta, interpretação e classificação de informações. Segundo Riley (2017) o Schema.org permite a codificação de pequenos, porém, importantes fragmentos de conhecimento em páginas da Web, “São utilizadas tecnologias existentes que levam a Web a codificar os blocos de construção do conhecimento humano de uma forma estruturada e legível por máquina.” (RILEY, 2017, p. 21, tradução nossa).

4 RESULTADOS ENRIQUECIDOS

Os rich snippets são elementos que integram as principais informações sobre um recurso ou entidade e propiciam a visualização enriquecida do conteúdo diretamente nos resultados de busca. Introduzida pela Google, a Rich Snippets foi a primeira aplicação a utilizar anotações em Schema.org (GUHA; BRICKLEY; MACBETH, 2016). O mecanismo de busca, Google pode gerar resultados conforme as categorias apresentadas no Quadro 2.

Quadro 2
Categorias gerais de resultados de pesquisa

Fonte: Google Search Central (2021).

Podem ser estruturados como dados enriquecidos, conteúdos, como: artigos/blogs, livros, educação, entretenimento/mídia/notícias, negócios, eventos, receitas, produtos, organização científica e empregos (GOOGLE SEARCH CENTRAL, 2021). Os snippets são criados automaticamente a partir de dados estruturados introduzidos nas páginas da Web, esses elementos destacam informações específicas que melhor se relacionam à busca. Cabe ressaltar que o design de apresentação e a ordem dos resultados do Knowledge Panel são dinâmicos e personalizados conforme o perfil do usuário (GOOGLE SEARCH CENTRAL, 2022b).

Para que os dados sejam estruturados corretamente, a Google fornece diretrizes técnicas, diretrizes para webmasters e diretrizes gerais para dados estruturados. As diretrizes especificam quais classes e propriedades do Schema.org são obrigatórias para que o mecanismo de busca recupere os dados de uma página como um resultado enriquecido.

Uma das funcionalidades habilitadas pelos metadados do Schema.org, é o snippet de avaliação, um pequeno trecho constituído por uma média de classificações elaboradas por vários revisores (GOOGLE SEARCH CENTRAL, 2022a). Os snippets de avaliação podem ser utilizados para classificar livros, cursos, eventos, instruções, empresas, filmes, produtos, receitas e software (GOOGLE SEARCH CENTRAL, 2022a). A Figura 1 apresenta um resultado de busca enriquecido com o snippet de avaliação para o livro “A revolução dos bichos” do escritor George Orwell.


Figura 1
Resultado enriquecido com snippets de avaliação
Fonte: Google (2022)

Na Figura 1, o resultado apresenta o link para loja virtual, onde o recurso está disponível para compra, uma breve descrição sobre o conteúdo e informações essenciais, como número de páginas, ano de publicação, edição, e por último, a avaliação representada por cinco estrelas, seguida do número de votos, preço do item e disponibilidade. Os resultados de busca relacionados a livros geralmente apresentam a opção de compra ou empréstimo, habilitadas com as classes do Schema.org: ReadAction e BorrowAction (GOOGLE SEARCH CENTRAL, 2022b). Na Figura 2 é possível visualizar as opções para aquisição o romance de George Orwell.


Figura 2
Resultado de busca com a opção de compra ou empréstimo
Fonte: Google (2022).

Como pode ser observado na Figura 2, é possível adquirir o item selecionando a opção “comprar livro” que oferece a possibilidade tanto de compra como de empréstimo. Para compra, basta acessar os links das lojas que possuem o item em estoque e para o empréstimo, o usuário deve informar um CEP que permite a localização da biblioteca mais próxima.

Os dados codificados em Schema.org integram o Knowledge Graph, um banco de dados que coleta, estabelece relacionamentos e organiza sistematicamente fatos sobre entidades. O Knowledge Graph apresenta informações sobre entidades, como, logotipos, contatos e informações sociais (GUHA; BRICKLEY; MACBETH, 2016). As informações são coletadas em fontes públicas ou de proprietários confiáveis e são geralmente exibidas conforme a estrutura visual da categoria Knowledge panel (GOOGLE SEARCH CENTRAL, 2022b), apresentada na Figura 3.


Figura 3
Informações sobre George Orwell compiladas pelo Knowledge Graph
Fonte: Google (2022).

Conforme a Figura 3, essa categoria de resultado apresenta imagens e informações sobre o escritor George Orwell, como data de nascimento, falecimento, ensaios, cônjuge, país, livros, filmes e pesquisas relacionadas. Essas informações são compiladas no Knowledge Graph por intermédio de páginas estruturadas com vocabulários compartilhados entre os mecanismos de busca, como o Schema.org.

No mecanismo de busca, Bing, o Schema.org é recomendado para habilitar os rich features que são recursos avançados, dinâmicos e interativos. Segundo Microsoft (2022) o mecanismo de busca identifica o conteúdo estruturado com marcações semânticas em Schema.org, RDfa ou OpenGraph. Um exemplo desse tipo de recurso é a Bing homepage que reúne conteúdos relevantes de páginas estruturadas, como pesquisas populares e links para vídeos, notícias, compras, viagens, imagens, entretenimento e mapas (MICROSOFT, 2012).

Nesse contexto, os autores Godby, Wang e Mixter (2015, não paginado, tradução nossa) explanam

[...] uma entidade do mundo real, ao contrário de uma lista de documentos, é um objeto que pode ser descrito em várias fontes de dados ou repositórios de conhecimento. Se a entidade for única e publicamente identificada, essas fontes de dados podem ser mescladas com mais facilidade. Esta é a chave para o bom funcionamento das aplicações da Web Semântica.

A publicação de dados abertos e conectados é possível a partir da atribuição de significado aos dados, permitindo a contextualização das informações para interpretação precisa tanto de seres humanos como de agentes computacionais. O enriquecimento semântico é realizado a partir de um conjunto de processos que permite a criação, o aprimoramento e a conexão dos dados (TORINO et al. 2020).

Tendo em vista os benefícios do enriquecimento semântico para recuperação de informações, como rich snippets, para revitalização dos catálogos digitais é necessária a harmonização dos instrumentos de representação com padrões e vocabulários alinhados ao escopo da Web Semântica. Nesse sentido, a próxima seção discorre brevemente sobre os metadados do Schema.org para descrição de recursos bibliográficos.

5 O SCHEMA.ORG NO CONTEXTO DAS BIBLIOTECAS

No contexto das bibliotecas não é comum a aderência de padrões e vocabulários genéricos, como o Schema.org. Entretanto, com a constante evolução da Web, as bibliotecas e outros centros de informação são direcionados para uma mudança de perspectiva em relação à associação dos instrumentos tradicionais de representação com tecnologias desenvolvidas fora do universo bibliográfico. Nesse sentido, Gilliland (2016, não paginado, tradução nossa) ressalta “As comunidades de informação estão cientes que quanto mais altamente estruturado é um objeto de informação, mais essa estrutura pode ser explorada para pesquisar, manipular e se relacionar com outros objetos.”

Por ser um vocabulário genérico, o Schema.org não abrange suficientemente os diferentes níveis de detalhamento exigidos para descrição em determinados contextos, como é o caso das bibliotecas. Godby (2016), pesquisadora sênior da Online Computer Library Center (OCLC), aponta que as comunidades de bibliotecas não consideravam o Schema.org viável para descrição bibliográfica, devido à superficialidade do vocabulário e enfoque no setor comercial. Segundo a autora “[...] o vocabulário parecia muito focado em produtos comerciais, que se sobrepõem apenas parcialmente às necessidades curatoriais das bibliotecas.” (GODBY, 2016, p. 77, tradução nossa).

O objetivo do Schema.org consiste em simplificar realidades complexas (GITHUB, 2022), sendo assim, podem ser desenvolvidos mecanismos de extensão para elaboração de descrições mais completas e coerentes em contextos específicos. Nessa perspectiva, a OCLC considerou alinhar as necessidades da comunidade de bibliotecas, com as da Web do consumidor, a partir do desenvolvimento de extensões para estruturação dos dados do Worldcat (FONS; PENKA; WALLIS, 2012).

A partir da parceria entre a OCLC e o W3C, foi criado o Schema Bib Extend Community Group, focado em “[...] discutir e preparar propostas para estender os esquemas do Schema.org para representação aprimorada da marcação e compartilhamento de informações bibliográficas.” (WORLD WIDE WEB CONSORTIUM, 2022, não paginado, tradução nossa). O Schema Bib Extend é constituído por membros de bibliotecas, desenvolvedores de sistemas de bibliotecas, editores, universidades, cooperativas e consórcios (WALLIS, 2013). As extensões propostas pelo grupo são baseadas na Bibliographic Ontology (BIBO), uma ontologia que fornece os principais conceitos e propriedades para descrever citações e referências bibliográficas.

No Schema.org, a classe CreativeWork contempla propriedades destinadas para representação de uma pluralidade de recursos informacionais, como: livros, artigos, séries televisivas, filmes, pinturas, esculturas, gravações musicais, jogos, manuais, fotografias, trabalhos acadêmicos, entre outros. Assim como todas as classes do vocabulário, CreativeWork herda um conjunto de propriedades de Thing, sendo as seguintes: additionalType, alternateName, disambiguatingDescription, image, mainEntityOfPage, name, potentialAction, sameAs, subjectOf e URL.

Além das propriedades herdadas de Thing, a classe abrange mais 106 propriedades, conforme Godby (2016) CreativeWork contém um conjunto de metadados coerentes para representação de informações bibliográficas e de autoridade. Na Figura 4, Barker e Campbell (2014) esquematizaram alguns dos possíveis relacionamentos entre as propriedades de CreativeWork.


Figura 4
Possíveis relacionamentos de CreativeWork
Fonte: Barker e Campbell (2014, não paginado)

Na Figura 4 é possível visualizar as propriedades e respectivos tipos esperados vinculados as classes Thing, CreativeWork, Person e Organization. Essas propriedades fornecem as principais informações sobre um recurso e estabelecem relacionamentos entre entidades e recursos informacionais. Conforme Barker e Campbell (2014) se os metadados do Schema.org estiverem disponíveis, qualquer mecanismo de pesquisa será capaz de processá-los para otimizar sua interface de pesquisa, distinguindo entre recursos diferentes com o mesmo nome; permitindo que as informações mais relevantes sejam exibidas com destaque na página de resultados; possibilitando que os resultados sejam filtrados por propriedades como, preço, fornecedor ou data de publicação, além de propiciar links para localização de resultados relacionados ao mesmo assunto ou editor.

Em CreativeWork são contemplados desde elementos essenciais para identificação de um recurso, como: author, publisher e datepublished, como metadados mais específicos referentes a direitos autorais, como: license, copyrightHolder e copyrightYear, e metadados de acessibilidade, como: accessMode, accessibilityAPI e accessibilityControl.

No site oficial do vocabulário, as funções de cada classe e propriedade são descritas individualmente com a indicação de valores esperados e para descrições mais específicas, há indicações de sub-propriedades e exemplos para codificação nos formatos: Microdados, RDFa e JSON-LD. Por ser um vocabulário genérico, os termos são de fácil interpretação, isto é, são compreensíveis em qualquer domínio, favorecendo a reutilização dos metadados.

Ressalta-se que o Schema.org é um vocabulário genérico, não foi projetado para substituir padrões em domínios específicos, portanto, pode ser empregado em conjunto com outras tecnologias, com enfoque na descoberta do conteúdo estruturado na Web. Dessa maneira, o vocabulário poderia ser utilizado como uma tecnologia complementar aos instrumentos de representação adotados pelas bibliotecas. Nesse sentido, Wallis e Scott (2014) salientam que os desenvolvedores do Schema.org apoiam o desenvolvimento de extensões para descrição bibliográfica, visando complementar iniciativas, como, Resource Description and Access (RDA) e Bibliographic Framework Initiative (BIBFRAME). Assim, a partir de mecanismos de extensão, seria possível adaptar e ampliar o vocabulário, de modo a promover maior nível de granularidade para dados bibliográficos.

6 CONSIDERAÇÕES FINAIS

O artigo expôs brevemente as limitações dos instrumentos de representação utilizados no contexto das bibliotecas, apresentando o vocabulário Schema.org como uma possível alternativa para estruturação dos dados nos catálogos digitais. O Schema.org propicia o enriquecimento semântico dos dados, viabilizando a recuperação de resultados precisos, visualmente enriquecidos e integrados as tecnologias Rich Snippets e Knowledge Graph. Essas tecnologias permitem a recuperação de informações essenciais sobre um assunto, complementadas com elementos gráficos, recursos relacionados, opções para compra ou empréstimo, entre outras possibilidades.

Os usuários contemporâneos estão habituados à gama de possibilidades oferecidas no ambiente Web, com ferramentas de busca intuitivas e dinâmicas que proporcionam a recuperação e o acesso imediato aos recursos disponíveis. Tendo isso em vista, é necessário repensar a estrutura dos dados dos catálogos, visando integrá-los a Web, a partir da utilização de tecnologias semânticas, como o Schema.org.

A aderência do Schema.org pelo maior catálogo do mundo, o Worldcat e a criação do Schema Bib Extend, representam um avanço significativo para as bibliotecas no que tange a adequação dos catálogos ao contexto atual. Cabe ressaltar que o Schema.org não substitui padrões específicos de um domínio, e sim, os complementa, visando favorecer a interpretação dos dados pelos mecanismos de busca e proporcionar aos usuários, experiências mais satisfatórias. Nesse sentido, pondera-se que o vocabulário possa complementar as principais iniciativas de adequação dos catálogos ao contexto atual, como o Bibframe, RDA e IFLA Library Reference Model (LRM).

A evolução da descrição de recursos informacionais nos catálogos, caminha para interligação e exposição dos dados. Com catálogos integrados a Web, possibilita-se a descoberta do conteúdo das bibliotecas e o melhor aproveitamento dos recursos disponíveis. Desse modo, além do benefício da exposição dos dados na Web, as bibliotecas podem contribuir para o desenvolvimento e publicação dos dados, fornecendo informações confiáveis, recuperadas como resultados enriquecidos, vinculados a outras fontes de informação.

AGRADECIMENTOS

Agradecemos as discussões do grupo de pesquisa e extensão “Dados e Metadados”.

REFERÊNCIAS

ALVES, Raquel Cristina Vesú. Metadados como elementos do processo de catalogação. 2010. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista Júlio Mesquita Filho, Marília, 2010. Disponível em: Disponível em: http://repositorio.unesp.br/handle/11449/103361. Acesso em: 05 ago. 2021.

BARKER, Phill.; CAMPBELL, Lorna. Whats is Schema.org? Cetis, Bolton, n. B01, jun., 2014. Disponível em: Disponível em: http://publications.cetis.org.uk/2014/960. Acesso em: 06 jan. 2021.

DÍEZ, Luisa Alvite. A. Redefiniendo el catálogo: expectativas de las interfaces de descubrimiento centradas en el usuario. Investigación Bibliotecológica, Ciudad de México, v. 26, n. 56, p. 181-204, jan/abr. 2012. Disponível em: Disponível em: http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0187-358X2012000100009. Acesso em: 03 out. 2021.

FONS, Ted.; PENKA, Jeff.; WALLIS, Richard. OCLC’s Liked Data initiative: using Schema.org to make library relevant on the Web. Information Stardards Quartely, [s.l.], v. 24, n. 2-3, p. 29-33, jun. 2012. Disponível em: Disponível em: https://www.niso.org/nisoio/2012/06/oclcs-linked-data-initiative. Acesso em: 22 set. 2021.

GILLILAND, Anne. J. Setting the stage. In: BACA, Murtha. (Ed.). Introduction to metadata. 3rd ed. Los Angeles: The Getty Publications, 2016. E-book. Disponível em: Disponível em: http://www.getty.edu/publications/intrometadata/setting-the-stage. Acesso em: 05 ago. 2021.

GITHUB. Welcome to Schema.org. 2022. Disponível em: Disponível em: https://github.com/schemaorg/schemaorg. Acesso em: 15 ago. 2021.

GODBY, Carol. Jean. A Division of Labor: The role of Schema.org in a Semantic Web model of library resources. In: Linked Data for Cultural Heritage. Chicago: ALA Editions, 2016. Disponível em: Disponível em: https://www.oclc.org/research/publications/2016/schema-rolesemantic-weblibrary.html. Acesso em: 21 jan. 2020.

GODBY, Carol. Jean.; WANG, Shenghui.; MIXTER, Jeffrey. K. Library linked data in the cloud: OCLC's experiments with new models of resource description. Synthesis Lectures on the Semantic Web: Theory and Technology, 2015. E-book. Disponível em: Disponível em: https://www.oclc.org/research/publications/books/library-linked-data-in-thecloud/chapter1.html#x1-40001. Acesso em: 20 jul. 2021.

GOOGLE SEARCH CENTRAL. Enable Search result features for your site. 2021. Disponível em: Disponível em: https://developers.google.com/search/docs/advanced/appearance/searchresult-features#why-specify-search-features-for-a-page. Acesso em: 20 ago. 2021.

GOOGLE SEARCH CENTRAL. Review Snnipet. 2022a. Disponível em: Disponível em: https://developers.google.com/search/docs/advanced/structured-data/review-snippet. Acesso em: 19 ago. 2021.

GOOGLE SEARCH CENTRAL. Book. 2022b. Disponível em: Disponível em: https://developers.google.com/search/docs/advanced/structured-data/book#book-work. Acesso em: 20 ago. 2021.

GUHA, R. V.; BRICKLEY, Dan.; MACBETH, Steve. Schema.org: evolution of structured data on the Web. Communications of the ACM, v. 59, n. 2, p.1-28, feb. 2016. Disponível em: Disponível em: https://dl.acm.org/doi/fullHtml/10.1145/2844544. Acesso em: 13 jul. 2021.

HITZLER, Pascal. A review of the semantic web field. Communications of the ACM, v. 64, n. 2, p. 76-86, feb. 2021. Disponível em: Disponível em: https://cacm.acm.org/magazines/2021/2/250085-a-review-of-the-semantic-webfield/fulltext. Acesso em: 18 jan. 2021.

INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS. Declaração dos Princípios Internacionais de Catalogação (PIC). 2016. 21 p. Tradução: Marcelo Votto Texeira. Disponível em: Disponível em: https://www.ifla.org/files/assets/cataloguing/icp/icp_2016-pt.pdf. Acesso em: 08 set. 2020.

ISOTANI, Seiji.; BITTENCOURT, Ig Ibert. Dados abertos conectados. São Paulo: Novatec Ed., 2015. E-book. Disponível em: Disponível em: https://ceweb.br/livros/dados-abertosconectados. Acesso em: 02 ago 2021.

MICROSOFT. Bing webmaster guidelines. 2022. Disponível em: Disponível em: https://www.bing.com/webmasters/help/webmaster-guidelines-30fba23a. Acesso em: 30 maio 2022.

MICROSOFT. Our favorite features. 2012. Disponível em: Disponível em: https://blogs.bing.com/search/2012/02/03/our-favorite-features. Acesso em: 30 maio 2022.

MIKA, Peter. On Schema.org and why it matters for the web. IEEE Computer Society, n. 15250595, p. 52-55, jun. 2015. Disponível em: Disponível em: https://ieeexplore.ieee.org/document/7131410. Acesso em: 13 jul. 2021.

NEISH, Peter. Linked data: what is it and why should you care? The Australian Library Journal, v. 64, n. 1, p. 3-10, nov. 2015. Disponível em: Disponível em: https://www.tandfonline.com/doi/full/10.1080/00049670.2014.974004. Acesso em: 27 de. 2021.

NOGALES, Alberto. et al. Linking from Schema.org microdata to the Web of Linked Data: An empirical assessment. Computer Standards & Interfaces, v. 45, p. 90-99, mar. 2016. Disponível em: Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0920548915001440. Acesso em: 19 ago. 2021.

RAMALHO, Rogério Aparecido Sá; OUCHI, Marcos Teruo. Tecnologias semânticas: novas perspectivas para a representação de recursos informacionais. Informação & Informação, Londrina, v. 16 n. 3, p. 60-75, jan./ jun. 2011. Disponível em: Disponível em: https://brapci.inf.br/index.php/res/v/32023. Acesso em: 20 jun. 2021.

RILEY, Jenn. Understanding Metadata: what is metadata, and what is it for? Baltimore: National Information Standards Organization (NISO), 2017. Disponível em: Disponível em: https://groups.niso.org/apps/group_public/download.php/17446/Understanding%20Metada ta.pdf. Acesso em: 20 jul. 2021.

SANTARÉM SEGUNDO, José Eduardo; SILVA, Marcel Ferrante.; MARTINS, Dalton Lopes. Revisitando a interoperabilidade no contexto dos acervos digitais. Informação & Sociedade, João Pessoa, v. 29, n. 2, p. 61-84, abr./jun. 2018. Disponível em: Disponível em: https://pesquisa.tainacan.org/repositorio-de-pesquisa/revisitando-a-interoperabilidade-nocontexto-dos-acervos-digitais. Acesso em: 25 abr. 2021.

SANTOS, Plácida Leopoldina Ventura Amorim da Costa. Catalogação, formas de representação e construções mentais. Tendências da Pesquisa Brasileira em Ciência da Informação, [s.l.], v. 6, n. 1, 2013. Disponível em: Disponível em: https://brapci.inf.br/index.php/res/v/119476. Acesso em: 22 fev. 2022.

SANTOS, Plácida Leopoldina Ventura Amorim da Costa; SIMIONATO, Ana Carolina; ARAKAKI, Felipe Augusto. Definição de metadados para recursos informacionais: apresentação da metodologia BEAM. Informação & Informação, Londrina, v. 19, n. 1, p. 146-163, jan./abr. 2014. Disponível em: Disponível em: http://www.uel.br/revistas/uel/index.php/informacao/article/view/15251/14211. Acesso em: 04 ago. 2021.

SCHEMA.ORG. Welcome to Schema.org. 2021a. Disponível em: Disponível em: https://schema.org. Acesso em: 09 jul. 2021.

SCHEMA.ORG. Organization of Schemas. 2021b. Disponível em: Disponível em: https://schema.org/docs/schemas.html. Acesso em: 07 ago. 2021.

SCHEMA.ORG. Data Model. 2021c. Disponível em: Disponível em: https://schema.org/docs/datamodel.html. Acesso em: 16 ago. 2021.

SCHEMA.ORG. Full Hierarchy. 2021d. Disponível: Disponível: https://schema.org/docs/full.html. Acesso em: 17 ago. 2021.

SERRA, Liliana Giusti. et al. Os princípios da descrição e os formatos MARC 21 e ONIX. Ciência da Informação, Brasília, v. 2, n. 46, p. 51-66, jun. 2018. Disponível em: Disponível em: http://revista.ibict.br/ciinf/article/view/2327. Acesso em: 08 set. 2021.

WALLIS, Richard. Schema Bib Extend. Information Standards Quartely, [s.l.], v. 25, n. 4, 2013. Disponível em: Disponível em: https://www.niso.org/niso-io/2013/01/schema-bib-extend. Acesso em: 30 jan. 2022.

WALLIS, Richard; SCOTT, Dan. Schema.org Support for Bibliographic Relationships and Periodicals. 2014. Disponível em: Disponível em: http://blog.schema.org/2014/09/schemaorgsupport-for-bibliographic_2.html. Acesso em: 03 jan. 2022.

WORLD WIDE WEB CONSORTIUM. Semantic Web. 2015a. Disponível em: Disponível em: https://www.w3.org/standards/semanticweb. Acesso em: 27 jul.2021.

WORLD WIDE WEB CONSORTIUM. Linked Data. 2015b. Disponível em: Disponível em: https://www.w3.org/standards/semanticweb/data. Acesso em: 29 jul. 2021.

WORLD WIDE WEB CONSORTIUM. Vocabularies. 2015c. Disponível em: Disponível em: https://www.w3.org/standards/semanticweb/ontology. Acesso em: 17 set. 2021.

WORLD WIDE WEB CONSORTIUM. Data on the web best practices. 2019. Disponível em: Disponível em: https://www.w3.org/Translations/DWBP-pt-BR/#dataVocabularies.. Acesso em: 10 ago. 2021.

WORLD WIDE WEB CONSORTIUM. Schema Bib Extend Community Group. 2022. Disponível em: Disponível em: https://www.w3.org/community/schemabibex. Acesso em: 24 ago. 2021.

Notas

LICENÇA DE USO Os autores cedem à Encontros Bibli os direitos exclusivos de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution (CC BY) 4.0 International. Estra licença permite que terceirosremixem, adaptem e criem a partir do trabalho publicado, atribuindo o devido crédito de autoria e publicação inicial neste periódico. Os autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada neste periódico (ex.: publicar em repositório institucional, em site pessoal, publicar uma tradução, ou como capítulo de livro), com reconhecimento de autoria e publicação inicial neste periódico.
PUBLISHER Universidade Federal de Santa Catarina. Programa de Pós-graduação em Ciência da Informação. Publicação no Portal de Periódicos UFSC. As ideias expressadas neste artigo são de responsabilidade de seus autores, não representando, necessariamente, a opinião dos editores ou da universidade.
EDITORES Edgar Bisset Alvarez, Ana Clara Cândido, Patrícia Neubert e Genilson Geraldo.

Autor notes

CONTRIBUIÇÃO DE AUTORIA Concepção e elaboração do manuscrito: D. O. F. Machado, A. C. S. Arakaki

Coleta de dados: D. O. F. Machado

Análise de dados: D. O. F. Machado, A. C. S. Arakaki

Discussão dos resultados: D. O. F. Machado, A. C. S. Arakaki

Revisão e aprovação: A. C. S. Arakaki

dayanemachado886@gmail.comacsimionato@ufscar.br



Buscar:
Ir a la Página
IR
Visualizador XML-JATS4R. Desarrollado por