TÉCNICAS PARA PUBLICAÇÃO DE DADOS NA WEB

A medida em que a Web se consolidou como plataforma para publicação e compartilhamento de documentos, organizações passaram a ter interesse no uso da Web como plataforma para publicação de dados. Durante os últimos anos, diversas técnicas emergiram para a publicação de dados na Web que vão desde o uso de formulários para a realização de consultas a um banco de dados até a publicação de Dados Conectados (CERI et al., 2013 e FERRARA et al., 2014). A seguir, algumas dessas técnicas para a publicação de dados são apresentadas (CERI et al., 2013 e FERRARA et al., 2014), incluindo o uso de Web APIs, a inserção de dados diretamente nas páginas HTML e as ferramentas para criação de catálogos de dados. 

ACESSO A PARTIR DE WEB APIS

Uma forma de publicação de dados na Web consiste em utilizar Web APIs. Uma das primeiras propostas para padronização de APIs para a Web foram os Web Services (ALONSO et al., 2004), inspirados no paradigma de RPC
(Remote Procedure Call) (NELSON, 1981) e no uso de XML
(eXtensible Markup Language) para a troca de dados. Posteriormente, surgiu o paradigma REST (Representational State Transfer) e o formato JSON (JavaScript Object
Notation
) (MANDEL 2008) passou a ser amplamente adotado. Este novo tipo de API é conhecido como RESTful service

Em geral, dados expostos por meio de APIs não podem ser encontrados pelos mecanismos de busca. Uma das razões para isso é que em muitos casos é necessário realizar uma autenticação antes de ser possível acessar a API. Além disso, existem restrições quanto ao uso da API a fim de evitar acessos exaustivos aos dados. Sendo assim, é possível dizer que os dados disponíveis por meio de APIs são semelhantes aos dados disponíveis na Deep Web, ou seja, não podem ser facilmente encontrados e indexados. Porém, a razão para isso acontecer é bem diferente e consiste na necessidade dos provedores em controlar o acesso aos dados por aplicações externas. 

ENRIQUECIMENTO DE PÁGINAS HTML

Uma outra forma de publicar dados na Web consiste em fazer a inclusão dos dados nas páginas HTML. Isso é possível com o uso de microformatos, ou seja, marcadores (tags) específicos que tornam explícita a semântica dos dados. O uso de microformatos permite aos mecanismos de busca identificar os dados disponíveis nas páginas HTML e, assim, apresentar melhores resultados aos usuários. Além disso, os provedores de dados podem alcançar maior visibilidade. Diversos microformatos foram desenvolvidos pela comunidade para a publicação de dados de diferentes domínios, incluindo: hCalendar para eventos, hReview para revisões e ratings, hRecipe para receitas culinárias e hCard para dados pessoais.12

O uso de microformatos é uma solução simples para a publicação de dados na Web, porém também apresenta algumas limitações: I) o uso de diferentes microformatos em uma mesma página pode levar a conflitos de nomes (por exemplo, a class url de CSS e o termo url do microformato hCalendar), II) não permite a criação de especializações e generalizações e III) cada microformato requer um parser específico. 

Esses problemas podem ser solucionados com o uso de RDFa13, uma solução que permite a especificação de atributos para descrição de dados estruturados em qualquer linguagem de marcação, em particular XHTML14 e HTML. Enquanto os microformatos combinam a sintaxe para incluir os dados estruturados nas páginas HTML com a própria semântica dos dados, RDFa preocupa-se apenas com a sintaxe para inclusão dos dados estruturados. Para a semântica dos dados, RDFa permite o uso de vocabulários específicos, como o schema.org15. RDFa permite que múltiplos vocabulários sejam utilizados em conjunto sem a necessidade de parsers específicos para cada um deles. 

Além do uso de RDFa para adicionar metadados estruturados em um documento HTML, a linguagem JSON-LD16 (JSON for Linked Data) pode ser utilizada. É um padrão baseado no formato JSON, mas que permite o uso de vocabulários e ontologias para a descrição dos dados. O formato JSON-LD possui grande adoção por parte da comunidade técnica e é recomendado pelo Google17 para ser adotado como formato padrão de intercâmbio de Dados Conectados nas páginas Web.

FERRAMENTAS PARA CATALOGAÇÃO DE DADOS

Com o crescente interesse na publicação de dados abertos, em especial os dados abertos governamentais, uma nova forma de publicação de dados na Web ganhou destaque: as ferramentas para catálogos de dados, como CKAN18 e Socrata19. A partir dessas plataformas, são criados os portais de dados abertos, os quais oferecem acesso a conjuntos de dados previamente catalogados. Os conjuntos de dados são organizados como uma série de recursos e podem ser classificados de acordo com tags que explicitam o domínio dos dados.

Essas plataformas de catalogação são uma ótima ferramenta para indexação de conjuntos de dados, mas deixam a desejar quanto à busca de dados, uma vez que não permitem fazer buscas nos conjuntos de dados propriamente ditos. Em alguns casos, as ferramentas de catalogação oferecem APIs de acesso aos dados, mas isso é feito de forma bastante simplificada. Os conjuntos de dados disponíveis nos catálogos podem ser encontrados pelas ferramentas de busca, porém ainda não é possível encontrar itens de dados específicos armazenados em um conjunto de dados.

Apesar da grande disseminação dos portais de dados abertos, estas soluções apresentam diversas limitações, dentre elas destacam-se: a dificuldade em manter os dados atualizados, a falta de padrões de metadados para descrição dos conjuntos de dados e a impossibilidade de realização de consultas sobre os dados. Além disso, como os conjuntos de dados publicados nos portais geralmente encontram-se disponíveis em diversos formatos, ou seja, múltiplos arquivos para um mesmo conjunto de dados, também pode haver redundância de dados.