34 Formatos das bases

No escopo deste guia, uma base de dados nada mais é do que um arquivo de computador construído de forma estruturada, com o objetivo de armazenar informações para consulta e análise posterior. Sua base de dados pode ser construída manualmente, desde que você defina uma estrutura para organizar esses dados e mantenha coerência. Isso é importante para garantir que as buscas realizadas nessa base encontrem aquilo que se procura. Uma base de dados pode ser um arquivo de texto, por exemplo, com a lista de todos os municípios do estado de São Paulo. Ou então, essa base pode ser uma lista de hospitais da cidade de São Paulo e, ao lado de cada nome, o bairro onde cada um se encontra:

 

Macintosh HD:Users:cburle:Documents:W3C Br:Dados Abertos:SPUK:Guias Abertura de Dados e Web Semântica:Ilustrações:arte_final_figuras_guia_de_abertura_de_dados:PNG:lista_nomes_hospitais_pag56.png

 

Nesse caso, a estrutura é definida pela escolha de colocar dois nomes (hospital e bairro) em uma nova linha do arquivo, separados por um delimitador, a vírgula. Dois hospitais nunca apareceriam na mesma linha, por exemplo. O que define a integridade de uma base de dados, a grosso modo, são os elementos utilizados com o intuito de dar previsibilidade para as consultas realizadas nessa base: no exemplo citado, todas as linhas apresentam, primeiro, o nome de um hospital e, segundo, o nome do bairro onde ele se encontra. Se qualquer linha dessa base for diferente do modelo "Nome do hospital, Bairro", a integridade da base ficará comprometida e ela perderá sua utilidade:

Macintosh HD:Users:cburle:Documents:W3C Br:Dados Abertos:SPUK:Guias Abertura de Dados e Web Semântica:Ilustrações:arte_final_figuras_guia_de_abertura_de_dados:PNG:lista_nomes_hospitais_com_destaque_pag56.png

Na maior parte dos casos, contudo, as próprias ferramentas disponíveis nos computadores são capazes de gerar ou converter, automaticamente, arquivos estruturados que servem como bases de dados. Um dos exemplos mais comuns é a planilha do Excel, arquivos de computador com a terminação ".xls" ou ".xlsx". Esses documentos apresentam linhas e colunas e permitem análises e cruzamentos posteriores. Contudo, os formatos dos arquivos nativos do Excel utilizam uma tecnologia proprietária e fechada. Isso quer dizer que eles dependem de tecnologias exclusivas, muitas vezes que custam dinheiro e não estão disponíveis de forma ampla e gratuita para qualquer pessoa.

 

A lista abaixo sugere uma série de formatos abertos ou não proprietários que se encaixam melhor nos princípios de abertura de dados apresentados neste guia e apresenta uma breve introdução sobre cada um deles. Não há um formato mais recomendado do que outro. Cada equipe deve refletir sobre quais os formatos das bases já existentes (em arquivos do Excel, por exemplo) e se existe alguma forma de convertê-las para algum dos formatos sugeridos abaixo, dependendo da aplicação.