Prefácio
Caroline Burle dos Santos Guimarães
Vagner Diniz
“Dados são a alma da tomada de decisões e a matéria-prima para a prestação de contas. é quase impossível a concepção, o acompanhamento e a avaliação de políticas eficazes sem dados de alta qualidade que fornecem as informações corretas sobre as coisas certas no momento certo.”
O mundo está repleto de dados. Dados são criados toda vez que alguém utiliza seu celular, onde quer que esteja, que produtos com seus códigos de barras são fabricados, despachados, armazenados e vendidos, e que veículos com GPS vão e vêm pelas estradas, circulam pela rede e são passíveis de serem analisados, processados e transformados em informações de valor. Apesar da enxurrada de informações, de muitos dados sobre pessoas, governos, empresas, pouco ainda sabemos como fazer para que dados resolvam nossos problemas do cotidiano. As tecnologias abertas têm se revelado instrumentos alavancadores de inovação. A possibilidade de inovação incremental a partir de processos colaborativos de uso da tecnologia permite mudanças disruptivas como a nova economia compartilhada, aplicativos sociais e reaproveitamento de códigos e dados. Os textos e os cursos abertos, como recursos educacionais abertos, geram capacitação e formam
pessoas aptas a utilizar essas tecnologias abertas, que podem produzir novos negócios e novas soluções para a sociedade. Acreditamos também que as tecnologias abertas para a disponibilização de dados têm um potencial enorme de prover maior transparência e melhor participação dos cidadãos nas soluções dos seus problemas.
Com base nessas premissas, a equipe do Centro de Estudos sobre Tecnologias Web (Ceweb.br), do NIC.br, organizou o curso online avançado sobre publicação de dados em formato aberto, cujo conteúdo produzido pelos professores Seiji Isotani e Ig Ibert Bittencourt transformou-se neste livro. O conceito Dados Abertos Conectados, do inglês “Linked Data”, foi criado por Tim Berners-Lee pela necessidade de padronizar a conexão entre dados na Web. Compreende-se que o uso dos padrões criados pelos Grupos de Trabalho do W3C e o trabalho da comunidade de desenvolvedores, de gestores governamentais e da sociedade interessada no desenvolvimento Web são essenciais para que se alcance efetivamente dados abertos e conectados.
Dados abertos de alta qualidade são dados publicados e distribuídos na Internet, compartilhados em formato aberto para que possam ser lidos por qualquer pessoa e por máquinas, permitindo o cruzamento com outros dados de diferentes fontes, para serem livremente reutilizados pela sociedade. Dados abertos governamentais são dados produzidos pelos governos, que devem ser colocados à disposição de qualquer cidadão e para qualquer fim (W3C BRASIL, 2011, p. 4). As definições de Dados Abertos e Dados Abertos Conectados são tidas como base para compreender os conceitos a serem tratados neste livro.
O primeiro capítulo – “Visão Holística: Da Produção ao Consumo de Dados Abertos” – apresenta o conceito de Dados Abertos e enfatiza a importância das três normas para publicação de dados em formato aberto: os dados precisam ter disponibilidade e acesso, reúso e redistribuição e participação universal. Mostra os benefícios de abertura e publicação de dados e discorre sobre a criação do portal americano de dados abertos (data.gov.us) e da Parceria para Governo Aberto (Open Government Partnership – OGP). Vale ressaltar que, sendo o Brasil um dos fundadores da OGP, ele incentivou a publicação de dados abertos no âmbito mundial.
A Lei de Acesso à Informação (LAI), que entrou em vigor no Brasil em maio de 2012, é citada pelos autores como arcabouço jurídico para a obrigação governamental de disponibilizar dados abertos no país. O ciclo de vida dos dados abertos também é analisado nesse capítulo, assim como a grande produção de dados – o big data. A Web Semântica é a visão do W3C sobre a Web de dados conectados, tópico relevante para se trabalhar dados de forma inteligente e automática.
Os autores explicam a transição da Web de documentos para a Web de dados e que Dados Conectados referem-se a “um conjunto de boas práticas para publicação e conexão de dados estruturados na Web, usando padrões internacionais recomendados pelo W3C”. Ao final do capítulo inicial, descrevem o processo para publicação de dados abertos, detalhando-os nos capítulos seguintes.
O capítulo 2 – “Estruturação de Dados e Dados Abertos Conectados” – mostra que são essenciais para obter dados conectados os padrões de representação com o modelo RDF e a criação de triplas. Apresenta a importância do esquema de distribuição das cinco estrelas, proposto por Tim Berners-Lee, e o significado da classificação para atingir o ponto máximo, a quinta estrela. Os autores explicam sobre a necessidade de os dados serem disponibilizados sob licenças que permitam o seu reúso.
Esse capítulo também mostra como a DBPedia ajuda a tornar possível a Web de Dados e, por meio de exemplos, demonstra alguns casos reais como o data.gov.uk, da BBC, o caso de Nova York e o caso brasileiro da Globo.com. Todos chegaram às cinco estrelas dos dados abertos.
O terceiro capítulo – “Ontologias e Representação de Conhecimento” – explica a obrigação de usar ontologias para chegar aos Dados Abertos Conectados. Conceitua a composição de uma ontologia, os tipos que existem e a linguagem de ontologias da Web – OWL, em inglês Ontology Web Language. Esse padrão pode ser dividido em duas camadas: uma para descrever a sintaxe e outra para a semântica. Enfatiza-se, ainda, que toda ontologia criada em OWL 2 tem uma estrutura sintática obrigatória, baseada em RDF/XML. O capítulo seguinte – “Engenharia de Ontologias” – detalha as metodologias de desenvolvimento de ontologias, abordando a complexidade na sua criação e as ferramentas existentes para criá-las. Descreve-se o ciclo de vida de uma ontologia, que começa na especificação, segue para a conceitualização, é formalizada, em seguida é implementada para, posteriormente, existir um cuidado com a sua manutenção. Esse capítulo ainda mostra como criar uma ontologia, com o exemplo da Ontologia de Vinho. O último capítulo – “Desenvolvimento de Aplicações Semânticas” – disserta sobre os padrões de desenvolvimento, especialmente o desenvolvimento orientado a triplas RDF e o desenvolvimento orientado a objetos. Também são citadas ferramentas para desenvolvimento de aplicações semânticas, plataformas para publicação de dados e frameworks para manipulação de RDF, bancos de dados RDF e sistemas de mapeamento objeto-ontologia.
Este livro mostra a importância dos Dados Abertos conectados, que podem contribuir para o uso da Web como principal meio para inovação social. A amálgama dos dados na Web ubíqua pode facilitar a vida dos usuários, e, assim como a Web revolucionou o consumo de documentos, os Dados Abertos Conectados podem revolucionar o acesso aos dados e a maneira como estes são usados.