João Paulo Andrade Almeida – Professor associado da
Transcrição
João Paulo Andrade Almeida – Professor associado da
Interoperabilidade Semântica de Dados Governamentais Prof. Dr. João Paulo A. Almeida ([email protected]) http://nemo.inf.ufes.br Departamento de Informática Universidade Federal do Espírito Santo Em colaboração com Archimedes A. Detoni (doutorando) Lucas Bassetti (mestrando) e Prof. Dr. Ricardo Falbo Agenda • Visão:Ondequeremoschegar…? – Aprofundamentoda “sociedadedainformação” • Diagnós<co:Ondeestamos…? – Dadosgovernamentais • Desafios:Oqueprecisamosfazer…? – Atençãoàsemân<ca Visão:Ondequeremoschegar…? • Aprofundamentoda “sociedadedainformação” Visão:Ondequeremoschegar…? • Aprofundamentoda “sociedadedainformação” 21/06/1988 Visão:Ondequeremoschegar…? • Teracessoadadosproduzidosporumaenormidadede fontes(inclusivegovernamentais,mastambémda sociedadecivil,doscidadão) • Ligaroucombinardadosproduzidosdasváriasfontes • Produziroupublicardados – sobreabsolutamentequalquercoisaquesejadointeresse • Princípiobásico: • Usodosdadosmuitoalémdopropósitooriginalparasua coleção • combinaçõesdepotencial“infinito” Visão:Ondequeremoschegar…? • Nocasodedadosgovernamentaisfomentar: – Transparênciaa<va – Pesquisaacadêmicaejornalismodedados – FormulaçãodepolíFcaspúblicasetomadade decisãocombaseemevidências – ParFcipaçãodecidadãosedosetorprivado Visão:…queremossaber! • Ondefoipararomeudinheiro? • Qualomelhorinves<mentoparaorecursopúblico? • Osprofessoresdaeducaçãobásicaemdiferentesunidades dafederaçãotemsaláriosdiferentes? – Istolevaadesempenhodiferenteemtesteseducacionais? • Qualarelaçãoentrecriminalidadeeiluminaçãopública? • Qualarelaçãoentresaúdeesaneamentobásico? – Pordoença? – Porregiãogeográfica? – PorIDH? • Etc.,etc.,etc. Diagnós<co:Ondeestamos? • Umainfinidadede“ilhas”desistemasdeinformação • Sónocasogovernamental: – – – – Diferentesesferas(federal,estadual,municipal) Diferentespoderes(execu<vo,legisla<vo,judiciário) Diferentesórgãoscomcomplexaestruturaorganizacional Cadaqualmantendoinformaçõesdiferentes,porém complementares • Sobresaúde,segurançapública,economia,educação,mobilidade urbana,etc.etc.eetc. – Cadaqualcomseus“formatos”dedados • Nãopadronizados • Poucooumaldocumentados • DesarFculados Diagnós<co:…nomeiodocaminho! • LeideAcessoaInformaçãode2011 “Ossí<os[…]deverão[…]atender,entreoutros,aosseguintes requisitos: I-conterferramentadepesquisadeconteúdo[…] II-possibilitaragravaçãoderelatóriosemdiversosformatos eletrônicos,inclusiveabertosenãoproprietários,taiscomo planilhasetexto,demodoafacilitaraanálisedas informações; III-possibilitaroacessoautomaFzadoporsistemasexternos emformatosabertos,estruturadoselegíveispormáquina; IV-divulgaremdetalhesosformatosuFlizadospara estruturaçãodainformação;“ Diagnós<co:…nomeiodocaminho! • Nãoháum“formatodedadosabertos” • Hánaverdade“meta-formatos” • • • • • CSV(CommaSeparatedValues) XML(ExtensibleMarkupLanguage) JSON(JavaScriptObjectNota<on) RDF(ResourceDescrip<onFramework) OWL(WebOntologyLanguage) ExemplodeConsulta: Despesasagregadasporsubfunção Downloaddedados Documentação AAAAMM_GastosDiretos.csv 201605_GastosDiretos.csv CódigoÓrgãoSuperior;NomeÓrgãoSuperior;CódigoÓrgãoSubordinado;NomeÓrgão Subordinado;CódigoUnidadeGestora;NomeUnidadeGestora;CódigoGrupoDespesa; NomeGrupoDespesa;CódigoElementoDespesa;NomeElementoDespesa;Código Função;NomeFunção;CódigoSubfunção;NomeSubfunção;CódigoPrograma;Nome Programa;CódigoAção;NomeAção;LinguagemCidadã;CódigoFavorecido;Nome Favorecido;NúmeroDocumentoPagamento;GestãoPagamento;DataPagamento;eValor Pagamento. 52000 MINISTERIODADEFESA 52111 COMANDODAAERONAUTICA 120625 GRUPAMENTODEAPOIODODISTRITOFED 3 Outras DespesasCorrentes 39 OutrosServiçosdeTerceiros-PessoaJurídica 05 DefesaNacional 151 DefesaAérea 2058 DefesaNacional 20XV OperaçãodoSistemadeControledoEspaçoAéreoBrasileiro-SISCEAB 28151363000147 COMPANHIAESPIRITOSANTENSEDESANEAMENTOCESAN[CESAN] 2016OB807392 00001 31/05/2016 780,16 Semadocumentaçãonãosabemos… • Questõessintá<cas: • Quaissãoos<posdosdadosemcadacoluna? • Existealgumaparteopcional,outodososcampossempre estarãopresentes? • • • • Maismaisimportante: Oqueestásendoiden<ficadopelosdados? Qualéasemân<cadosdados? Comoestesdadosserelacionamaoutros? • Asquestõessemân<cassãoextremamentecomplexasem domíniostécnicos(comodoorçamento) Papeldos“formatos”dedados Convenções de representação dos dados Dados Distância semântica tem que controlada para comunicação eficaz Distância semântica (δ) QUALIDADE das Convenções de representação dos dados Dados TerminologiaemLinguagemNaturalNãoé SoluçãoSuficiente ÁRVORE Exacerbadonaligação i i1 ? ? i i2 Dados se referem às mesmas entidades do mundo real? i1' ? i2' AAbordagemSemân<ca:Ontologias AAbordagemSemân<ca:Ontologias TriplaseGrafosRDFnaWeb TriplaseGrafosRDFnaWeb Enquanto há identificadores Nos dados eles tem escopo local, faltam portanto URIs Exemplo: http://portaltransparencia.gov.br/empenho/2016NE000031 AbordagemSemân<ca Ontologia (OntoUML) Ontologia (OWL) SIAFI Dados Triplificados SIOPI Triple store Qual Credor recebeu mais dinheiro? Qual Subelemento de Despesa com maior valor pago? Algumasdestasprá<casjáadotadaspelo governofederal Visão:WebdeDados "Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/" Conclusão • Principaisdesafiossãosócio-técnicos • Coordenaçãodeformatos,modelosconceituaissubjacentes – Técnicas“semân<cas”oubaseadasemontologias – Processoabertoecolabora<voparaconstruçãodestes formatos • Inves<mentonaqualidadedestesformatos • Inves<mentonaqualidadedosdados • Esforçossignifica<vossãonecessáriosporpartedogoverno – Envolvendonecessariamenteinves<mentoemTIpeloseu papelchavenesteprocesso Outrasinformações • • • • h|ps://github.com/LucasBasse}/despesa-orcamentaria OntologiaemOntoUML,linkparaferramenta OntologiaemOWL SPARQLEndpoint,exemplosdeconsultas • • • • • • • W3CDataontheWebBestPrac<cesWorkingGroup W3CGovernmentLinkedDataWorkingGroup h|p://nemo.inf.ufes.br h|p://vocab.e.gov.br h|p://eping.governoeletronico.gov.br LinkedOpenData OpenGovernmentData