Viderebruksveileder/Utskriftsversjon
Innledning
[rediger]1. Innledning: Fremtiden er åpen
[rediger]Data er kunnskap. Deling av kunnskap er et strategisk virkemiddel. Det digitale samfunnet åpner for nye former for deling, og åpner nye muligheter. Datadeling hjelper oss med å oppnå spesifikke mål. Summen av all distribuert, åpen kunnskap bidrar til å skape et mer kreativt, transparent og næringsvennlig samfunn. Dette dokumentet er en innføring i temaet viderebruk av offentlige data. Veilederen skal bidra til å operasjonalisere de intensjoner som er lagt gjennom offentlighetsloven og statlige føringer. Målet er å gi en dypere forståelse for bakgrunnen for en ny praksis rundt dataåpenhet i offentlig sektor, skissere et veikart mot mere dataåpenhet for den enkelte organisasjon, og gi konkrete svar på de spørsmål og avveininger endringsprosessen skaper.
Dette hjelper veilederen deg med:
[rediger]- oppskrift på hvilke data du bør starte med
- definisjoner og forklaringer av sentrale begreper
- sjekkliste for juridiske hensyn
- anbefalinger av formater
- hvordan promotere frislipp av data
- inspirasjon til videre arbeid med rådata
Skap et godt grunnlag for viderebruk – også for fremtiden
[rediger]Offentlige data er informasjon offentlige etater og kommuner produserer i forbindelse med arbeidsoppgaver utført på vegne av innbyggerne. I vårt informasjonssamfunn er stadig mer av denne informasjonen strukturert og tilrettelagt for interne informasjonssystemer i etatene.
Økende digitalisering skaper store muligheter for bruk av data. Ved å tilrettelegge for at rådata frigjøres i formater som er nøytrale og lette å formidle mellom maskiner, blir informasjonen også lettere å formidle mellom mennesker.
De siste årene har et nytt engasjement vokst frem hvor tilgjengeliggjøring av data ansees som en svært verdifull kilde til innovasjon. Første skritt i riktig retning har vært å erkjenne at folk utenfor det offentlige kan ha vel så god kjennskap til hvordan disse dataene best kan benyttes, som forvaltningen selv. Neste steg har vært å reflektere over hva slags data forvaltningen faktisk sitter på. Hva er data? Hva er offentlige data og hva bør være åpne offentlige data?
Utvikling med tanke på fremtiden handler om å ivareta de verdiene vi har og skape nye verdier for generasjoner etter oss. En av de viktigste verdiene for etterkommere og dagens samfunn er å skape gjennomsiktige organisasjoner, prosesser, systemer, regelverk og data.
En råvare for utvikling i politikken, i forvaltningen og i næringslivet
[rediger]Offentlige etater sitter på store datamengder som kan være av interesse for eksterne aktører, men uten kapasitet til å dekke alle informasjonsønsker innbyggerne måtte ha. Ved å tilgjengeliggjøre informasjonen i strukturerte åpne dataformater og tilsvarende bruksvilkår, tilrettelegger man for både selvbetjening og utvikling av nye tjenester på områder der etaten eller kommunen ikke har tid eller ressurser til å gjøre jobben selv.
Offentlige data har til nå vært produsert innen separate enheter i en svært mangfoldig forvaltning. Vi ser derfor på et fragmentert, men veldig spennende og mangfoldig datatilfang. Når disse dataene tilgjengeliggjøres for viderebruk, kan hvert enkelt datasett vise seg svært verdifulle satt sammen på nye måter.
Vi har rådata for geologi, demografi, kartografi, kulturarv, skoleverket, eiendomsforvaltningen, forbruk, helse og så videre. Slippes disse fri, vil nye hoder kunne se nye muligheter – og sammen klarer vi kanskje å skape gulldata av grådata.
I det digitale informasjonssamfunnet er mengden data og antallet datakilder blitt overveldende. Hvordan sikrer vi en hensiktsmessig infrastruktur for at den tilgjengelige kunnskapen på små og store felt benyttes best? Hvordan kan vi gjøre data til et råstoff for utvikling − i politikken, i forvaltningen og i næringslivet?
Deling er ikke vanskelig
[rediger]Tilgjengeliggjøring av offentlige data trenger ikke å være verken tidkrevende eller komplisert. I denne veilederen beskrives både hvordan en etat eller en kommune kan ta små enkle grep som gir rask gevinst. I sin enkleste form kan etaten dele et regneark med faktaopplysninger som presenteres i en offentlig rapport, for så fortløpende gå videre med økt grad av tilrettelegging etterhvert som etaten eller kommunen får erfaring med hva som fungerer best, hvordan det gjøres og hva som etterspørres.
Gjennom fellesføringene for 2011 har Fornyingsdepartementet vedtatt at alle etater skal tilgjengeliggjøre egnede rådata i maskinlesbare formater i 2011. Tilgjengeliggjøring av offentlige data vil derfor være en aktivitet hvor det ønskes ekstra innsats, og resultatene vil bli synliggjort i enhetenes årsrapporter, virksomhetenes nettsteder og på nettstedet data.norge.no.
data.norge.no
[rediger]Data.norge.no ble lansert som en nasjonal datakildekatalog 29. februar 2011 (med blogg på plass i april 2010). Det er en møteplass ikke bare mellom databrukere og Fornyingsdepartementet, men også mellom databrukere og dataeiere. Vi inviterer derfor alle som er opptatt av offentlige data – enten de jobber i offentlige etater og forvalter data eller de er databrukere som prøver å sette sammen nye, innovative nettjenester – til å følge bloggen på data.norge.no og delta i debatten!
Om hovedforfatterne
[rediger]Anne Aaby har en master i samfunnsgeografi, fra Universitetet i Oslo. Hun er bygeograf med fordypning innen innovasjon og regional utvikling. Hun er initiativtaker og ansvarlig redaktør i masterbloggen.no. Masterbloggen er et av prosjektene som vant «Nettskap 2.0» - konkurransen. Hun er partner i Studio Netting som er et design- og webbyrå. Skribent og blogger.
Anders Brenna kommer fra internett. Han er gründer av Gravemaskinen.no, teknologiskribent i Kampanje og iPhone-utvikler. Anders er tidligere nettsjef i Teknisk Ukeblad, redaksjonssjef i digi.no og har jobbet som blant annet utvikler, prosjektleder, IT-konsulent innen IT-drift, og kursinstruktør i IT-bransjen.
Pia Jannike Virmalainen Jøsendal har tverrfaglig bakgrunn fra Universitetet i Bergen med en master i humanistisk informatikk. Hun arbeider til daglig i Computas AS som rådgiver og konsulent innen informasjonsarkitektur, åpne (offentlige) data og semantisk webteknologi og er fagleder i faggruppen for Semantisk web og Informasjonsarkitektur i Dataforeningen. Hun er aktiv foredragsholder, konferansearrangør og entusiast
Anders Waage Nilsen er konsulent og daglig leder i medieutviklingsprosjektet MediArena. Han har studert sammenliknende politikk ved Universitetet i Bergen, er tidligere journalist i dagspressen (Bergens Tidende og Dagbladet), har vært ansvarlig redaktør i magasinet Fri Flyt og bidratt i flere bøker (relatert til friluftsliv). Han har også ledet komplekse prosjekter i grensesnittet teknologi/reiseliv. Er en meget sporadisk blogger.
Eksempler på åpne datasett
[rediger]Dette er tre eksempler på problemstillinger som kan løses ved hjelp av åpne offentlige data:
1. Hvilke næringer vokser i hvilke regioner?
- Stedsnavnsdatabasen
- Brønnøysundregistrene
- Skattelister for foretak og informasjon fra statistisk sentralbyrå (SSB)
Krysses disse dataene kan man få oversikt over lønnsomme bedrifter sortet på region og nisje. Dette er informasjon kommuneplanleggere, investorer, arbeidssøkere, lærere i samfunnsfag og etablerere på hver sin måte ville hatt interesse av.
2. Kartlegge spredning av skadedyr
- Kartdata
- Observasjoner fra allmennheten
Kartdata får økt verdi når allmennheten bidrar med sanntidsobservasjoner. Et interaktivt kart kan vise spredning av skadedyr ved hjelp av innbyggere, foreninger eller organisasjoners observasjoner.
3. Hvilke skoler bidrar til sosial utjevning?
- Skattelister
- SSB
- Fylkeskommunale databaser
- Skoleporten
Ved å krysse ulike offentlige data kan man for eksempel produsere skolebidragsindikatorer. Foreldres inntekt og utdanning, ressurser som flyter til skolen, krysset med elevenes resultater produserer det som kalles en skolebidragsindikator. Skolebidragsindikatoren forteller hvor mye skolen bidrar til sin elevmasse. Bidrar skolen til å jevne ut sosiale forskjeller? Om vi antar at noen skoler bidrar til at elever fra mindre ressursrik bakgrunn også klarer å hevde seg, kan man anta at det finnes skoler som ikke får dette til.
Krysser vi offentlige åpne data for å produsere skolebidragsindikatorer, vil vi kunne vite hvilke skoler som trenger ekstra ressurser for å hjelpe sine elever frem.
Hvorfor åpne data?
[rediger]Hvorfor åpne data?
[rediger]Utviklingen av digital informasjonsteknologi har gjort det som før var ugjennomtrengelige, overveldende tallkolonner til en råvare for viderebruk. Innbyggere, teknologiaktører, medier, politikere og offentlige virksomheter har i dag mulighet til å bruke data på helt nye og innovative måter.
Offentlige data er som hovedregel arkivert og forvaltet av den enkelte etat, uten tydelige overordnede nasjonale føringer. Derfor er det i dag vanskelig å få oversikt over hva slags data som faktisk produseres. Å gjøre disse dataene tilgjengelige vil gi vårt samfunn et konkurransefortrinn i et kunnskaps- og teknologibasert samfunn
Dataene kan settes sammen som byggeklosser for å lage helt nye informasjonstjenester, som igjen kan gjøre vår hverdag mindre sårbar, bedre informert og mer effektiv. Privatpersoner, organisasjoner og nettverk har forskjellige samfunnsbehov sett ut i fra sine særegne perspektiver. Ved å etablere et tydeligere regime for hvilke data som skal deles, og hvordan data skal deles, skaper vi en infrastruktur for ny innsikt og bedre samhandling. Internasjonal erfaring tyder på at en slik infrastruktur legger grunnlaget for nye informasjonstjenester og økt involvering fra innbyggere, organisasjoner og bedrifter.
Et sentralt poeng med åpne data er at data kommer til nytte i nye sammenhenger, og får ny verdi utover den sammenhengen de opprinnelig ble skapt i. Hvilke rådata som viser seg å være av spesiell samfunnsmessig verdi, er vanskelig å vite på forhånd. Innovasjon oppstår når det blir identifisert nye muligheter i eksisterende datasett. Erfaringer fra andre land viser at ny innsikt og spennende tjenester skapes når ulike datasett kobles sammen eller presenteres på nye plattformer og i nye sammenhenger. Ofte kombineres datasett med ulikt opphav i forvaltningen.
I det norske samfunnet har vi lang tradisjon for å dele kunnskap, og bygge samfunnets kollektive kompetanse gjennom skolesystemet og en velutviklet dialog mellom offentlig sektor, næringslivet og sivilsamfunnet. Tilgjengeliggjøring av offentlige rådata er et naturlig neste steg på veien inn i den digitale tidsalder.
Derfor er tilgjengeligjøring av offentlig data viktig
[rediger]Vi har allerede fascinerende eksempler i Norge, og utenlands, på hvordan private initiativ har laget nyttige tjenester som kommer samfunnet til gode ved å tilby sammensatt informasjon. Noen områder ser ut til å være av spesiell samfunnsmessig verdi:
- Transparens. Ved å åpne data gis næringsliv og sivilsamfunn bredere innsikt i offentlige prosesser. Det bidrar også til en mer opplyst og faktabasert samfunnsdebatt, samt at det gjør offentlige strategier mer etterrettelige og etterprøvbare. Dermed styrkes også tillitten til offentlig sektor og det politiske systemet. Rådata gjør det også mulig for media å fremstille komplekse datasett gjennom visuelle applikasjoner, samt at det åpner for at borgere og media kan komme med korreksjoner til datagrunnlaget.
- Effektivisering og innovasjon. Gjennom åpne data deles kunnskap på tvers av sektorer og forvaltningsorganer. Mer og bedre data gir grunnlag for bedre beslutninger. Ved å dele data åpner man også opp for nye blikk på offentlig sektors informasjonsløsninger, og legger tilrette for kreativt samspill med utviklere, media og andre teknologikyndige borgere.
- Næringsutvikling. Åpne data bidrar til at kommersielle aktører kan skape verdiøkende tjenester, og er råvaren et hurtig voksende globalt marked for applikasjoner og verdiøkende tjenester.
- Demokratisering. Ved å åpne data får borgerne tilgang til grunnlaget for beslutninger og prioriteringer i offentlig sektor. Det gir et bedre grunnlag for evaluering av politisk måloppnåelse, og bidrar til en mer bredspektret flora av ytringer og innspill i den politiske prosessen. Ved å etablere en "åpenhetskultur" rydder man også vei for nye måter å inkludere et bredere publikum i de politiske prosessene.
Slik kan offentlige data kommet til nytte
[rediger]Digital informasjonsteknologi (IKT) har dramatisk endret brukspotensialet for offentlige data. Data er drivverket i applikasjoner og nettbaserte tjenester, og det digitale formatet er egnet til å koble sammen ulike datasett til nye analyser og tjenester. Det gjør det blant annet mulig å visualisere komplekse sammenhenger, samt at det inviterer til videre utforskning av nye bruksområder.
EUs viderebruksdirektiv definerer viderebruk som «personer eller juridiske enheters bruk av offentlige myndigheter dokumenter til andre kommersielle eller ikke-kommersielle formål enn den offentlige oppgave som dokumentene ble utarbeidet til». Her kommer innovasjonspotensialet inn: Data kan komme til nytte i nye sammenhenger de opprinnelig ikke var ment for.
Når data deles med flere åpnes det for nye perspektiver på hvordan datene kan anvendes. Nedenfor har vi listet opp noen eksempler på de verdier offentlige data kan bidra til å skape.
- Nyttige borgertjenester. De mest nærliggende eksemplene er hvordan frislipp av værdata og rutetidsdata har skapt grunnlag for helt nye og effektive informasjonsløsninger i både privat og offentlig sektor. Etter at Transport for London (TFL) åpnet sine rutetids- og sanntidsdata, dukket det opp en lang rekke nyttige informasjonstjenester som reduserte terskelen for å bruke kollektive transportmidler. På det danske nettstedet husetsweb.dk kan man enkelt finne ut hvordan energieffektiviserer hjemmet sitt, inkludert plan for finansiering og finne frem til de beste håndverkerne. Tjenesten bruker offentlige data som er sammenstillet med et register for lokal næringsvirksomhet.
- Ny innsikt ved kobling av data. Ofte kan det gjøres nyttig og korrigerende innsats fra media og interesseorganisasjoner ved å kombinere ulike data. Et eksempel er miljøforkjempere i EU som har krysskoblet informasjon om hvilke fiskebåter som både mottar fiskerisubsidier og samtidig er domfelt for ulovlig fiske. Slik skaper de ny innsikt og legger grunnlag for debatt om subsidieregimet og hvorvidt insentivene understøtter målet om en bærekraftig fiskeriforvaltning. http://fishsubsidy.org/
- Interaktiv visualisering av komplekse data. Særlig komplekse data har et stort potensiale i å kommuniseres mer effektiv. Et eksempel på slike komplekse data er offentlige budsjetter og regnskap. I Tyskland ble det tyske statsbudsjettet tilgjengeliggjort av idealister i Open Knowledge Foundation på nettstedet offenerhaushalt.de. Et liknende prosjekt ble gjennomført med bybudsjettet for Bergen kommune på nettstedet datagartneriet.no].
- Ny forretningsutvikling. Viderebruk av offentlige data kan også skape grunnlag for ny næringsutvikling. Et nærliggende eksempel er selskapet StormGeo, som springer ut av TV2, og bygger hele sin virksomhet på viderebruk av meteorologiske data. Gjennom analyse, visualisering og videreforedling har de etablert spesialiserte værvarslingstjeneser for blant annet energisektoren, og er blitt en viktig kunnskapsbasert eksportbedrift.
- Nye løsninger for innsyn i politiske prosesser. Andre interessante tjenester viser hvilke sosiale arrangementer ulike politikere vil delta i, og hvor skattepengene forsvinner. På folketsting.dk kan man følge med på hvordan lovprosesser arter seg og se status på gitte lovforslag og hvilke politikere som er sentrale i prosessen. Drammens Tidende har utviklet Buskerudbenken på nett, som kombinerer redaksjonell omtale av stortingspolitikere fra Buskerud, med fakta og stortingsstatistikk knyttet til den enkelte politiker.
- Effektiviseringsløsninger i offentlig sektor. Selv om distribusjon av data på tvers av offentlige etater ikke er innenfor EUs definisjon av viderebruk, vil man ved å åpne data kunne utløse et innovasjonspotensiale også i den enkelte offentlige virksomhet. Dette kan utløses både ved intern utvikling, og via initiativ som kommer fra eksterne aktører. Et eksempel er Freie Universiteit i Amsterdam, som i et pilotprosjekt har lagd en helt ny informasjonsløsning for brannvesenet i Amsterdam. Løsningen kombinerer veidata, sanntids trafikkmålinger, adressedata med beboerdata og byggesaker knyttet til den enkelte eiendom. Slik kan man, i sanntid, få ut raskeste vei til stedet (basert på trafikksituasjonen akkurat nå), beboere med adresse på stedet, og oppdatert byggteknisk informasjon om bygget som brenner.
USA, Canada, Storbritannia og New Zealand er foregangsnasjonene for satsning på åpne offentlige data. Her ser vi fremveksten av møteplasser med lister over tilgjengelige data hvor disse vurderes og diskuteres. Disse møteplassene er yngleplasser for nytenking og promotering av nye tjenester. Nye løsninger oppstår også som et resultat av aktive initiativ fra dataeier (se flere detaljer i kapittel 4).
Man har også sett ideer vokse frem som løser pragmatiske utfordringer i bybildet eller unødvendig ressursbruk for individer. Vegvesenet har etablert en tjeneste der bilers registreringsnummer er koblet med eiers telefonnummer. Tjenesten kan for eksempel bidra til at man kan avverge feilparkeringer ved hjelp av mobile applikasjoner.
Offentlighetsloven og statlige føringer
[rediger]EU vedtok i 2003 viderebruksdirektivet (direktiv 2003/98/EF), som ble implementert i norsk lov gjennom den nye offentlighetsloven som trådte i kraft 1. januar 2009. Viderebruksdirektivet krever at alle aktører likebehandles, altså at all informasjon gjøres tilgjengelig på like vilkår. Samtidig oppfordrer direktivet til å gjøre mer informasjon tilgjengelig så enkelt som mulig.
Innen temaet viderebruk av offentlig informasjon trekkes ofte offentlighetsloven § 9 frem. Etter § 9 har man innsynsrett i en «samanstilling av opplysningar som er elektronisk lagra i databasene til organet», dersom sammenstillingen «kan gjerast med enkle framgangsmåtar». I en del situasjoner vil et aktivt arbeid med tilgjengeliggjøring av data derfor kunne redusere arbeidsmengden knyttet til behandling av innsynsbegjæringer.
I tillegg til dette er tilgjengeliggjøring av offentlig sektors data vedtatt som en av fem fellesføringer for 2011. Fellesføringen krever at etatene skal tilgjengeliggjøre «egnede rådata i maskinlesbare formater», men presiserer at dette kun gjelder data det er enkelt og billig å tilgjengeliggjøre. Hensikten med føringen er å tilgjengeliggjøre data det er enkelt å tilgjengeliggjøre først, for å komme igang og for å lære mer om hvordan offentlige data bør tilgjengeliggjøres og hvilken verdi det kan ha for samfunnet. Fellesføringen sier imidlertid også at data normalt skal gjøres tilgjengelig i maskinlesbare formater ved etablering av nye eller oppgradering av eksisterende publikumstjenester med utgangspunkt i rådata.
Selve fellesføringsteksten slik den er formulert i rundskriv P 5/2010:
- Etatene skal gjøre egnede og eksisterende rådata tilgjengelige i maskinlesbare formater. Dette gjelder informasjon som har samfunnsmessig verdi, som kan viderebrukes, som ikke er taushetsbelagte og der kostnadene ved tilgjengeliggjøring antas å være beskjedne (bortfall av inntekter ved salg av data anses som en kostnad).
- Formater og bruksvilkår må være i overensstemmelse med Referansekatalogen og FADs føringer på nettstedet data.norge.no. Informasjon om hvilke rådata som er tilgjengelige, skal publiseres på virksomhetens nettside. Dette bør ses i sammenheng med registrering av datasett på nettstedet data.norge.no.
- Etater som vurderer å etablere nye eller å oppgradere eksisterende publikumstjenester med utgangspunkt i rådata, skal normalt gjøre disse rådataene offentlig tilgjengelige i maskinlesbare formater, dersom ingenting er til hinder for slik tilgjengeliggjøring av rådata. Før virksomheten eventuelt selv etablerer nye publikumsløsninger basert på rådata, må det vurderes om det er mer kostnadseffektivt å tilgjengeliggjøre rådata i maskinlesbare formater som grunnlag for at andre kan utvikle tjenester.
- Det skal fremkomme av årsrapporten hvilke data som er gjort tilgjengelige. Dersom publikumstjenester blir etablert uten tilgjengeliggjøring av rådata, skal dette begrunnes i årsrapporten.
Vanlige motforestillinger
[rediger]Vi vet ikke hva dataene våre kommer til å bli brukt til. Helt korrekt, selvsagt, men et argument som veier desto tyngre for å frigjøre dataene er nettopp at dataeier ikke kan forutse hvilken bruk og nytteverdi alle egne datasett kan ha for andre. Det er nettopp der gjennomslagskraften for innovasjon er så stor. Det er ved utvelgelsen av hvilke datasett som er mulige å gjøre tilgjengelige, at dataeier sørger for at nyttige og brukbare faktarelaterte data kan frigjøres.
Pris og kostnader ved tilgjengeliggjøring. Initiering og vedlikehold av data vil selvsagt kreve ressurser. Den optimistiske siden ved dette er at man forhåpentligvis får igjen for investeringen, i form av økt innovasjonsrate, bedre utnyttelse av dataene og i det lange løp en kultur som allminneliggjør innovasjon og øker sjansen for innovasjon i offentlig sektor. Data skal i hovedsak være fritt tilgjengelig. I enkelte tilfeller kan man prissette bruk av data. Les mer om dette i seksjonen om salg av data.
Er dette våre data? Ingen føler eierskap til dataene. Arv av både systemer og datainnhold er vanlig i mange organisasjoner. Gjenbruk av gamle strukturer som er uoversiktlige er utfordrende og få eller ingen har eierskap til disse dataene. Ved å samle små sett av data i lister eller i andre formater kan disse dataene få nytt liv ved at både eierskap gjenopprettes og nye muligheter for bruk kan skapes - i og utenfor egen organisasjon.
Datapubliseringer er utenfor kjerneaktivitetene. Datapublisering er et virkemiddel som kan bidra til å nå spesifikke mål. Fordelen med å gjøre sine egne data tilgjengelige er at organisasjonen åpner for at eksterne lager tjenester som på sikt kan lette arbeidet som ligger innenfor kjerneaktivitetene. Oversikt over tilgjengelige data, kompetanse i organisasjonene og god teknisk infrastruktur er av nytte uavhengig av om man skal dele data.
Vi har ingen kontroll over hvilke datasett som krysses med våre egne. Nei, det har du ikke i utgangspunktet. Det at datasett kombineres eller tilgjengelligjøres i nye sammenhenger vil ofte bidra til ny innsikt og spennende løsninger. Derfor er så åpne lisenser som mulig å anbefale. Ulike lisenstyper kan i noen grad bidra til at du får en oversikt over hvem som laster ned dataene, og regulere adgangen til å videreforedle dem.
Hva er åpne data?
[rediger]3. Hva er åpne data?
[rediger]Data brukes som en betegnelse for biter av informasjon. Disse bitene er fleksible enheter som kan samles, struktureres og deles. Når mange databiter settes sammen får vi et datasett – som gir oss informasjon om større sammenhenger. Det å produsere, analysere og kombinere data er grunnlag for innovasjon både i privat og offentlig sektor.
Offentlig sektor har en strategi for data, som ivaretar og rendyrker det verdiøkende potensialet i systematisert kunnskap. Denne veilederen fokuserer på hvordan økt dataflyt mellom offentlig sektor og offentligheten kan bidra til at data kommer til nytte i nye sammenhenger, og bli en råvare som bidrar til positive prosesser i et samfunnsperspektiv.
Med åpne data menes data som er tilgjengelige for allmenheten. I denne sammenheng betyr dette at de i sin helhet er tilgjengelige for både mennesker og maskiner utenfor etaten.
Hva menes med å åpne data?
[rediger]Offentlige etater utfører sine arbeidsoppgaver med utgangspunkt i opplysninger lagret som informasjonsbiter i interne datasystemer. Når vi snakker om å åpne data er det egentlig bare snakk om noe så enkelt som å dele eksisterende faktaopplysninger med resten av samfunnet. Det innebærer også å tilgjengeliggjøre datagrunnlaget i maskinlesbare formater slik at eksterne aktører kan integrere data i digitale løsninger så sømløst og friksjonsfritt som mulig.
Open Knowledge Foundation sin definisjon: http://www.opendefinition.org/ Opengovdata.org definerer følgende: http://www.opengovdata.org/home/8principles
- Offentlige data: Informasjon som offentlige etater og kommuner besitter i forbindelse med arbeidsoppgaver som utføres på vegne av innbyggerne.
- Åpne offentlige data: Data produsert av etater og kommuner som er gjort tilgjengelig i et slikt format at dataene kan viderebrukes i nye sammenhenger av interne og eksterne aktører, kommersielle som ideelle organisasjoner.
- Maskinlesbare data: Ikke alle formater er maskinlesbare. PDF’er og bildefiler kan for eksempel ikke leses av en maskin og egner seg dårlig til viderebruk, mens dataformater som f.eks. XML og CSV kan deles på tvers av forskjellige IT-systemer. For at maskinlesbarheten skal bli enda bedre kan RDF og JSON benyttes.
Hva slags data skal åpnes?
[rediger]Det vil som regel dreie seg om informasjon som er lagret i en database, enten det er del av en større sentralisert løsning, eller noe så enkelt som et regneark.
Selv om etaten selv har en god forståelse av hva som er nyttig og interessant, er det viktig å ta høyde for at eksterne brukere kan ha andre behov og ideer. Det er derfor viktig å tilgjengeliggjøre så komplette datasett som mulig.
Eksempler på slike datasett kan være alt fra enkle lister og tabeller i saksdokumenter og rapporter, til avanserte databaser med informasjon fra flere av etatens datasystemer.
- Dataunderlag fra spørreundersøkelser
- Ledige stillinger
- Ledighetstall
- Årsregnskap og budsjetter
- Kontakt- og lokaliseringsinformasjon for etatens virksomheter
- Aggregert informasjon om innbyggere
Hva slags data skal ikke åpnes?
[rediger]I arbeidet med å åpne data må det tas hensyn til at det er flere grunner til at noen typer data ikke kan eller bør åpnes for allmennheten. Datasettene må vurderes opp mot opphavsrett, personvern og offentlighetsloven før de gjøres åpent tilgjengelig.
Dersom andre enn etaten selv sitter på hele eller deler av opphavsretten til datasettene må tillatelse innhentes. Ved eventuelle problemer bør muligheten for å åpne deler av datasettet vurderes.
Ønsket om åpne offentlige data kan i noen tilfeller komme i interessekonflikt med innbyggernes behov for et sikret personvern. Det vil i stor grad være opplagt hva som er problematisk og hva som ikke er det, men dette må alltid vurderes før etatens datasett åpnes for allmennheten. I utgangspunktet skal personsensitive opplysninger ikke deles, mens aggregerte opplysninger om f.eks. arbeidsledighet og folkehelse kan deles under forutsetning av at datagrunnlaget er stort nok slik at enkeltpersoner ikke kan identifiseres. I tvilstilfeller må det settes av tid til en mer omfattende evaluering.
Offentlighetsloven skal sikre innbyggernes innsyn i offentlige etaters dokumenter, men har også regler for hva slags data som ikke skal deles av hensyn til taushetsplikt. Disse reglene er primært rettet mot personsensitive opplysninger som ikke skal åpnes av hensyn til personvernet, men datasettene må også vurderes opp mot reglene for å avklare eventuell andre grunnlag for taushetsplikt.
Hvordan går man frem?
[rediger]4. Hvordan komme igang?
[rediger]Målet med denne veilederen er å etablere en godt forankret strategi i egen organisasjon som håndterer både interne utfordringer og ytre press. Denne delen av veilederen beskriver fremgangsmåten for hvordan man åpner opp sine data i maskinlesbare formater. Rådene er basert på både norske og internasjonale erfaringer og dokumenterte råd for beste praksis.
Veilederen er ment for offentlig sektor på statlig, regionalt og lokalt nivå – disse representerer tjenesteproduksjon og kontrollinstanser på svært mange og ulike felt i samfunnet. Det er per dags dato store forskjeller i praksis knyttet til hvordan man fremskaffer, lagrer og gjør data tilgjengelige. Nye åpenhetsrutiner blir i praksis først og fremst en utvikling av eksisterende virksomhet. Hvor store tilpasninger som må gjøres vil variere sterkt.
Det finnes likevel noen overordnede prinsipper som kan være retningsgivende for etater som planlegger å åpne opp sine data:
1. Etabler en prosess, ikke et prosjekt. Å åpne data er ikke noe du gjør én gang. Det handler om å etablere en varig praksis, der målet er å bli stadig flinkere. Det betyr at dataåpenhet må forankres organisatorisk og kulturelt, og at denne (nye) delen av virksomheten må speiles i budsjettprioriteringer både på kort og lang sikt.
2. Gjør det enkelt. Start prosessen så tidlig som mulig, men i liten skala og prioriter det enkle først. Begynn gjerne med ett enkelt datasett. Ofte er det så enkelt som å distribuere grunnlagstallene som en excelfil istedenfor som en pdf eller et annet ikke-maskinlesbart format. Gjør deg erfaringer, og utvid praksisen organisk. Det kan godt hende du lanserer et datasett uten at noe skjer. Det er helt naturlig. Det er ikke slik at utviklere og journalister kaster seg over alt som er maskinlesbart. Du er uansett på riktig vei.
3. Involver brukere av dine data. Trekk inn aktive og potensielle brukere av dine data så tidlig og så ofte du kan. Alt fra ekstraordinært interesserte borgere, til selskaper, media og utviklere kan gi deg nyttige innspill, og bidra til læringskurven. Husk at dine data ikke alltid benyttes av brukere direkte, men ofte gjennom mellomparter som baker data inn i ulike informasjonstjenester. Et eksempel på dette er kartfestede data. De færreste har bruk for et datasett med kartkoordinater, men når først noen har lagt disse dataene inn i et kart, vil flere kunne analysere og nyttiggjøre seg dem på ulike måter.
4. Identifiser frykt og motforestillinger. Særlig i større organisasjoner kan dataåpenhet skape motforestillinger. Det kan dreie seg om alt fra feiloppfatninger knyttet til «eierskap» av data som etter offentlighetsloven skal være tilgjengelig, til relevante innsigelser knyttet til sensitivitet og personvern. Det er viktig at slike motforestillinger blir tatt på alvor og diskutert i din organisasjon. Denne veilederen kan forhåpentlig bidra til å rydde av veien ubegrunnede «eierskapsholdninger» til data som er finansiert av det offentlige.
Kartlegging
[rediger]En prosess rundt dataåpenhet bør etableres på et godt grunnlag. Kartleggingsjobben har en egenverdi ved at en organisasjon kan få en bedre oversikt over hvilke datasett man sitter på, og hvilke prosedyrer som er knyttet til publisering og innsyn.
Kartlegging av rutiner, roller og beslutningsprosesser
[rediger]Å starte en prosess for å åpne data innebærer å skaffe seg oversikt over eksisterende rutiner, mandater, beslutningsprosesser og nøkkelpersoner i egen organisasjon. Alle involverte aktører bør delta i prosessen. Ofte er det slik at spørsmål om tilgang til rådata ligger et sted mellom strategisk ledelse, informasjonsavdelingen og IT-avdelingen. Det er en problemstilling som både er av teknisk karakter (filformater etc.) og av prinsipiell juridisk karakter (innsynsrett, opphavsrett, personvern, etc.) og strategisk karakter (åpenhetspraksis, kjernevirksomhet, måloppnåelse, etc.). Prosessene for å håndtere åpne data bør også ofte avklares og synliggjøres. Det har stor verdi å avklare rollene rundt 1) rutiner ved innsynsbegjæringer, 2) beslutning om videredistribusjon/åpning og 3) tilrettelegging for publisering, 4) mottaksapparat for innspill og feilmeldinger. Det er også viktig å avklare oppfølgingsansvar.
Kartlegging av teknisk infrastruktur
[rediger]Foruten politisk vilje og administrativ kapasitet trenger man en teknisk infrastruktur som støtter eksport og distribusjon av rådata. Dette har vist seg å være en flaskehals. Noen ganger er datasett i praksis publisert på nettet via et publiseringssystem, men ikke tilgjengeliggjort i maskinlesbare formater. Da blir det vanskelig å viderebruke datasettet, selv om det er lett å finne enkeltopplysninger gjennom publiseringssystemet.
Kartlegging av egne data
[rediger]Hvilke data forvalter din offentlige virksomhet som bør kunne tilgjengeliggjøres for viderebruk? Dette spørsmålet er det ikke alltid så lett å få svar på og er avhengig av rutinene knyttet til lagring og katalogisering av data. Ofte forvaltes data som ikke hele organisasjonen er klar over, men som likevel kan være nyttig for andre. En kartlegging bør se på hele virksomheten. Hvilke data bruker din etat som grunnlag for beslutninger? Hvilke data fremskaffes av din etat? Har dere opparbeidet referansedata som kan deles? Hvordan lagres data? I hvilke formater? Hvordan konverteres disse formater før publisering, og hvordan begrunnes praksisen? Disse spørsmålene bør betraktes i lys av nasjonale føringer, en stadig mer digitalisert informasjonsutveksling og andres erfaringer med en åpne og maskinlesbare formater.
I en kartleggingsfase, og under arbeidet med å analysere datasettene, er det viktig å belyse enkelte spesifikke områder som sterkt kan påvirke hvordan prosesssene som organisasjonen må støtte. Disse beskriver vi under:
Noen eksempler på data |
---|
I offentlig sektor vil det ofte variere sterkt hvilke data som potensielt bør publiseres. Her er noen eksempler på data som ofte publiseres ikke-maskinlesbart, men som med hell kan publiseres som rådata:
|
«Farlige data»
Å tilgjengeliggjøre data kan skape motstand internt, også i tilfeller der det er utvilsomt at informasjonen er omfattet av offentlighetsloven og innsyn uansett må gis. Det er mange årsaker til denne motstanden.
- Kvaliteten på dataene er dårlig. Man kan bli «avslørt» og kritisert for å ikke å ha god nok oversikt eller kontroll.
- Dataene kan avsløre at man ikke har oppnådd tilfredsstillende politiske eller administrative målsetninger, eller avsløre strukturelle utviklingstrekk som stiller dataeier i et dårlig lys.
En omdømmebyggende og potensiell “åpenhetsstrategi” kan få et kraftig tilbakeslag ved et forsøk på selektiv tilbakeholdelse. Ingen av disse motforestillingene gir juridisk grunnlag for tilbakeholdelse av data. Når det gjelder frykten for datakvalitet, vil denne kritikken kunne imøtegås ved at man ber om innspill fra brukere om hvordan datasett kan bli bedre.
Tips: Bli inspirert og se etter gode eksempler |
---|
Dataåpenhet er et relativt nytt fenomen, og det kan være både nyttige tips og inspirasjon å finne ved å besøke andre virksomheters nettsteder. Internasjonalt er det særlig USA, Canada og Storbritannia som har vist vei. Disse eksemplene gir både et innsyn i hvilke datasett man bør publisere, hvordan en ny åpenhetspraksis kan markedsføres, og hvordan dataåpenhet kan skape nye og innovative løsninger i samspill med enkeltpersoner, medier og teknologiselskaper. |
Juridisk åpenhet
[rediger]Å «åpne» data vil i praksis si noe om mulighetene og rettighetene knyttet til viderebruk, og må således ikke forveksles med innsynsretten – som er regulert av offentlighetsloven. Det ligger en klar anbefaling i å gjøre lisensene så åpne som mulig. Dersom det ikke er særskilte grunner for det, bør man unngå en situasjon der viderebruk krever en tillatelse fra dataeier, eller der spørsmålet om slike rettigheter fremstår som uklare. Da oppstår det merarbeid på dataeiers side i forhold til å håndtere viderebruksrettigheter, og terskelen for viderebruk heves. Intensjonen bak åpne data er det motsatte: Å oppfordre omverdenen til å ta i bruk data. Tydelige, åpne gjenbrukslisenser er derfor å anbefale. Det finnes selvsagt unntak, avveininger og grensetilfeller.
Klassifiserte, lisensierte og personsensitive opplysninger
[rediger]Et vanlig scenario er at offentlige aktører kan også sitte på data fra tredjepart, der det er begrensninger knyttet til videredistribusjon. Det kan også finnes datasett som inneholder informasjon om tredjepart (eksempelvis kontraktspartnere) som ikke er ment for offentlig publisering. Noen ganger kan deler av datasettet være sensitivt eller bryte med personvernet, mens deler av dataene (for eksempel aggregerte verdier) kan være av interesse for allmennheten. Her må man vurdere å tilrette datasett spesielt for viderebruk.
Opphavsrett
[rediger]Opphavsretten beskytter de fleste typer kreativt arbeid som kan videreformidles, som de fleste typer kunstnerisk virksomhet, skrevne tekster, illustrasjoner, lydopptak, videomateriale, etc. Opphavsretten gir skaper visse rettigheter til slike arbeid, og begrenser tilgangen til å reprodusere, distribuere, fremføre eller forandre på det rettighetsbelagte verket. Såfremt rettighetshaver (skaperene) ikke gir andre retter utover loven (lisens) er, er det altså sterkt begrenset hvilke typer informasjon som kan videreformidles. Opphavsretten beskytter ikke faktisk informasjon eller ideer, men den formen de kommer til uttrykk i. Databaser er ikke åndsverk, men kan være beskyttet av katalogvernet, som er en av de «nærstående rettighetene». Av den grunn er det viktig at offentlige aktører spesifiserer viderebruksrettigheter ved opparbeidelser av data, særlig når slike data fremskaffes og forvaltes av tredjepart. Myndighetene i New Zealand er blant dem som de siste årene har innført Creative Commons-lisenser for bruk i databaser.
Salg av data
[rediger]Flere typer data i Norge er kun tilgjengelig mot en økonomisk kompensasjon. Rapporten fra bruk til gjenbruk (2004) fant ulike begrunnelser og praksiser knyttet til prising av data. I offentlige foretak finnes det eksempler både på delvis subsidiering (at brukerne betaler en del av kostnaden), kostnadsdekning (at virksomheten får dekket de konkrete omkostningene forbundet med å avgi informasjon) og markedsprising (at prisen avhenger av betalingsviljen i markedet). Prismodellen henger ofte sammen med eksterne styringssignaler – som egenfinansieringskrav, men kan også være resultat av interne vurderinger.
I rapporten «Markedspotensial ved økt tilgjengeliggjøring av offentlig data» drøfter Oslo Economics ulike prisregimer, der de poengterer at et kjennetegn ved offentlige data er at gjennomsnittskostnaden per bruker er fallende. Dersom man antar at marginalkostnaden ved tilgjengeliggjøring av offentlige data er tilnærmet lik null, vil prising utover marginalkostnaden normalt gi et samfunnsøkonomisk tap (velferdstap) [Rapporten er foreløpig ikke utgitt]. I «The reuse of public sector information: an economic optimal pricing model» fra Universitetet i Strasbourg argumenterer Pénin, Hussler, Millot, et al. for at man bør skille mellom rådata og data som er tilpasset viderebruk, og at rådata bør være gratis mens data som er tilpasset viderebruk godt kan selges.
Retten til å ta betalt for data man har innsynsrett i etter offentlighetsloven er regulert i offentlighetsloven § 8. Grunnprinsippet er at man bare kan ta betaling dersom man har hjemmel i offentlighetsloven, og at betalingssatsene skal være slik at de samlede inntektene ikke blir større enn de faktiske kostnadene ved kopiering og utsending av dokumenter. Unntaket fra dette kostprinsippet er geodata (kart mv.) og eiendomsinformasjon, der organ som har utarbeiding og utlevering av geodata eller eiendomsinformasjon som en hovedoppgave i sin virksomhet kan beregne en rimelig fortjeneste.
For å sikre så stor grad av viderebruk som mulig er det i de fleste tilfeller ønskelig og hensiktsmessig ikke å ta betalt for tilgang til offentlige data.
Lisenser og kontrakter
[rediger]Kommuner og etater som eier data kan selv velge å tilgjengeliggjøre informasjonen med åpne lisenser, altså gi allmennheten tilbake bruks- og distribusjonsretter som opphavsrettslovgivningen tar fra dem. Fordi det er arbeidskrevende å gjøre dette igjen for hver gang noen ønsker data, både for brukere og eiere av data, anbefales det at viderebruksrettigheter spesifiseres i form av en eksisterende generell lisens. Lisenser er dokumenter som beskriver hva som kan gjøres og ikke gjøres med materialet. De kan eksempelvis spesifisere særskilte krav knyttet til distribusjon, navngivelse og sammenstilling og nye verker.
At materialet er kopibeskyttet betyr ikke at bruken av materialet må overvåkes eller lisensieres på strenge vilkår. Dersom det ikke er særskilte grunner til det motsatte bør rettighetshaver gjøre materialet fritt tilgjengelig ved å bruke en standardlisens fra Open Data Commons eller Creative Commons (se eget avsnitt).
Dersom data fra offentlig sektor er av forretningskritisk karakter for brukeren, trenger man kontraktsfeste viderebruksrettighetene for å sikre kontinuitet i datastrømmene og et nødvendig service-apparat. I en del tilfeller tilgjengeliggjør offentlig sektor store, komplekse datasett gjennom betalte løsninger. Slike ordninger henger ofte sammen med et inntjeningskrav. I slike tilfeller bør man vurdere om det finnes deler av datasettene som er av så stor samfunnsmessig betydning at de skal tilgjengeliggjøres med en lisens for fri viderebruk.
Faktaboks:
Lisenser for viderebruk (åpne/frie lisenser)
Det finnes en særskilt utviklet Åpen Database-lisens i regi av Open Data Commons. Den sier i praksis at man fritt kan dele, endre og distribuere dataene, så lenge man oppgir dataeier, viderelisensierer resultatet under samme vilkår og sørger for at dataene holdes åpne også i viderebruks-sammenheng.
Creative Commons har etablert noen standardlisenser som handler om fri viderebruk, som et alternativ til tradisjonell opphavsrett. De ulike lisensene regulerer navngivelse av opphavsmann, videredistribusjon, videreforedling og kommersiell bruk. De norske CC-lisensene er tilpasset norsk lovverk.
- Navngivelse (by)
- Navngivelse-Del på samme vilkår (by-sa)
- Navngivelse-Ingen bearbeidelse (by-nd)
- Navngivelse-Ikkekommersiell (by-nc)
- Navngivelse-Ikkekommersiell-Del på samme vilkår (by-nc-sa)
- Navngivelse-Ikkekommersiell-Ingen bearbeidelse (by-nc-nd)
[Ny, norsk lisens for offentlige data]
Teknisk åpenhet
[rediger]Selv om man har brukt lisenser som sikrer viderebruk er det ikke gitt at potensialet i datasettene utnyttes. Hvilke tekniske formater man benytter seg av har mye å si for hvordan dataene kan anvendes. Når det gjelder teknisk tilrettelegging går veilederen i teknisk detalj i den tekniske delen, her vil vi bare skissere de overordnede prinsippene for teknisk åpenhet. Vi henviser også til referansekatalogen for IT-standarder i offentlig sektor.
- Data skal være nedlastbare. Datasett skal som hovedregel kunne lastes ned. Mange datasett er i dag kun tilgjengeliggjort ved at de er presentert som nettsider (for eksempel et politikerregister med oversikt over partirepresentasjon og offentlige tillitsverv). Nedlastning er viktig av flere grunner:
- Man slipper å gjøre tredjepartsapplikasjoner avhengige av eksterne servere eller endringer i dataeiers tekniske infrastruktur.
- Nedlastbare data vil også bli spredt i flere kanaler, som er positivt om målet er mest mulig viderebruk.
- Nedlastbare data gjør det mulig å konvertere data til egnede tekniske formater, å koble sammen ulike datasett og integrere mot andre ressurser etc.
- Også datasett som i utgangspunktet er komplekse, skal tilgjengeliggjøres i sitt opprinnelige format såfremt det ikke er særskilte grunner til noe annet. [Mer om kompleksitet og hvilken kompetanse som faktisk finnes i samfunnet]
- Komplekse og hyppig oppdaterte data bør distribueres via et API Om dataene kan være vanskelig å forstå eller oppdateres hyppig (eller i sanntid), anbefaler vi at det etableres en nettbasert tjeneste som gir tilgang til data som ligger lagret på eksterne servere. Dette kalles et API (Application Programming Interface) og er et grensesnitt alle utviklere er vant til å forholde seg til. APIer kan utvikles på ulike måter. I den tekniske delen av veilederen vil vi gå nærmere inn på anbefalte løsninger. At noe er tilgjengelig via et API betyr ikke nødvendigvis at ikke rådataene ikke også skal tilgjengeliggjøres for nedlasting. Ofte kan bruksbehovene variere. Internasjonale erfaringer tilsier at det er fruktbart å etablere en dialog med potensielle brukere av dine data, og be om innspill til den best egnede måten å tilgjengeliggjøre data på. Svært tunge filer kan tilgjengeliggjøres via et lagringsmedium som DVD eller minnebrikker [Fildeling/bittorrent/rsync]. Oppdateringer kan gjøres tilgengelig som endringsfiler [patch/diff] og via rsync. For offentlige foretak som har store datasett, vil en database med tilhørende API, kunne være være en effektivt rammeverk for arkivering, strukturering og tilgjengeliggjøring av data.
- Data skal publiseres i maskinlesbare formater. Maskinlesbarhet handler om i hvilken grad informasjon kan leses på en automatisert måte av en datamaskin. Et nærliggende eksempel er økonomiske tall – som enten kan publiseres som en tabell eller som en bildefil i en PDF, eller kan tilgjengeliggjøres som en excel-fil (XLS) eller som kommaseparerte verdier (CSV). De to sistnevnte filtypene gjør det enkelt å plassere tallene i en graf, analysere dem, koble dem med andre data eller å konvertere dem til nye formater. PDF-filen er ment for å leses av mennesker, og det vil kreve mye arbeid å overføre tallverdier etc til et format som gjør det mulig å integrere dem i en data-applikasjon. På den annen side finnes det også filtyper som er lett å integrere i en data-applikasjon, men som ikke er lett å forstå for mennesker. Det er derfor lurt å tilgjengeliggjøre data i ulike formater, slik at dataene kan brukes av flest mulig, i flest mulig sammenhenger.
- Data bør publiseres i et åpent filformat Spørsmålet om «åpne» filformater er uavhengig av spørsmålet om maskinlesbarhet. Enkelte filtyper, for eksempel Photoshop- eller Access-filer, er laget for kun å leses av et spesifikt program (for eksempel Adobe Photoshop og Microsoft Access eller Word). Andre filtyper er utviklet som åpne filstandarder, og kan leses og vises uavhengig av programvare (for eksempel XML, OpenDocument, HTML, PDF). Generelt bør man tilgjengeliggjøre data i et åpent filformat som kan leses av flest mulig vanlige programmer.
Langsiktig kvalitetsheving
[rediger]Åpne data i seg selv har ingen verdi. De blir først verdifulle når de blir tatt i bruk. Det kan ta tid før media, innbyggere, bedrifter og akademia tar i bruk de dataene du tilgjengeligjør. Som nevnt bør arbeidet med åpne data etableres som en langsiktig prosess, ikke som et kortsiktig prosjekt. Foruten å identifisere og publisere data, bør organisasjonen sette av ressurser og bygge kompetanse internt. Man bør gi datahåndtering en tydelig adresse i organisasjonen, på en måte som ivaretar både de adminstrative, juridiske og tekniske aspektene ved publisering av data.
Sikt mot stjernene | |
---|---|
W3C lanserte i 2010 et system med «fem stjerner» - som viser prosessen rundt stadig bedre dataåpenhet – og illustrerer hvordan man gjøre kvaliteten stadig bedre i en kontinuerlig prosess. | |
★ | Gjør dine data tilgjengelig i ikke-maskinlesbare formater (eks. pdf) |
★★ | Gjør data tilgjengelig i tabellformat (eksempelvis excel framfor pdf) |
★★★ | Gjør data tilgjengelig i åpne formater (eksempelvis csv framfor Excel) |
★★★★ | Bruk URI-er for å idenfisere referansedata (linked open data) |
★★★★★ | Link dine data mot andre datakilder for å sette dine data i sammenheng |
Les mer om W3C sitt arbeid omkring dette |
Tilgjengeliggjør flere og bedre datasett
[rediger]Man bør begynne med de enkle datasettene. Etterhvert som man kartlegger hvilke data man sitter på, samt får erfaring og innspill, bør man utvide med flere data. Dette kan gjøres enten ved at man finner flere datasett å tilgjengeliggjøre, eller ved at man gjør allerede eksisterende datasett rikere med flere detaljer, og høyere presisjon – eller i åpnere og mer anvendelige formater.
Gjør dataene mer strukturert
[rediger]Etterhvert som flere datasett publiseres, vil det oppstå muligheter for å kombinere ulike data. Om en tredjepart vil koble sammen ulike datakilder som beskriver forhold i en kommune, en organisasjon eller et tjenesteområde, må man være sikker på at dataene beskriver det samme. Derfor bør man søke å standardisere bruke av slike forekomster vil bidra til å forenkle kombinasjoner av data. Husk at dataene dine ideelt sett skal kunne sammenstilles med andre datasett. Derfor bør man i størst mulig grad benytte etablerte standarder, og inkludere offisielle IDer (eksempelvis kommunenummer, næringskoder, tjenestekoder etc) i datasettene. Man bør også prøve å standardisere måten verdier angis i datasett, for eksempel at datoinformasjon og økonomiske størrelser presenteres likt i ulike datasett. Unngå standardisering som bidrar til at informasjonsverdi går tapt, for eksempel ved at man ikke kan regne seg tilbake til dataenes opprinnelige verdi). Avrundinger (for eksempel til hele 1000) bør unngås, fordi man da ikke lengre leverer rene rådata, men lett bearbeidede data der detaljrikdommen i datasettet er redusert. Jo ”rikere” datasett, jo større variasjon, og dermed mer anvendbare datasett til (statistiske) analyser. Om du selv opererer med avrundinger av presentasjonshensyn kan du publisere både den avrundede tallstørrelsen og opprinnelig verdi.
Linked Open Data
[rediger]Linked Open Data er en raskt voksende og internasjonal «idealstandard» for strukturering av data – og innebærer blant at data med ulikt opphav kan kombineres sømløst. Teknologien er anbefalt av World Wide Web Consortium (W3C), og alt tyder på en langsiktig utvikling i retning denne standarden. Linked Open Data innebærer at standardiserte emneord og forekomster, eller referansedata, er tilgjengelig som åpne, delte ressurser i nettskyen. Vi vil i årene som kommer trolig se en en sterk økning i bruken av offisielle referansedata. Linked Open Data kan du lese mer om i den tekniske vedlegget av veilederen som kan lastes ned fra data.norge.no.
Visualisering av data
[rediger]Maskinlesbare rådata er svært viktig, men oppi dette må man ikke glemme menneskelesbarheten. Det å gi «vanlige» innbyggere uten teknisk innsikt anledning til å utforske datasett vil øke viderebruk av data. Det digitale formatet er velegnet for å presentere data i interaktive visuelle grensesnitt, som grafer, kartløsninger, budsjettvisualiseringer etc. Ofte kan slike løsninger ligge som et lag mellom brukeren og datasettet, slik at brukeren kan utforske dataene og laste ned deler av datasettet eller hele datafilen. Slike løsninger har vist seg å vekke interessen rundt åpne data, og gjør det også mulig for ikke-tekniske brukere å forstå datamaterialet. Eksempler på visualiseringer kan du finne på data.norge.no.
Å stimulere til viderebruk
[rediger]5. Å stimulere til viderebruk
[rediger]I denne veilederen beskriver vi en prosess, en stegvis tilnærming til mer dataåpenhet. Men data får først verdi når de tas i bruk. Hva gjør du når du har lansert dine første datasett og vil inspirere potensielle brukere til å begynne å bruke dem?
Gjør det lett å finne dine data
[rediger]Hvis offentligheten skal få fullt utbytte av åpen, offentlig informasjon er det viktig å få vite hva slags informasjon som finnes, og hvordan man får tilgang til den. Dette er en utfordring, enten man produserer trykksaker, nettsider eller rådata. Å gjøre et datasett tilgjengelig på egne nettsider er ikke tilstrekkelig. En strategi knyttet til dataåpenhet må dermed også ha et element av aktiv promotering av tilgjengelige datasett, dels gjennom å dele datasett via spesielle nett-tjenester (datakataloger), dels ved å bygge et område for åpne data på egne nettsider, og dels gjennom tekniske tiltak for å gjøre datasett søkbare via regulære søkemotorer. Den ambisiøse dataeier kan også gjøre dataene tilgjengelig som «linked data» (se teknisk beskrivelse for mer informasjon).
Offisielle datakataloger
[rediger]I forbindelse med arbeidet for viderebruk av offentlige data har Fornyingsdepartementet etablert tjenesten data.norge.no, som er en katalog hvor man publiserer 1) lenken til datasettet, 2) en beskrivelse av datasettet og 3) «tagger» som beskriver hva datasettet inneholder. Målet med tjenesten er å skape en felles ressurs for det offisielle Norge, som kan fungere som en en møteplass mellom databrukere og -eiere. På nettstedet vil potensielle brukere få informasjon om innholdet i ulike datasett, hvilke viderebruksrettigheter som er tilknyttet det enkelte datasett og hvilke tekniske formater dataene finnes i. Ved at data legges ut i en delt nasjonalt ressurs, åpner det også for at man i større grad kan standardisere den informasjonen som beskriver det enkelte datasett. Det bør tilordnes emneord som både sier noe om politikkområdet (helse, barnehager, skole, innvandring etc) og som sier noe om datasettets innhold (kommune, inntekt etc) [Knytte sammen med emneordstrategi på data.norge.no]
Datakatalogens opprinnelse |
---|
Den aller første digitale datakatalogen ble lansert i oktober 2008 av lokale myndigheter i Washington DC. Denne datakatalogen ble en stor suksess, og konseptet har siden den gang spredt seg til en lang rekke land, regioner og kommuner. Det er i dag over 30 offentlige datakataloger i verden, og antallet øker raskt. Vivek Kundra, president Barack Obamas informasjonssjef, forklarte hvorfor dette ble en del av amerikansk informasjonspolicy:
Det er i dag ikke bare stater som har etablert datakataloger, men også internasjonale institusjoner som FN og Verdensbanken. Offentlige virksomheter som tilgjengeliggjør mange datasett kan også opprette egne datakataloger i tillegg til data.norge.no. Internasjonalt er det mange eksempler på regionale og lokale forvaltningsnivåer som etablerer egne datakataloger, og gjør dataåpenhet til en del av en strategi for omdømme og borgerinvolvering. [Lenker til alle datakatalogene som nevnes i teksten?] |
Andre datakataloger
[rediger]Det finnes også, både nasjonalt og internasjonalt, datakataloger som er etablert og utviklet av enkeltindivider eller organisasjoner. Disse katalogene kan inneholde både offentlig informasjon og privat informasjon. Ofte er disse organisert på en slik måte at hvem som helst kan registrere datasett. Å tilgjengeliggjøre datasett i slike kataloger vil øke sannsynligheten for viderebruk.
Åpne data lenker på egne nettsider
[rediger]Mange offentlige virksomheter internasjonalt har etablert seksjoner på egne nettsider der dataåpenhet profileres og knyttes mot virksomhetens samfunnsoppdrag. Slike nettportaler er en gode måte å komme i dialog med potensielle brukere av data på, fortelle om langsiktige visjoner og be om innspill til hvilke datasett som skal frigjøres for viderebruk. Her kan man også profilere gode eksempler på viderebruk av egne data. Slike seksjoner trenger ikke å være en egen datakatalog, men kan lenke videre til en ekstern kilde - eksempelvis data.norge.no. Sørg for at det innholdet du legger ut knyttet til åpne data, er mulig å dele via sosiale nettverk. Gjennom kanaler som Facebook, Twitter og Linkedin deles ofte informasjon mellom potensielle viderebrukere av informasjon.
Søkbarhet og aktiv lenking
[rediger]Foruten å bruke datakataloger og profilering av «åpne data» i egne kommunikasjonskanaler, kan man også «synliggjøre» åpne data via søkemotorer. Søkbarhet innebærer at man publiserer lenker til aktuelle data sammen med annen informasjon (for eksempel en artikkel om at et datasett er tilgjengeliggjort) som gjør innholdet mulig å indeksere for søkemotorer som Google eller Yahoo. Et tips kan være å innarbeide en rutine om at man legger inn en lenke til “aktuelle datasett” hver gang man produserer nyheter, pressemeldinger eller informasjonsmateriell.
Skap entusiasme og ta eierskap til resultatene
[rediger]Eiere av data bør bidra til å motivere andre til å bruke, utforske og viderebruke data. Det krever at noen i organisasjonen aktivt profilerer dataene i ulike sammenhenger, inviterer til viderebruk (se tips i kapittelet 5). Dersom noen bruker dataene i en applikasjon, i en artikkel eller i andre sammenhenger – skriv om det, og gjør andres viderebruk til din suksess!
En god nettbasert løsning vil ofte vekke oppmerksomhet. Om du selv har uløste kommunikasjonsutfordringer kan du selv utvikle en visuell løsning. Ved å fortelle omverden at denne løsningen er bygget på åpne data, kan du stimulere til at andre videreutvikler konseptet eller bruker de samme dataene til nye formål.
Inspirasjon
[rediger]Se gjerne noen eksempler på hva andre aktører internasjonalt har gjort for å tilgjengeliggjøre åpne data:
- London Datastore: http://data.london.gov.uk/
- Verdensbanken: http://data.worldbank.org/
- Vancouver: http://data.vancouver.ca/
- Department of Health and Human Services, USA: http://www.hhs.gov/open
Delta i samtalen om åpne data
[rediger]http://data.norge.no er adressen FAD har valgt å bruke til et norsk datakilde-nettsted. Dette er ikke bare en datakatalog, men også en møteplass der alle som er opptatt av offentlige data – enten de jobber i offentlige etater og forvalter data eller de er databrukere som prøver å sette sammen nye, innovative nettjenester – kan følge bloggen og delta i debatten!
[Bruke hashtaggen #offdata på Twitter. Andre arenaer?]
Fortell verden om hva som er skjedd
[rediger]Lansering av datasett er en nyhet, som bør kommuniseres. Større datasett fortjener regulære og brede presselanseringer, mindre datasett kan kommuniseres til smalere brukergrupper - eksempelvis ved å etablere et nyhetsbrev for aktører som er særskilt interessert i åpne data. Det kan være en fordel å kartlegge både organisasjoner, selskap, nettverk og enkeltpersoner aktivt for å etablere en kritisk brukermasse i tidlig fase.
Plassér folk i samme rom - skap ideer sammen
[rediger]Ansikt-til-ansikt arrangementer virker alltid som forløsende på ideer, perspektiver og ikke minst ønsket om å skape noe sammen. Her er noen grunner til å ville samle folk i samme rom:
- Kartlegg hvem som er potensielle viderebrukere av dine data, hva etterspørselen er etter flere datasett og finn ut om hvordan folk ser for seg å gjenbruke dine data.
- Finn ut mer om hvordan presenterte data fungerer i forhold til formater, oppdateringer, grensesnitt og liknende.
- Å fortelle potensielle viderebrukere om flere av datasettene og planer for ytterligere tilgjengeliggjøring
- Tilrettelegge for at ulike utviklere møter hverandre
Skap en viral effekt hvor selve møtet og målet for møtet kan spres gjennom sosiale kanaler, i relevante nettverk. Bruk twitter, linkedin, blogger og andre medier som kommunikasjonsplattform, samhandlingsrom under sesjonen og innspillskanal.
Det er uttalige ulike måter å legge opp et arrangement for dette formålet: Sørg for å ha en agenda som ethvert godt møte oppmuntrer til. I tillegg krever temaet åpne data en skikkelig presentasjon som introduserer alle som er tilstede i rommet til en lik forståelse av omfang og innhold. På denne måten har alle et likere grunnlag å gjennomføre diskusjonen og arbeidsmøtet.
- Gi alle 7 minutter til å presentere et prosjekt de er i ferd med å utvikle
- Design arrangementet opp til lokale preferanser og interesser
Det er ulike måter å holde et slikt arrangement og det er ulike typer arrangementer man kan satse på: Dersom man søker webben på disse søkeordene unconference, barcamp, meetup, speedgeek, lightning talk vil man finne mange inspirerende former å samle folk på med tanke på å motivere og å gi rom for mer eller mindre ukjente aktørers ideer og prosjekter. Det kan være nyttig å ta kontakt med arrangører av slike arrangementer i andre regioner eller land for hjelp eller gode tips. Det vil også være en fordel å koble seg opp mot verdifulle samarbeidspartnere som læringsinstitusjoner, presse og organisasjoner for å øke bredden i deltakerne og å øke eksponeringen uttad. Under har vi listet opp noen morsomme eksempler:
Gi folk en utfordring
[rediger]Det er mange gode eksempler på at det å gi potensielle brukere en konkret utfordring ofte kan virke forløsende på kreativiteten. Slike arrangement har fått navn som hack days eller hackatons. Et godt norsk begrep er dataverksted. Formatet er enkelt men utradisjonelt: Du lanserer ett eller flere datasett, og inviterer utviklere om å komme opp med gode konsepter. Server gjerne pizza eller noe annet lettspist og godt. Etabler gjerne en premie til det beste resultatet. Slike konkurranser har blitt avholdt i flere land, også Norge, med godt hell.
Ofte stilte spørsmål (OSS, FAQ)
[rediger][Hvilke spørsmål pleier folk å stille?]
[Folk spør ofte om hvilke spørsmål folk pleier å stille. (Næh? Gjør de det?)]
Teknik åpenhet
[rediger]6. Teknisk veileder
[rediger]Generell teknisk introduksjon til åpne data
[rediger]Målet med åpne data er å gjøre data maskinlesbare og tilgjengeliggjort for dem som måtte ønske å benytte dem.
Ut over tilgjengelighet og maskinlesbarhet, er format i første omgang underordnet. Det må gjøres en jobb med å finne og samle data som idag eksistererer i proprietære systemer, silosystemer og med så tette koblinger til andre datasett at de er utilgjengelige for gjenbruk slik de står oppført idag.
Data kan lagres på mange måter, og det finnes mange forskjellige standardiserte formater som kan brukes ved deling av data. Den viktigste skillelinjen går mellom åpne standardiserte formater og proprietære formater utviklet og kontrollert av enkeltaktører.
Allikevel handler ikke åpne data om å omformattere alt som finnes til «det rette» formatet. Det finnes mange formater som kan realisere det samme første målet, nemlig å gjøre data tilgjengelige i et digitalt format som er maskinlesbart og som helst ikke krever flere konverteringer senere. Det handler om å benytte gjenkjennelige godt støttede formater som ivaretar objektets opprinnelige verdi og mening.
Data kan struktureres på forskjellige måter, med forskjellige teknikker og med forskjellig detaljnivå. Det viktigste er å skille rådata fra presentasjonsinformasjon fordi det er rådata som gir verdiskapning i denne sammenhengen.
Slik går du frem – teknisk dokumentasjon
[rediger]Denne tekniske delen av veilederen er ment som en introduksjon til arbeidet som må gjøres for å åpne data. Målgruppen er IT-driftspersonale på IT-avdelingen. Det forutsettes en viss teknisk forståelse.
Når beslutningen om å tilgjengeliggjøre åpne data er tatt, er det viktig at IT-avdelingen som gjør den tekniske delen av jobben har samme forståelse som resten av organisasjonen om av hva slags data som skal åpnes for allmennheten.
Målet er å tilgjengeliggjøre relevante åpne data i maskinlesbare formater slik at de kan brukes av andre. Det innebærer å:
- Kartlegge og velge ut dine data
- Kvalitetssikre data
- Klargjøre data
- Tilgjengeliggjøre data
- Tilrettelegge for å kunne håndtere tilbakemeldinger/feilmeldinger
1. Kartlegg og velg ut dine data
[rediger]Ledelse, administrasjon og øvrige ansatte har normalt en god overordnet forståelse av hva slags data organisasjonen sitter på, samt hva som er relevant å åpne opp av data.
IT-avdelingen må først sjekke ut at dataene som ønskes åpnet faktisk eksisterer og er tilgjengelige. Dersom initiativet kommer fra IT-avdelingen selv, må det avklares med ledelsen slik at alle parter er informert.
Fagpersonalet må også identifisere hvilke deler av dataene informasjonen som er relevante på et mer detaljert nivå. Det innebærer en intern kartlegging av hvilke IT-systemer som inneholder hvilke data, samt hvordan de er lagret og hvordan dataene kan hentes ut.
Det er viktig å huske på at det som kan ansees som irrelevant for andre enn for din organisasjon, kanskje er akkurat de datasettene noen andre ønsker seg. Vurder derfor ikke kun etter hva dere selv synes er spennende drømmedata å dele.
I de fleste tilfeller vil dataene ligge lagret i en eller flere sentraliserte serverbaserte databaser, men dataene kan også ligge lagret i dokumentbaserte arkiv på f.eks. filservere.
Eksempler på informasjon om IT-systemer som bør kartlegges for aktuelle datasett:
- IT-system som bruker dataene (produktnavn, leverandørnavn, bruksområde)
- Tett integrasjon med sensitive data (hvor enkelt er det å skille disse datasettene?)
- Lagringssystem (relasjonsdatabase, regneark, dokumentarkiv etc.)
- Hvordan datalagringen er strukturert (f.eks. i hvor stor grad relasjonsdatabaser er normalisert, hvorvidt tabeller i dokumenter er tilgjengelig i separate regneark, etc.)
- Oppdateringsfrekvens (kontinuerlig eller intervall)
- Eksportmuligheter (CSV, XML, JSON etc.)
- Tilgjengelig API (for ekstern tilgang)
- Dokumentasjon (selvforklarende, metadata, behov for ytterligere beskrivelser)
- Eksisterende datautveksling (eksport til andre interne IT-systemer)
- Bruk av nøkler (unike/entydige, derefererbare, identifiserbare og aksesserbare)
Når det tekniske kartleggingsarbeidet er fullført må det avstemmes med resten av organisasjonen om all data er kartlagt og at utvalget representerer data som ønskes delt av organisasjonen.
Ansvarlige for prosessen gjør en prioritering av hvilke datasett som skal deles og i hvilken rekkefølge.
2. Kvalitetssikre dataene
[rediger]I tillegg til å sjekke ut opphavsrettslige begrensninger og sikre mot at personsensitive opplysninger lekker ut må IT-avdelingen også vurdere datakvaliteten og hvorvidt de må bearbeides eller dokumenteres bedre for å kunne utnyttes av eksterne aktører.
Typiske momenter å sjekke:
- Er kvaliteten og omfanget av datasettene dokumentert?
- Er dataformatet selvforklarende eller godt nok dokumentert?
- Må dataene restruktureres før de tilgjengeliggjøres?
Er dine data gode, vil de bli brukt av mange, men det må ikke overvurderes hvor mye tid som skal legges i for å gjøre et datasett komplett. Det er ikke slik at et datasett må være komplett for å kunne deles, så lenge dokumentasjonen beskriver hvorvidt det mangler data eller finnes dårlige data. Viktigst er det å huske på at objektenes opprinnelige verdi og sammenheng synliggjøres i dokumentasjon og at relasjoner i datasettene ivaretas gjennom formatet som brukes til å publisere dataene. På den måten unngår man feilbruk og øker sannsynligheten for gjenbruk.
3. Klargjøre dataene
[rediger]Vurder først hvordan dataene skal tilgjengeliggjøres. Det er i praksis tre overordnede måter å dele data:
- Dokumentformater
- Maskinlesbare dataformater
- API
Dokumenter
[rediger]Dataprogrammer som f.eks. regneark og tekstbehandlingssystemer leser og skriver informasjon til og fra forskjellige typer dokumenter. Dette gjør det mulig å dele informasjon på tvers av maskiner, og til dels også på tvers av programmer.
Noen eksempel på dokumenttyper:
- .PDF (Adobe Acrobat)
- .doc/.docx (Microsoft Word)
- .txt (ren tekst)
- .htm/.html (nettlesere)
- .xls/.xlsx (Microsoft Excel)
- .odf (OpenOffice.org)
Selv om dokumenter kan leses av dedikerte programmer kan de ikke anses som maskinlesbare. Disse dataformatene er tilrettelagt for brukeren av dataprogrammet, og ikke for datasystemer som skal bruke rådataene til andre formål.
Det er for eksempel svært krevende å utvikle løsninger som støtter all funksjonaliteten som ligger i dataformatet til et Excel-basert regneark. Det er mulig, men kompleksiteten gjør det til en ressurskrevende oppgave med mange potensielle feilkilder.
Samtidig er det til stor hjelp å faktisk få dataene tilgjengeliggjort i Excel-regneark, dersom alternativet f.eks. er å måtte hente informasjonen manuelt ut fra tabeller i et stort dokument. Finansdepartementet har f.eks. delt ut alle tabeller i Statsbudsjettet som egne Excel-regneark.
Merk at de samme fordelen som oppnås ved å publisere data som Excel-regneark, kan oppnås ved å publisere ved hjelp av ODF-formatet. ODF-formatet er obligatorisk for alle statlige og kommunale etater, jfr forskrift om IT-standarder i forvaltningen. Excel-format må eventuelt komme i tillegg.
HTML er et presentasjonsformat og er ikke egnet som et prosesseringsformat. Dette betyr at html-koden forteller deg at det finnes en overskrift H1, ingress og hovedtekst, men den forteller deg ingenting om innholdet i verken H1, ingressen eller hovedteksten.
Maskinlesbare dataformater
[rediger]Åpne data inkluderer mange forskjellige dataformater. Tre av de mest brukte er CSV, XML og JSON.
CSV er komma-, tabulator- eller semikolonseparerte tekstfiler der hver linje tilsvarer en rad i en databasetabell eller i et regneark. Hvert felt skilles med et komma, et semikolon, tab eller et fast antall tegn. Alle regnearkprogrammer, samt de fleste databasesystemer støtter import og eksport av data gjennom CSV-filer. Utfordringen ligger i at det kan være stort fortolkningsrom av hva verdienes opprinnelige betydning i hver rad er.
XML er et strengt strukturert dataformat som organiserer data i hierarkiske strukturer og har støtte for formaliserte skjemaregler for hvordan dataene skal struktureres.
XML er en svært utbredt teknologi, og den støttes i praktisk talt alle programmeringsspråk, men ofte gjennom tredjeparts bibliotek. Ved hjelp av tilleggsteknologier, som f.eks. XSLT, er det også relativt enkelt og raskt å konvertere data fra et XML-spesifisert format til et annet format ved behov for å integrere data fra forskjellige datasystemer som må spille sammen.
XML-formaterte data kan være enkle å bruke og forholde seg til, men kan også bli svært kompliserte når teknologiens potensiale utnyttes. Ved avanserte implementasjoner blir det fort umulig for menneskelige øyne å få oversikt over dataene som presenteres, og dette kan forårsake programmeringsfeil hvis utviklerne ikke klarer å få oversikt over avanserte skjemaregler.
XML er en slags plattformteknologi for mange forskjellige dataformater, men det er to som skiller seg ut som spesielt interessante for bruk i forbindelse med publisering av åpne data.
Atom og RSS er overlappende formatspesifikasjoner som primært brukes til dataformatert publisering av nyhetsartikler, blogginnlegg og lignende tekstbasert innhold. RSS er spesifisert i XML og inneholder støtte for RDF-vokabularet og metadatastandarden Dublin Core.
JSON er et maskinlesbart dataformat som også er tilrettelagt for å kunne leses av mennesker. Det er et av de mest brukte dataformatene i webapplikasjoner, og det finnes JSON-bibliotek for rask og enkel tilpasset bruk i de aller fleste programmerinsspråk.
En potensiell ulempe med JSON er at formatet har en løs struktur, og det kan derfor oppstå problemer hvis et program som leser eller produserer JSON-formaterte data avviker fra den planlagte implementeringen.
Veien mot lenkede datasett
[rediger]Der målet er å opprette datasett som man kan relatere til hverandre, er det nyttig å se på formater som er tilrettelagt for dette. Det finnes få teknologier med egenskaper som fungerer optimalt til dette formålet. RDF er det formatet som best representerer datasett med semantisk definerte relasjoner og unik representasjon av alle objekter ved hjelp av URier. RDF er et såkalt skjemaløst språk som ikke skiller mellom datamodell og selve dataene. Les mer om dette på http://www.w3.org/RDF/.
5-stjerners data
[rediger]Denne veilederen ønsker å fokusere på å tilgjengeliggjøre data først og fremst. Uavhengig av format, bør du publisere det fremfor å la det ligge i dine lukkede systemer. Dette kalles 1-stjerners data i en modell som ble laget for å illustrere hvordan man stegvis kan oppgradere verdien og nytten av sine data.
2-stjerners-data betyr å gjøre data tilgjengelige i et strukturert format. Dette innebærer å legge til rette for prosesserbare formater og ikke bruke for eksempel bildefiler.
3-stjerners-data: Sitter du på teknisk avdeling, ønsker å benytte ikke-proprietære formater og vet hvordan man gjør det, så bør du ta sikte å nå tre-stjerners målet. Bruk CSV og JSON og XML, men tenk på å ta sikte på å bruke unike identifiserbare URier som identifikatorer til dataene slik at man på sikt kan tilby langt større grad av kontekst til datasettene ved å lenke de til hverandre.
Tabelloversikt over formater og egenskaper
[rediger]Hva slags, og hvor mange forskjellige dataformater de åpne dataene skal tilgjengeliggøjres gjennom, må også vurderes ut fra en praktisk orientert tankegang. Jo flere, jo bedre, men jo flere, jo mer krevende. Vedlagt er en tabell som viser noen ulike filtyper og i hvilken grad de er maskinlesbare, menneskelesbare eller åpne.
Filformat | Maskinlesbar | Spesifikasjon tilgjengelig | Åpen | Semantisk struktur | Kommentar |
---|---|---|---|---|---|
Ren tekst (.txt) | V? | V | V | Ikke maskinlesbart med mindre en spesifikk struktur er spesifisert f.eks i csv eller kommaseparert liste | |
Kommaseparert fil (.csv/.txt) | V | V | V | ||
Hyper Text Markup Language (.html/.htm) | V? | V | V | Ikke maskinlesbart - fokus på å presentere informasjon for mennesker, ikke strukturere data | |
Extensible Markup Language (.xml and other XML derivated dialects e.g RSS/ATOM) | V | V | V | Strukturert dataformat med støtte for avanserte programmerbare skjemaregler. Brukes av en rekke etablerte standardiserte dataformater. | |
Javascript Object Notation (.json) | V | V | V | Maskinlesbart format som er relativt enkelt å lese også for mennesker | |
Resource Description Framework (.rdf) RDF/XML | V | V | V | V | |
RDF model, Turtle syntax (.ttl, .n3) | V | V | V | V | |
Regneark (.odt, .ods, etc) | V? | V | V | Mangler definert struktur for tolkning - slik som. html,. txt -se kommentar om .html | |
Portable Document Format (.pdf) | X | V | V | ||
Microsoft Word (.doc/.docx) | X | V | X | ||
Microsoft Excel (.xls/.xlsx) | V? | V | X | xls binære format krever biblioteker/APier for å leses |
Maksimalisering av gjenbruk og minimalisering av feilbruk
[rediger]Med viderebruk vil data som har blitt til i en kontekst kunne bli brukt i en annen. Utfordringen med flertallet av systemer idag, er at de er begrenset til kun å få de sammenhengene mellom dataene som utviklerene har tenkt ut. Dersom noen andre behøver dine data, eller skal integrere med ditt system, har de som regel behov for andre sammenhenger mellom dataene enn det som var opprinnelig påtenkt.
Derfor er det ofte vanskelig å gjenbruke eksisterende datasett. Verdiskapningspotensialet ved å tilføre mer data til et opprinnelig datasett forsvinner også, fordi metodene som benyttes for å legge til de manglende datatilknytningene, ikke åpner for å tilbakeføre tilleggsinformasjonen til den opprinnelige kilden.
Når datasett skal gjenbrukes er det av samme årsak viktig å vite at de dataene du gjenbruker ikke tolkes feil i ditt systemet fordi du henter de ut av en annen kontekst. Dette avhenger av hvor godt datasettet du bruker er dokumentert fra dataeiers side og at du ikke legger til altfor mange antagelser om formålet med datasettet.
4. Tilgjengeliggjør data – Nedlastbart eller api?
[rediger]Ved store datasett, eller behov for at dataene er «ferske» er det viktig å tenke på hvordan tilgangen til data gis. Det er da naturlig å gjøre dem tilgjengelige gjennom et API istedet for fil-nedlasting. Det er da viktig å legge listen for bruk så lav som mulig.
Dersom dataene oppdateres kontinuerlig må det vurderes om de skal tilgjengeliggjøres gjennom et API som åpner for ekstern tilgang og/eller om det skal baseres på eksport ved gitte intervaller. Det bør også vurderes om eksporteringsrutiner skal automatiseres, eller om det er tilfredsstillende å gjøre en manuell eksport ved behov.
Store datamengder kan skape store datafiler som blir vanskelig å prosessere på vanlige PC-er med vanlig programvare. Er dette tilfelle, kan fildelingsløsninger være en god løsning.
Ved behov for å gi direkte tilgang til dataene over internett gjennom API kommer det en rekke avanserte problemstillinger som ikke dekkes i denne veilederen.
Ved implementering av eksternt API må blant annet følgende vurderes:
- Sikkerhet
- Skalerbarhet
5. Tilrettelegging av dataene
[rediger]Når dataene er tilgjengeliggjort i et maskinlesbart format er den viktigste delen av jobben gjort. Det neste som bør gjøres, er å tilrettelegge dataene slik at det blir enklere å utnytte potensialet som ligger i åpne data.
Selv om brukeren selv kan konvertere datasettene til ønsket dataformat, er det en fordel om organisasjonen selv tar ansvar for å støtte flere dataformater, samt å dokumentere datastrukturen.
Målgrupper
[rediger]Potensielle brukere av åpne data kan grovt sett deles i to hovedtyper: superbrukere og programmerere.
Superbrukere er personer som kan bruke eksisterende verktøy som f.eks. regneark og nettbaserte tjenester til å konsumere, flette sammen og redigere data fra forskjellige kilder. De kan ha basiskunnskaper om programmering, men jobber primært med å bruke dataene. De er avhengig av å få datasett i dataformater som støttes av verktøyene de bruker.
Programmerere er databrukere som selv lager programmer. Ved behov kan de selv utvikle løsninger for å tilpasse datasettene til et dataformat som dekker deres eget behov, men de er avhengige av god dokumentasjon på avanserte datasett. De vil i noen tilfeller kunne trenge en teknisk kontaktperson hos organisasjonen, f.eks. ved utvikling av løsninger som bruker API for direkte tilgang til organisasjonens åpne data.
Dokumenter datastrukturen
[rediger]Enkle datasett kan være selvforklarende, men selv de enkleste trenger en beskrivelse av hva slags data de inneholder.
Hvert datasett bør inneholde følgende informasjon:
- Hva slags opplysninger datasettet inneholder
- Hvilken kvalitet datasettet har
- Kilden
- Hvor ofte (og når) dataene oppdateres
- Hvor siste oppdatering kan hentes
Hvor detaljert datasettet må dokumenteres avhenger av innholdet. Enkle tabeller kan være selvforklarende, mens data i relasjonsdatabaser kan bli svært kompliserte og uoversiktlige.
Håndtere tilbakemeldinger
[rediger]En dataeier har ansvaret for å oppdatere datasettene sine dersom de har dokumentert at oppdateringer og feilrettelser skal skje med gitt intervall. Dersom en bruker av dine data rapporterer feil eller melder behov, bør dataeiers organisasjon ha tatt høyde for at dette håndteres og at det ansees som en del av prosessen som er igangsatt.
Forventet responstid etter innmeldte feil bør også dokumenteres, slik at en bruker av dine datasett, på forhånd kan beregne risiko og utfall av feil ved gjenbrukte datasett. På den måten kan en bruker være forberedt på at en rettelse ikke kan forventes innen en uke fra innrapportert feil. Det er forskjell på behov som følger av “ferske” sanntidsdata og arkivdata.
Enkle oppdateringer og rettelser av feil bør ikke ta for mye tid for dataeieren, og ved hjelp av god dokumentasjon og bevissthet omkring kunnskapsdeling, bør man ikke bli avhengig av kunnskapen og kompetansen til én person i IT-avdelingen. Rutiner for å oppdatere og publisere data bør være påtenkt i oppstart av prosessen.
Det viktigste å huske i denne delen av prosessen er at dette er en mulighet for organisasjonen til å få oppdateringer til sine datasett og det kan ansees som en ekstra kvalitetskontroll.
Referanser og kilder
[rediger]5-star-data: http://lab.linkeddata.deri.ie/2010/lod-badges/ W3C sitt initiativ for Linked Open Data: http://esw.w3.org/SweoIG/TaskForces/CommunityProjects/LinkingOpenData Metadata standard: http://dublincore.org/ RDF som semantisk maskinlesbar standard : http://www.w3.org/RDF/ XML tutorial: http://www.w3schools.com/xml/default.asp Omfattende informasjon om Linked Data: http://linkeddata.org/