Viderebruksveileder/Hvordan går man frem?

Fra Wikibøker – frie læremidler

4. Hvordan komme igang?[rediger]

Målet med denne veilederen er å etablere en godt forankret strategi i egen organisasjon som håndterer både interne utfordringer og ytre press. Denne delen av veilederen beskriver fremgangsmåten for hvordan man åpner opp sine data i maskinlesbare formater. Rådene er basert på både norske og internasjonale erfaringer og dokumenterte råd for beste praksis.

Veilederen er ment for offentlig sektor på statlig, regionalt og lokalt nivå – disse representerer tjenesteproduksjon og kontrollinstanser på svært mange og ulike felt i samfunnet. Det er per dags dato store forskjeller i praksis knyttet til hvordan man fremskaffer, lagrer og gjør data tilgjengelige. Nye åpenhetsrutiner blir i praksis først og fremst en utvikling av eksisterende virksomhet. Hvor store tilpasninger som må gjøres vil variere sterkt.

Det finnes likevel noen overordnede prinsipper som kan være retningsgivende for etater som planlegger å åpne opp sine data:

1. Etabler en prosess, ikke et prosjekt. Å åpne data er ikke noe du gjør én gang. Det handler om å etablere en varig praksis, der målet er å bli stadig flinkere. Det betyr at dataåpenhet må forankres organisatorisk og kulturelt, og at denne (nye) delen av virksomheten må speiles i budsjettprioriteringer både på kort og lang sikt.

2. Gjør det enkelt. Start prosessen så tidlig som mulig, men i liten skala og prioriter det enkle først. Begynn gjerne med ett enkelt datasett. Ofte er det så enkelt som å distribuere grunnlagstallene som en excelfil istedenfor som en pdf eller et annet ikke-maskinlesbart format. Gjør deg erfaringer, og utvid praksisen organisk. Det kan godt hende du lanserer et datasett uten at noe skjer. Det er helt naturlig. Det er ikke slik at utviklere og journalister kaster seg over alt som er maskinlesbart. Du er uansett på riktig vei.

3. Involver brukere av dine data. Trekk inn aktive og potensielle brukere av dine data så tidlig og så ofte du kan. Alt fra ekstraordinært interesserte borgere, til selskaper, media og utviklere kan gi deg nyttige innspill, og bidra til læringskurven. Husk at dine data ikke alltid benyttes av brukere direkte, men ofte gjennom mellomparter som baker data inn i ulike informasjonstjenester. Et eksempel på dette er kartfestede data. De færreste har bruk for et datasett med kartkoordinater, men når først noen har lagt disse dataene inn i et kart, vil flere kunne analysere og nyttiggjøre seg dem på ulike måter.

4. Identifiser frykt og motforestillinger. Særlig i større organisasjoner kan dataåpenhet skape motforestillinger. Det kan dreie seg om alt fra feiloppfatninger knyttet til «eierskap» av data som etter offentlighetsloven skal være tilgjengelig, til relevante innsigelser knyttet til sensitivitet og personvern. Det er viktig at slike motforestillinger blir tatt på alvor og diskutert i din organisasjon. Denne veilederen kan forhåpentlig bidra til å rydde av veien ubegrunnede «eierskapsholdninger» til data som er finansiert av det offentlige.


Kartlegging[rediger]

En prosess rundt dataåpenhet bør etableres på et godt grunnlag. Kartleggingsjobben har en egenverdi ved at en organisasjon kan få en bedre oversikt over hvilke datasett man sitter på, og hvilke prosedyrer som er knyttet til publisering og innsyn.

Kartlegging av rutiner, roller og beslutningsprosesser[rediger]

Å starte en prosess for å åpne data innebærer å skaffe seg oversikt over eksisterende rutiner, mandater, beslutningsprosesser og nøkkelpersoner i egen organisasjon. Alle involverte aktører bør delta i prosessen. Ofte er det slik at spørsmål om tilgang til rådata ligger et sted mellom strategisk ledelse, informasjonsavdelingen og IT-avdelingen. Det er en problemstilling som både er av teknisk karakter (filformater etc.) og av prinsipiell juridisk karakter (innsynsrett, opphavsrett, personvern, etc.) og strategisk karakter (åpenhetspraksis, kjernevirksomhet, måloppnåelse, etc.). Prosessene for å håndtere åpne data bør også ofte avklares og synliggjøres. Det har stor verdi å avklare rollene rundt 1) rutiner ved innsynsbegjæringer, 2) beslutning om videredistribusjon/åpning og 3) tilrettelegging for publisering, 4) mottaksapparat for innspill og feilmeldinger. Det er også viktig å avklare oppfølgingsansvar.

Kartlegging av teknisk infrastruktur[rediger]

Foruten politisk vilje og administrativ kapasitet trenger man en teknisk infrastruktur som støtter eksport og distribusjon av rådata. Dette har vist seg å være en flaskehals. Noen ganger er datasett i praksis publisert på nettet via et publiseringssystem, men ikke tilgjengeliggjort i maskinlesbare formater. Da blir det vanskelig å viderebruke datasettet, selv om det er lett å finne enkeltopplysninger gjennom publiseringssystemet.

Kartlegging av egne data[rediger]

Hvilke data forvalter din offentlige virksomhet som bør kunne tilgjengeliggjøres for viderebruk? Dette spørsmålet er det ikke alltid så lett å få svar på og er avhengig av rutinene knyttet til lagring og katalogisering av data. Ofte forvaltes data som ikke hele organisasjonen er klar over, men som likevel kan være nyttig for andre. En kartlegging bør se på hele virksomheten. Hvilke data bruker din etat som grunnlag for beslutninger? Hvilke data fremskaffes av din etat? Har dere opparbeidet referansedata som kan deles? Hvordan lagres data? I hvilke formater? Hvordan konverteres disse formater før publisering, og hvordan begrunnes praksisen? Disse spørsmålene bør betraktes i lys av nasjonale føringer, en stadig mer digitalisert informasjonsutveksling og andres erfaringer med en åpne og maskinlesbare formater.

I en kartleggingsfase, og under arbeidet med å analysere datasettene, er det viktig å belyse enkelte spesifikke områder som sterkt kan påvirke hvordan prosesssene som organisasjonen må støtte. Disse beskriver vi under:

Noen eksempler på data
I offentlig sektor vil det ofte variere sterkt hvilke data som potensielt bør publiseres. Her er noen eksempler på data som ofte publiseres ikke-maskinlesbart, men som med hell kan publiseres som rådata:
  • Budsjettdokumenter
  • Dokumenter som presenteres i årsmeldinger etc. Måloppnåelse etc.
  • Resultater fra spørreundersøkelser
  • Kataloger over offentlig eid fysisk infrastruktur
  • Organisasjonsmodell
  • Oversikt over politiske tillittsvalgte og administrativ ledelse

«Farlige data»

Å tilgjengeliggjøre data kan skape motstand internt, også i tilfeller der det er utvilsomt at informasjonen er omfattet av offentlighetsloven og innsyn uansett må gis. Det er mange årsaker til denne motstanden.

  • Kvaliteten på dataene er dårlig. Man kan bli «avslørt» og kritisert for å ikke å ha god nok oversikt eller kontroll.
  • Dataene kan avsløre at man ikke har oppnådd tilfredsstillende politiske eller administrative målsetninger, eller avsløre strukturelle utviklingstrekk som stiller dataeier i et dårlig lys.

En omdømmebyggende og potensiell “åpenhetsstrategi” kan få et kraftig tilbakeslag ved et forsøk på selektiv tilbakeholdelse. Ingen av disse motforestillingene gir juridisk grunnlag for tilbakeholdelse av data. Når det gjelder frykten for datakvalitet, vil denne kritikken kunne imøtegås ved at man ber om innspill fra brukere om hvordan datasett kan bli bedre.

Tips: Bli inspirert og se etter gode eksempler
Dataåpenhet er et relativt nytt fenomen, og det kan være både nyttige tips og inspirasjon å finne ved å besøke andre virksomheters nettsteder. Internasjonalt er det særlig USA, Canada og Storbritannia som har vist vei. Disse eksemplene gir både et innsyn i hvilke datasett man bør publisere, hvordan en ny åpenhetspraksis kan markedsføres, og hvordan dataåpenhet kan skape nye og innovative løsninger i samspill med enkeltpersoner, medier og teknologiselskaper.

Juridisk åpenhet[rediger]

Å «åpne» data vil i praksis si noe om mulighetene og rettighetene knyttet til viderebruk, og må således ikke forveksles med innsynsretten – som er regulert av offentlighetsloven. Det ligger en klar anbefaling i å gjøre lisensene så åpne som mulig. Dersom det ikke er særskilte grunner for det, bør man unngå en situasjon der viderebruk krever en tillatelse fra dataeier, eller der spørsmålet om slike rettigheter fremstår som uklare. Da oppstår det merarbeid på dataeiers side i forhold til å håndtere viderebruksrettigheter, og terskelen for viderebruk heves. Intensjonen bak åpne data er det motsatte: Å oppfordre omverdenen til å ta i bruk data. Tydelige, åpne gjenbrukslisenser er derfor å anbefale. Det finnes selvsagt unntak, avveininger og grensetilfeller.

Klassifiserte, lisensierte og personsensitive opplysninger[rediger]

Et vanlig scenario er at offentlige aktører kan også sitte på data fra tredjepart, der det er begrensninger knyttet til videredistribusjon. Det kan også finnes datasett som inneholder informasjon om tredjepart (eksempelvis kontraktspartnere) som ikke er ment for offentlig publisering. Noen ganger kan deler av datasettet være sensitivt eller bryte med personvernet, mens deler av dataene (for eksempel aggregerte verdier) kan være av interesse for allmennheten. Her må man vurdere å tilrette datasett spesielt for viderebruk.

Opphavsrett[rediger]

Opphavsretten beskytter de fleste typer kreativt arbeid som kan videreformidles, som de fleste typer kunstnerisk virksomhet, skrevne tekster, illustrasjoner, lydopptak, videomateriale, etc. Opphavsretten gir skaper visse rettigheter til slike arbeid, og begrenser tilgangen til å reprodusere, distribuere, fremføre eller forandre på det rettighetsbelagte verket. Såfremt rettighetshaver (skaperene) ikke gir andre retter utover loven (lisens) er, er det altså sterkt begrenset hvilke typer informasjon som kan videreformidles. Opphavsretten beskytter ikke faktisk informasjon eller ideer, men den formen de kommer til uttrykk i. Databaser er ikke åndsverk, men kan være beskyttet av katalogvernet, som er en av de «nærstående rettighetene». Av den grunn er det viktig at offentlige aktører spesifiserer viderebruksrettigheter ved opparbeidelser av data, særlig når slike data fremskaffes og forvaltes av tredjepart. Myndighetene i New Zealand er blant dem som de siste årene har innført Creative Commons-lisenser for bruk i databaser.

Salg av data[rediger]

Flere typer data i Norge er kun tilgjengelig mot en økonomisk kompensasjon. Rapporten fra bruk til gjenbruk (2004) fant ulike begrunnelser og praksiser knyttet til prising av data. I offentlige foretak finnes det eksempler både på delvis subsidiering (at brukerne betaler en del av kostnaden), kostnadsdekning (at virksomheten får dekket de konkrete omkostningene forbundet med å avgi informasjon) og markedsprising (at prisen avhenger av betalingsviljen i markedet). Prismodellen henger ofte sammen med eksterne styringssignaler – som egenfinansieringskrav, men kan også være resultat av interne vurderinger.

I rapporten «Markedspotensial ved økt tilgjengeliggjøring av offentlig data» drøfter Oslo Economics ulike prisregimer, der de poengterer at et kjennetegn ved offentlige data er at gjennomsnittskostnaden per bruker er fallende. Dersom man antar at marginalkostnaden ved tilgjengeliggjøring av offentlige data er tilnærmet lik null, vil prising utover marginalkostnaden normalt gi et samfunnsøkonomisk tap (velferdstap) [Rapporten er foreløpig ikke utgitt]. I «The reuse of public sector information: an economic optimal pricing model» fra Universitetet i Strasbourg argumenterer Pénin, Hussler, Millot, et al. for at man bør skille mellom rådata og data som er tilpasset viderebruk, og at rådata bør være gratis mens data som er tilpasset viderebruk godt kan selges.

Retten til å ta betalt for data man har innsynsrett i etter offentlighetsloven er regulert i offentlighetsloven § 8. Grunnprinsippet er at man bare kan ta betaling dersom man har hjemmel i offentlighetsloven, og at betalingssatsene skal være slik at de samlede inntektene ikke blir større enn de faktiske kostnadene ved kopiering og utsending av dokumenter. Unntaket fra dette kostprinsippet er geodata (kart mv.) og eiendomsinformasjon, der organ som har utarbeiding og utlevering av geodata eller eiendomsinformasjon som en hovedoppgave i sin virksomhet kan beregne en rimelig fortjeneste.

For å sikre så stor grad av viderebruk som mulig er det i de fleste tilfeller ønskelig og hensiktsmessig ikke å ta betalt for tilgang til offentlige data.

Lisenser og kontrakter[rediger]

Kommuner og etater som eier data kan selv velge å tilgjengeliggjøre informasjonen med åpne lisenser, altså gi allmennheten tilbake bruks- og distribusjonsretter som opphavsrettslovgivningen tar fra dem. Fordi det er arbeidskrevende å gjøre dette igjen for hver gang noen ønsker data, både for brukere og eiere av data, anbefales det at viderebruksrettigheter spesifiseres i form av en eksisterende generell lisens. Lisenser er dokumenter som beskriver hva som kan gjøres og ikke gjøres med materialet. De kan eksempelvis spesifisere særskilte krav knyttet til distribusjon, navngivelse og sammenstilling og nye verker.

At materialet er kopibeskyttet betyr ikke at bruken av materialet må overvåkes eller lisensieres på strenge vilkår. Dersom det ikke er særskilte grunner til det motsatte bør rettighetshaver gjøre materialet fritt tilgjengelig ved å bruke en standardlisens fra Open Data Commons eller Creative Commons (se eget avsnitt).

Dersom data fra offentlig sektor er av forretningskritisk karakter for brukeren, trenger man kontraktsfeste viderebruksrettighetene for å sikre kontinuitet i datastrømmene og et nødvendig service-apparat. I en del tilfeller tilgjengeliggjør offentlig sektor store, komplekse datasett gjennom betalte løsninger. Slike ordninger henger ofte sammen med et inntjeningskrav. I slike tilfeller bør man vurdere om det finnes deler av datasettene som er av så stor samfunnsmessig betydning at de skal tilgjengeliggjøres med en lisens for fri viderebruk.

Faktaboks:

Lisenser for viderebruk (åpne/frie lisenser)
Det finnes en særskilt utviklet Åpen Database-lisens i regi av Open Data Commons. Den sier i praksis at man fritt kan dele, endre og distribuere dataene, så lenge man oppgir dataeier, viderelisensierer resultatet under samme vilkår og sørger for at dataene holdes åpne også i viderebruks-sammenheng.

Creative Commons har etablert noen standardlisenser som handler om fri viderebruk, som et alternativ til tradisjonell opphavsrett. De ulike lisensene regulerer navngivelse av opphavsmann, videredistribusjon, videreforedling og kommersiell bruk. De norske CC-lisensene er tilpasset norsk lovverk.

  1. Navngivelse (by)
  2. Navngivelse-Del på samme vilkår (by-sa)
  3. Navngivelse-Ingen bearbeidelse (by-nd)
  4. Navngivelse-Ikkekommersiell (by-nc)
  5. Navngivelse-Ikkekommersiell-Del på samme vilkår (by-nc-sa)
  6. Navngivelse-Ikkekommersiell-Ingen bearbeidelse (by-nc-nd)

[Ny, norsk lisens for offentlige data]

Teknisk åpenhet[rediger]

Selv om man har brukt lisenser som sikrer viderebruk er det ikke gitt at potensialet i datasettene utnyttes. Hvilke tekniske formater man benytter seg av har mye å si for hvordan dataene kan anvendes. Når det gjelder teknisk tilrettelegging går veilederen i teknisk detalj i den tekniske delen, her vil vi bare skissere de overordnede prinsippene for teknisk åpenhet. Vi henviser også til referansekatalogen for IT-standarder i offentlig sektor.

  1. Data skal være nedlastbare. Datasett skal som hovedregel kunne lastes ned. Mange datasett er i dag kun tilgjengeliggjort ved at de er presentert som nettsider (for eksempel et politikerregister med oversikt over partirepresentasjon og offentlige tillitsverv). Nedlastning er viktig av flere grunner:
    • Man slipper å gjøre tredjepartsapplikasjoner avhengige av eksterne servere eller endringer i dataeiers tekniske infrastruktur.
    • Nedlastbare data vil også bli spredt i flere kanaler, som er positivt om målet er mest mulig viderebruk.
    • Nedlastbare data gjør det mulig å konvertere data til egnede tekniske formater, å koble sammen ulike datasett og integrere mot andre ressurser etc.
    Også datasett som i utgangspunktet er komplekse, skal tilgjengeliggjøres i sitt opprinnelige format såfremt det ikke er særskilte grunner til noe annet. [Mer om kompleksitet og hvilken kompetanse som faktisk finnes i samfunnet]
  2. Komplekse og hyppig oppdaterte data bør distribueres via et API Om dataene kan være vanskelig å forstå eller oppdateres hyppig (eller i sanntid), anbefaler vi at det etableres en nettbasert tjeneste som gir tilgang til data som ligger lagret på eksterne servere. Dette kalles et API (Application Programming Interface) og er et grensesnitt alle utviklere er vant til å forholde seg til. APIer kan utvikles på ulike måter. I den tekniske delen av veilederen vil vi gå nærmere inn på anbefalte løsninger. At noe er tilgjengelig via et API betyr ikke nødvendigvis at ikke rådataene ikke også skal tilgjengeliggjøres for nedlasting. Ofte kan bruksbehovene variere. Internasjonale erfaringer tilsier at det er fruktbart å etablere en dialog med potensielle brukere av dine data, og be om innspill til den best egnede måten å tilgjengeliggjøre data på. Svært tunge filer kan tilgjengeliggjøres via et lagringsmedium som DVD eller minnebrikker [Fildeling/bittorrent/rsync]. Oppdateringer kan gjøres tilgengelig som endringsfiler [patch/diff] og via rsync. For offentlige foretak som har store datasett, vil en database med tilhørende API, kunne være være en effektivt rammeverk for arkivering, strukturering og tilgjengeliggjøring av data.
  3. Data skal publiseres i maskinlesbare formater. Maskinlesbarhet handler om i hvilken grad informasjon kan leses på en automatisert måte av en datamaskin. Et nærliggende eksempel er økonomiske tall – som enten kan publiseres som en tabell eller som en bildefil i en PDF, eller kan tilgjengeliggjøres som en excel-fil (XLS) eller som kommaseparerte verdier (CSV). De to sistnevnte filtypene gjør det enkelt å plassere tallene i en graf, analysere dem, koble dem med andre data eller å konvertere dem til nye formater. PDF-filen er ment for å leses av mennesker, og det vil kreve mye arbeid å overføre tallverdier etc til et format som gjør det mulig å integrere dem i en data-applikasjon. På den annen side finnes det også filtyper som er lett å integrere i en data-applikasjon, men som ikke er lett å forstå for mennesker. Det er derfor lurt å tilgjengeliggjøre data i ulike formater, slik at dataene kan brukes av flest mulig, i flest mulig sammenhenger.
  4. Data bør publiseres i et åpent filformat Spørsmålet om «åpne» filformater er uavhengig av spørsmålet om maskinlesbarhet. Enkelte filtyper, for eksempel Photoshop- eller Access-filer, er laget for kun å leses av et spesifikt program (for eksempel Adobe Photoshop og Microsoft Access eller Word). Andre filtyper er utviklet som åpne filstandarder, og kan leses og vises uavhengig av programvare (for eksempel XML, OpenDocument, HTML, PDF). Generelt bør man tilgjengeliggjøre data i et åpent filformat som kan leses av flest mulig vanlige programmer.

Langsiktig kvalitetsheving[rediger]

Åpne data i seg selv har ingen verdi. De blir først verdifulle når de blir tatt i bruk. Det kan ta tid før media, innbyggere, bedrifter og akademia tar i bruk de dataene du tilgjengeligjør. Som nevnt bør arbeidet med åpne data etableres som en langsiktig prosess, ikke som et kortsiktig prosjekt. Foruten å identifisere og publisere data, bør organisasjonen sette av ressurser og bygge kompetanse internt. Man bør gi datahåndtering en tydelig adresse i organisasjonen, på en måte som ivaretar både de adminstrative, juridiske og tekniske aspektene ved publisering av data.

Sikt mot stjernene
W3C lanserte i 2010 et system med «fem stjerner» - som viser prosessen rundt stadig bedre dataåpenhet – og illustrerer hvordan man gjøre kvaliteten stadig bedre i en kontinuerlig prosess.
Gjør dine data tilgjengelig i ikke-maskinlesbare formater (eks. pdf)
★★ Gjør data tilgjengelig i tabellformat (eksempelvis excel framfor pdf)
★★★ Gjør data tilgjengelig i åpne formater (eksempelvis csv framfor Excel)
★★★★ Bruk URI-er for å idenfisere referansedata (linked open data)
★★★★★ Link dine data mot andre datakilder for å sette dine data i sammenheng
Les mer om W3C sitt arbeid omkring dette

Tilgjengeliggjør flere og bedre datasett[rediger]

Man bør begynne med de enkle datasettene. Etterhvert som man kartlegger hvilke data man sitter på, samt får erfaring og innspill, bør man utvide med flere data. Dette kan gjøres enten ved at man finner flere datasett å tilgjengeliggjøre, eller ved at man gjør allerede eksisterende datasett rikere med flere detaljer, og høyere presisjon – eller i åpnere og mer anvendelige formater.

Gjør dataene mer strukturert[rediger]

Etterhvert som flere datasett publiseres, vil det oppstå muligheter for å kombinere ulike data. Om en tredjepart vil koble sammen ulike datakilder som beskriver forhold i en kommune, en organisasjon eller et tjenesteområde, må man være sikker på at dataene beskriver det samme. Derfor bør man søke å standardisere bruke av slike forekomster vil bidra til å forenkle kombinasjoner av data. Husk at dataene dine ideelt sett skal kunne sammenstilles med andre datasett. Derfor bør man i størst mulig grad benytte etablerte standarder, og inkludere offisielle IDer (eksempelvis kommunenummer, næringskoder, tjenestekoder etc) i datasettene. Man bør også prøve å standardisere måten verdier angis i datasett, for eksempel at datoinformasjon og økonomiske størrelser presenteres likt i ulike datasett. Unngå standardisering som bidrar til at informasjonsverdi går tapt, for eksempel ved at man ikke kan regne seg tilbake til dataenes opprinnelige verdi). Avrundinger (for eksempel til hele 1000) bør unngås, fordi man da ikke lengre leverer rene rådata, men lett bearbeidede data der detaljrikdommen i datasettet er redusert. Jo ”rikere” datasett, jo større variasjon, og dermed mer anvendbare datasett til (statistiske) analyser. Om du selv opererer med avrundinger av presentasjonshensyn kan du publisere både den avrundede tallstørrelsen og opprinnelig verdi.

Linked Open Data[rediger]

Linked Open Data er en raskt voksende og internasjonal «idealstandard» for strukturering av data – og innebærer blant at data med ulikt opphav kan kombineres sømløst. Teknologien er anbefalt av World Wide Web Consortium (W3C), og alt tyder på en langsiktig utvikling i retning denne standarden. Linked Open Data innebærer at standardiserte emneord og forekomster, eller referansedata, er tilgjengelig som åpne, delte ressurser i nettskyen. Vi vil i årene som kommer trolig se en en sterk økning i bruken av offisielle referansedata. Linked Open Data kan du lese mer om i den tekniske vedlegget av veilederen som kan lastes ned fra data.norge.no.

Visualisering av data[rediger]

Maskinlesbare rådata er svært viktig, men oppi dette må man ikke glemme menneskelesbarheten. Det å gi «vanlige» innbyggere uten teknisk innsikt anledning til å utforske datasett vil øke viderebruk av data. Det digitale formatet er velegnet for å presentere data i interaktive visuelle grensesnitt, som grafer, kartløsninger, budsjettvisualiseringer etc. Ofte kan slike løsninger ligge som et lag mellom brukeren og datasettet, slik at brukeren kan utforske dataene og laste ned deler av datasettet eller hele datafilen. Slike løsninger har vist seg å vekke interessen rundt åpne data, og gjør det også mulig for ikke-tekniske brukere å forstå datamaterialet. Eksempler på visualiseringer kan du finne på data.norge.no.