Öppna forskningsdata – hur går vi vidare?

2019-11-15

Forskning producerar data, utan data ingen forskning. De samexisterar i symbios med varandra och har så alltid gjort. I och med övergången till öppen vetenskap kommer det bli än mer påtagligt. På samma sätt som forskningspublikationerna blir öppet tillgängliga skall även underliggande forskningsdata göras öppna. Det kommer ställa krav på ett helt nytt synsätt, rigorös hantering, nya kompetenser samt en väl etablerad infrastruktur. Om inte detta uppfylls är det stor risk för att arbetet mot öppna forskningsdata bara blir en pro forma.


alt

Nyligen läste jag slutrapporten ”T Länk till annan webbplats, öppnas i nytt fönster.urning FAIR into reality Länk till annan webbplats, öppnas i nytt fönster.” skriven av The European Commission Expert Group on FAIR Data 2018. Den var inte direkt lättläst men tar upp några av dessa frågor. Själv skrev jag ett kort blogginlägg, ”FAIR och öppna forskningsdata – en hårdvaluta Länk till annan webbplats, öppnas i nytt fönster.” här på Vertikals tidigare i år. I det inlägget berörde jag en del av denna problematik.

Tiden går och frågorna aktualiseras allt mer. Jag känner att vi nu står inför ett vägval som kräver att några konkreta frågor behöver beröras och belysas närmare för att uppnå en framtida hållbarhet kring frågan om forskningsdata.

I detta blogginlägg kommer jag huvudsakligen att fokusera på fyra frågeställningar:

  • Nya roller och kompetenser, för vem och hur?
  • Incitament och indikatorer, hur ser forskaren effekt och resultat av sitt arbete?
  • Hur etableras en infrastruktur som uppfyller FAIRness och kvalitetssäkring?
  • Investeringar kräver medel, hur säkerställer vi finansiering?

Nya roller och kompetenser följer av satsningen på öppna forskningsdata och jag ser två helt nya kategorier av tjänster som behöver etableras. Tyvärr har jag inget bra svenskt namn på tjänsterna men på engelska brukar de två kategorierna benämnas för ”data scientist” och ”data stewardship”. Den första kategorin består av personer med ansvar för att sammanställa, processa, analysera och kurera data. Den andra kategorin handlar om personer med ansvar för att hantera, dokumentera, indexera, dela och bevara data. Så som det ser ut i Sverige idag på lärosätena skulle jag vilja påstå att den första kategorin är helt inbegripen i det arbete som forskarna själva gör. Den andra kategorin är mer komplicerad och kräver bidrag från flera olika befattningar såsom forskare, bibliotekarier samt arkivarier. En samverkan som jag tror vi kan klara av men vilken behöver klargöras. Det stora problemet är dock den kommande transformeringen mot öppna data som kommer medföra högt ställda krav på att uppfylla till exempel FAIR-principerna. Detta ställer krav som tidigare inte har funnits och där kunskapen och kompetensen om vad, hur och när inte är etablerad. Inför framtida arbete med öppna data behöver vi fastställa dessa kompetenser, anordna utbildningsinsatser samt säkerställa framtida kunskapsspridning.

Incitament och indikatorer för att möta denna utveckling tror jag är absolut nödvändigt. Enligt resonemanget ovan kommer arbetsuppgifter som åligger forskarna att tillföras. Det kommer ta resurser i anspråk. I en tidspressad och konkurrensutsatt forskartillvaro måste man få erkännande och uppmärksamhet för det man presterar. Jag anser inte att alla forskare skall ta samma ansvar, i själva verket tror jag faktiskt inte det är lämpligt. Några väl valda forskare med kunskap och erfarenhet behöver ta ett större ansvar och utveckla de nya kompetenser som kommer att behövas för att leda arbetet framåt genom goda exempel och utbildningsinsatser. Det kommer ta deras tid i anspråk och måste premieras. Jag kan även tänka mig att vissa bibliotekarier kan ta över en del av uppgifterna men då kommer det krävas kompetensutveckling inriktad för dem. Speciellt tänker jag att de måste arbeta mycket närmare forskarna och erhålla god inblick i forskningens villkor och struktur. På samma sätt måste det arbetet premieras och uppmärksammas. Hur dessa gränsdragningar kommer att klargöras och hur man löser fördelningen av arbetsuppgifter kan säkert komma att bli olika på våra lärosäten. Indikatorer för att mäta genomslaget av publicerade forskningsdata är en närliggande fråga som även den bör utredas närmare. Om forskarna skall komma att motiveras och ändra sitt beteende inför arbetet med forskningsdata blir indikatorer viktiga. Hur skall man annars kunna genomföra framtida utvärderingar av forskare som blir relevanta utifrån de insatser man verkligen bidrar med? Idag är det tyvärr så att erkännandet för publicerade forskningsdata inte alls motsvaras av den för publikationer och det är bekymmersamt om man tillsammans med forskarna vill fortsätt att driva utvecklingen framåt samtidigt som det även finns behov av att utveckla specialistkompetenser.

Att etablera en fungerande infrastruktur är även det en central fråga. Här ser jag flera olika alternativ för framtiden. Där vi befinner oss nu är främst på en lokal nivå där våra lärosäten utvecklar sina egna så kallade DAU:er (Data Access Unit). Det får väl anses vara en bra start för att skapa medvetenhet och inleda informationsspridning i frågan kring hantering av öppna forskningsdata. Jag tror dock att det i längden blir en svår väg framåt då arbetet inom ramen för befintlig verksamhet i DAU:erna blir allt för personberoende och begränsat samt att uppgiften oftast tillförts administrativa funktioner och inte forskarna. Enligt tidigare resonemang kommer detta arbete kräva hög specialistkompetens och möjlighet till fördjupning, inte bara på en generell nivå utan även för respektive forskningsområde för att kunna kvalitetssäkra processen. Kommer varje lärosäte kunna hantera det? Naturligtvis byggs det upp utbildningar, nätverk och domänspecialister genom SND:s (Svensk Nationell Datatjänst) försorg men de kommer vara långt ifrån den operativa verksamheten så frågan kvarstår om lärosätena själva kommer mäkta med detta.

Kanske skall vi i Sverige istället skall satsa på en infrastruktur som byggs upp via forskningsdatacenters utifrån vetenskapsområde. Det har visats sig vara en effektiv och funktionell modell för de ämnesspecifika datacenters som byggts upp internationellt. Då har FAIRness och kvaliteten i datamängderna kunnat kontrolleras av de med rätt kompetens. Dessutom har dessa datacenters helt nödvändiga certifieringar, metadata och PID:ar (persistent identifiers) för att kunna säkerställa dataseten. Många lärosäten arkiverar idag den forskningsdata de har ansvar för. Sedan låter de forskarna själva, som en del av sin publiceringstrategi, välja i vilket repositorium datasetet skall tillgängliggöras. Kanske är det den vägen vi i framtiden skall ansluta oss till? I så fall återstår det en sista fråga som måste lösas, den om finansieringen av dessa datacenters.

Säkerställandet av finansiering blir i så fall inte helt olik den för publicering av artiklar. För att publicera Open Access idag krävs det oftast att man finansierar publiceringen genom en APC (Article Processing Charge). På motsvarande sätt skulle olika datacenters kunna ta ut en avgift, RDPC (Research Data Processing Charge) för att hantera forskningsdata i sina repositorier mot att de säkerställer vedertagen certifiering (exempelvis CoreTrustSeal) och att FAIR-principerna uppfylls. Då uppnår man rationalitet samt förmågan att säkerställa kompetens samtidigt som forskningsdatan framtidssäkras. Kostnadstäckning för dessa avgifter kunde då ingå i själva ansökningsprocessen hos de olika forskningsfinansiärerna till exempel som ett schablonbelopp, 5% har föreslagits av HLEG EOSC (High Level Expert Group on the European Open Science Cloud). Naturligtvis kräver denna modell en transparent och tydlig prissättning av kostnaderna från repositorierna så vi inte hamnar i samma situation som med den vetenskapliga publiceringen där kommersiella intressen styr verksamheten.

Det finns en mycket god tanke bakom utvecklingen mot ett öppet vetenskapssystem. Skall arbetet fortsätta med att även inkludera öppna forskningsdata måste vi klargöra hur vi kan ändra kulturen kring hanteringen av forskningsdata och de incitamentsstrukturer som finns. Dessutom behöver det utvecklas nya kompetenser, byggas en effektiv infrastruktur som beaktar FAIR-principerna samt säkerställande av den finansiering som motsvarar de verkliga kostnader som finns för repositorierna. Då har vi skapat möjligheten att bygga en hållbar utveckling och hantering av forskningsdata. Annars är risken att det inte blir mer än en god tanke.

Daniel Gunnarsson

Civilekonom som arbetar som bibliotekarie med intresse för öppen vetenskap, vetenskaplig publicering samt forskningsdata.

Visa alla mina bloggposter

Detta är en bloggtext. Det är skribenten som står för åsikterna som förs fram i texten, inte Jönköping University.