Indata saknas – Därför publiceras artiklar utan data

Home » Indata saknas – Därför publiceras artiklar utan data

När forskningsartiklar publiceras utan tillräcklig underliggande data blir det svårt för andra forskare att verifiera, reproducera eller bygga vidare på resultaten. Fenomenet, som ofta beskrivs som att ”indata saknas”, är en växande utmaning inom öppen vetenskap och forskningsdatahantering – särskilt i Sverige och Norden.

Bristen på indata kan bero på allt från kunskapsluckor hos forskare till juridiska hinder och otillräcklig dokumentation. En gemensam nämnare är att datan, även när den finns, sällan är sökbar eller standardiserad nog för att kunna återanvändas av andra. Detta begränsar tillgången till en mycket liten del av forskarsamhället, enligt en svensk doktorsavhandling från 2018.

Frågan är inte bara teknisk – den handlar om forskningens trovärdighet, resurseffektivitet och långsiktiga nytta. Allt fler forskningsfinansiärer och myndigheter ställer nu krav på att data ska göras tillgänglig, men verkligheten är ofta mer komplicerad.

Varför saknas indata i forskningsartiklar?

Kunskapsbrist – Forskare vet inte hur data ska hanteras för återanvändning.
Juridiska hinder – Personuppgifter, sekretess och upphovsrätt begränsar delning.
Datakvalitet – Dålig dokumentation och låg standard gör data oanvändbar.
Brist på incitament – Belöningssystem premierar artiklar, inte data.

Centrala insikter från forskningen

  • Många forskare saknar kunskap om hur data ska struktureras och beskrivas för återanvändning.
  • Metadata och standarder är ofta frånvarande, vilket gör data osökbar.
  • Från 2026 krävs öppen delning av offentligt finansierad forskning, men känslig data undantas.
  • Arkivlagen (1990:782) gör det svårt att fullt anonymisera persondata.
  • I Norge visar rapporter att svag datakvalitet och låg delning leder till dålig reproducerbarhet.
  • Paradata – data om data – saknas ofta, vilket gör att tomma celler kan tolkas på flera sätt.
  • Kompetensbrist på individ- och institutionsnivå förvärrar problemet.

Fakta om indata i forskningsartiklar

Aspekt Huvudfynd Källa
Kunskapsgap Få studier om varför forskare återanvänder data Diva-portal, 2018
Standardisering Saknade etablerade standarder för datahantering Diva-portal, 2018
Öppen tillgång Krav från 2026 men undantag för känslig data Researchdata.se
Persondata Kan sällan anonymiseras fullt ut Researchdata.se
Reproducerbarhet Låg delning av indata leder till bristande reproducerbarhet Norges forskningsråd
Barriärer Licenser, personvern, immaterialrätt, kommersiella intressen Norges forskningsråd
Paradata Fyra typer behövs: scope, provenance, methods, knowledge organisation InformationR.net, 2022
Tomma celler Kan betyda flera olika saker utan paradata InformationR.net, 2022
Återanvändning Data når bara en liten del av forskarsamhället Diva-portal, 2018
Incitament Systemet belönar artiklar, inte datadelning Norges forskningsråd

Vilka hinder finns för att dela forskningsdata?

Kunskapsbrist och bristande standarder

En svensk doktorsavhandling från 2018 visar att forskare ofta inte vet hur data ska hanteras för att bli återanvändbart. Utan sökbar metadata och standardiserade format blir data i praktiken osynlig för andra forskare. Detta är en av de främsta orsakerna till att indata saknas i artiklar.

God praxis

Redan vid datainsamling bör forskare planera för metadata, standardiserade filformat och tydlig dokumentation. Lokala forskningsdatastöd kan hjälpa till med detta.

Juridiska begränsningar

Enligt svenska riktlinjer på Researchdata.se ska offentligt finansierad forskning från 2026 dela data så öppet som möjligt. Men känslig indata – personuppgifter, sekretessbelagd information eller upphovsrättsskyddat material – måste begränsas. Arkivlagen (1990:782) gör det särskilt svårt att anonymisera persondata fullt ut, vilket innebär att delar av indata alltid kommer att saknas i öppna dataset.

Behovet av paradata

En internationell studie med svenska forskare (Lisa Börjesson m.fl., 2022) visar att forskare behöver paradata – information om datans omfattning, ursprung, metoder och kunskapsrepresentation – för att kunna tolka data korrekt. En tom cell i ett dataset kan till exempel betyda ”ingen data insamlad”, ”negativt resultat” eller ”under kvalitetsgräns”. Utan paradata är det omöjligt att avgöra, vilket gör indata i praktiken saknad för återanvändare.

Hur kan forskare hantera saknad indata?

Dokumentera med paradata

Genom att skapa tydliga beskrivningar av datans sammanhang – vad som samlats in, hur och varför – kan forskare minska osäkerheten. Studien från InformationR.net betonar att kunskapsorganisation är det minst utforskade området, men samtidigt kritiskt för data literacy och reproducerbarhet.

Exempel från praktiken

En forskargrupp som inte kan dela rådata av juridiska skäl kan i stället publicera statistiska beräkningar, algoritmer eller aggregerade mått. Detta gör att andra kan granska metoderna utan att få tillgång till känslig individdata.

Använd sluten referentgranskning

För känslig data som inte kan göras offentlig finns möjligheten att låta granskare och redaktörer ta del av materialet i en sluten miljö före publicering. Detta säkerställer kvalitetskontroll samtidigt som integriteten skyddas.

Sök stöd från forskningsdatastöd

Många lärosäten i Sverige erbjuder lokala forskningsdatastöd som kan vägleda forskare i frågor om metadata, licenser och lagring. Enligt Researchdata.se är detta en rekommenderad väg för att maximera tillgängligheten utan att bryta mot regelverk.

Vad säger forskningen om återanvändbarhet?

Svenska perspektiv: Diva-portalstudien 2018

I avhandlingen Varför väljer forskare att återanvända data? identifieras kunskapsgap i svensk forskning. Få studier har undersökt varför forskare använder andras data, och bristen på etablerade standarder för datahantering förvärrar problemet. Resultatet blir att artiklar publiceras utan tillräcklig indata, vilket omöjliggör verifiering.

Norska erfarenheter: datakvalitet och incitament

En rapport från Norges forskningsråd pekar på att många forskningsfynd tilbakovisas på grund av otillräcklig indata. Hög artikelvolym kombineras med låg datadelning. Barriärer som licenser, personvern och kommersiella intressen gör att data stannar hos den ursprungliga forskaren.

Varningssignal

Om incitamentsystemen inte förändras – och forskare fortsätter belönas för artiklar i stället för data – kommer problemet med saknad indata att kvarstå. Det krävs institutionella förändringar för att främja öppen vetenskap.

När införs krav på öppen data?

  1. 2018 – Doktorsavhandling publiceras på Diva-portal som identifierar kunskapsgap i svensk datahantering.
  2. 2022 – Internationell studie (InformationR.net) visar på behovet av paradata för att tolka saknad indata.
  3. 2026 – Svensk offentligt finansierad forskning måste dela data öppet enligt principen ”så öppet som möjligt, så begränsat som nödvändigt” (Researchdata.se).
  4. Löpande – Flera nordiska lärosäten utvecklar stödfunktioner för forskningsdatahantering.

Källor: Diva-portal, Researchdata.se, Norges forskningsråd, InformationR.net.

Vad är säkert – och vad är oklart?

Etablerad information Information som är oklar
Bristande metadata och standarder är en huvudorsak till att indata saknas. Exakt hur omfattande problemet är på svenska lärosäten är inte kartlagt.
Från 2026 krävs öppen data för offentligt finansierad forskning. Hur efterlevnaden blir i praktiken och hur undantagen tolkas är oklart.
Paradata (data om data) är avgörande för att tolka tomma celler. Kunskapsorganisation – en av fyra paradatatyper – är minst utforskat.
Juridiska hinder som arkivlagen begränsar anonymisering av persondata. Vilka tekniska och organisatoriska lösningar som fungerar bäst är inte fastställt.

Vad innebär indata saknas för forskningen?

När indata saknas i en artikel undermineras forskningens reproducerbarhet – en grundläggande princip för vetenskaplig metod. Andra forskare kan inte kontrollera eller bygga vidare på resultaten, vilket leder till resursslöseri och minskat förtroende.

Problemet förstärks av att incitamentsystemen inom akademin premierar publicering av artiklar, inte delning av data. Detta skapar en kultur där forskare prioriterar kvantitet framför transparens. Samtidigt ökar kraven från finansiärer och tidskrifter på datatillgänglighet, vilket ställer forskare i en svår balansgång.

Vilka källor ligger till grund?

”Forskare saknar ofta kunskap om hur data ska hanteras för att bli återanvändbart. Detta leder till att data inte är sökbart eller standardiserat, vilket begränsar tillgången till en väldigt liten del av forskarsamhället.”

Diva-portal, doktorsavhandling 2018

”Många forskningsfynd tilbakevisas på grund av otillräcklig indata. Barriärer som licenser, personvern och kommersiella intressen förhindrar delning.”

Norges forskningsråd, rapport om forskningsdata

”En tom cell i ett dataset kan betyda flera olika saker. Utan paradata är det omöjligt att tolka, vilket gör indata saknad för återanvändare.”

InformationR.net, 2022 (Lisa Börjesson m.fl.)

Övriga källor: Researchdata.se och Norges forskningsråd.

Sammanfattning

Indata saknas i många forskningsartiklar på grund av en kombination av kunskapsbrist, juridiska hinder, dålig datakvalitet och felaktiga incitament. Forskning från Sverige och Norden pekar på att metadata, standarder och paradata är avgörande för att göra data återanvändbar. Från 2026 skärps kraven, men praktiska och juridiska utmaningar kvarstår. Lösningar som bättre dokumentation, sluten referentgranskning och lokala forskningsdatastöd kan hjälpa forskare att dela mer – utan att äventyra integritet eller lagar.

Vanliga frågor om indata i forskningsartiklar

Vad menas med indata i en forskningsartikel?

Indata är den ursprungliga data som ligger till grund för en studies analys och slutsatser. Det kan vara rådata från experiment, enkäter, observationer eller simuleringar.

Varför publiceras artiklar utan indata?

Orsakerna varierar: bristande kunskap om datahantering, juridiska begränsningar, dålig dokumentation eller att forskaren inte vill dela data på grund av kommersiella eller konkurrensmässiga skäl.

Vad är paradata?

Paradata är information om hur data skapats, bearbetats och strukturerats – exempelvis omfattning, ursprung, metoder och begreppsdefinitioner. Utan paradata blir data svår att tolka.

Hur påverkar arkivlagen delning av persondata?

Arkivlagen (1990:782) kräver att vissa personuppgifter bevaras, vilket gör det svårt att anonymisera data fullt ut. Detta begränsar möjligheten att dela persondata öppet.

Vad innebär principen ”så öppet som möjligt, så begränsat som nödvändigt”?

Principen innebär att forskningsdata ska göras tillgänglig i så stor utsträckning som möjligt, men att undantag görs för känslig information som personuppgifter eller sekretessbelagt material.

Finns det stöd för forskare som vill dela data?

Ja, många svenska lärosäten har forskningsdatastöd som hjälper med metadata, licenser, lagring och juridiska frågor. Även nationella plattformar som Researchdata.se erbjuder vägledning.

Vad händer om en forskare inte kan dela indata?

Forskaren kan i stället publicera detaljerade metodbeskrivningar, statistiska sammanställningar eller låta granskare ta del av data i en sluten miljö. Full öppenhet är inte alltid möjlig.

Vilka krav ställer tidskrifter på datadelning?

Allt fler tidskrifter kräver att data görs tillgänglig via ett offentligt arkiv eller åtminstone att en data availability statement inkluderas i artikeln. Kraven varierar mellan fält.

Hur vanligt är det att indata saknas i publicerade artiklar?

Exakta siffror saknas för svensk forskning, men internationella studier visar att en stor andel artiklar inte har tillhörande data tillgänglig. Problemet är särskilt utbrett inom vissa discipliner.

Kan saknad indata leda till att artiklar dras tillbaka?

Ja, om indata inte kan lämnas ut för granskning och resultaten ifrågasätts, kan tidskrifter dra tillbaka artiklar. Flera högprofilerade fall har visat på riskerna med bristande datatillgänglighet.