Search toggle

Evaluerande bibliometri

Bibliometri används ofta för att utvärdera forskning. I Sverige kommer resurser till lärosäten delvis fördelas med hänsyn till hur de presterar med avseende på antal erhållna citeringar och antal publicerade artiklar.

Kontakt

Stefan Carlstein
stefan.carlstein@ju.se
036-10 10 15

Liknande system finns redan i ett flertal länder. I Norge har till exempel bibliometri använts i detta syfte under ett antal år. Bibliometrisk evaluering har vidare en tydlig vetenskapspolitisk dimension då den incitamentsstruktur som är inbyggt i givet utvärderande bibliometriskt system i viss mån är avsett att styra publiceringen mot vissa publikationsformer och publiceringskanaler.
I det följande kommer en introduktion ges till forskningsutvärdering baserat på antal citeringar och antal publikationer (Resursutredningens svenska modell för konkurrensutsatta fakultetsmedel) samt utvärdering som utgår från publikationstyp och den ”vetenskaplig prestige”, vilken en given publikationskanal tillskrivs (norsk resultatbaserad omfördelningsmodell).

Citeringsanalys

Citeringar har en lång tradition av att ligga till grund för evaluering av publicerade forskningsresultat. Teoretiska resonemang som framförs till citeringsanalysens försvar gör gällande – något förenklat – att forskare i regel citerar de publikationer som använts vid framställningen av en given forskningspublikation. Citeringar skulle därmed vara ett tecken på att bidrag gjorts till det aktuella områdets forskningsfront och därmed en indikator på genomslagskraft. Empiriska studier tenderar att bekräfta en dylik hypotes (för en översikt se till exempel Bornmann & Daniel 2008). Citeringsanalyser applicerade i evaluerande syfte är dock kontroversiellt av minst tre skäl: (1) Genomslagskraft är ej ekvivalent med kvalitet, utan snarare en mätbar aspekt av kvalitet (2) från socialkonstruktivistiskt håll menar man ofta att antalet citeringar ett verk erhåller snarare beror på sociala, retoriska eller till och med politiska orsaker, snarare än på verkets bidrag till aktuell forskningsfront och/eller dess kognitiva innehåll. (3) Av praktiska skäl kan idag citeringsanalyser, applicerade i evaluerande syfte, i princip endast vara en valid metod inom forskningsområden vars publiceringspraxis medför att en relativt stor del av forskningsresultaten publiceras i internationella tidskrifter samt att dessa täcks av databasen eller databaserna som används som datakälla (vilken i praktiken ofta är de citeringsindex som tillhandahålls av Thomson Reuters). Denna förutsättning håller generellt inte för humanistiska ämnen samt inte heller för vissa samhällsvetenskapliga ämnesområden (se vidare Moed 2005, kap 7-8). Nedan beskrivs grunddragen i tillämpad citeringsanalys samt hur effekten av skillnader i publiceringspraxis inom olika ämnesområden kan reduceras för att möjliggöra jämförelser mellan olika ämnesområden.          

Normalisering

Det är i regel inte särskilt informativt att endast rapportera antalet citeringar, eller den genomsnittliga citeringsfrekvensen, en enhet uppburit. Antalet citeringar bör relateras till någon referensgrupp så att utsagor med avseende på en analysenhets citeringsfrekvens anges i relativa termer. Vidare bör de ingående publikationerna i referensgruppen, förutom att tillhöra samma ämnesområde, också vara av samma typ och publicerade samma år. Det finns huvudsakligen tre metoder för att definiera dylika referens- eller jämförelsegrupper (Schubert & Braun 1996):

  1. Tidskriftsnormalisering - publikationerna i de tidskrifter som analysenhetens publikationer återfinns i.
  2. Fältnormalisering - publikationerna inom de aktuella ämnesområden i vilket analysenheten publicerar. Dessa operationaliseras vanligen genom mängden av tidskrifter som ingår de ca 250 tidskriftsklasser som finns definierade i citeringsdatabaserna tillhandahållna av Thomson Reuters.
  3. Ad hoc-normalisering – en referensgrupp skapas efter något kriterium vilket avser forma en mängd ämnesmässigt relaterade publikationer. Kriterium kan exempelvis utgå från befintliga bibliografiska klassifikationssystem (t.ex. MeSH inom medicin eller PACS inom fysik) eller från bibliografisk koppling, det vill säga ämnesmässigt relaterade publikationer operationaliserat genom gemensamma referenser.

De tre angreppssätten har sina respektive för- och nackdelar. Används (1) kan två analysenheter inom samma ämnesområde få liknande normerat värde trots att antalet citeringar per publikation är signifikant större för den senare enheten. Detta kan ske då den första enheten överlag publicerar i tidskrifter med lägre genomsnittlig antal erhållna citeringar. Det idag vanligaste sättet är därför att använda, eller komplettera,  tidskriftsnormalisering  med angreppssätt (2). Dock kan vissa av tidskriftsklasserna, och de ämnesområden de är avsedda att definiera, vara alltför heterogena för att det skall kunna anses beskriva ett ämnesområde med liknande publicerings- och citeringsstruktur. Det sista angreppssättet för att skapa en jämförelsegrupp är inte applicerbart i de flesta fall då robusta klassifikationssystem endast existerar för ett fåtal ämnesområden och används någon för den specifika studien utarbetad metod kan det vara svårt att replikera utfallet. Angreppsätt (1) och (2) är att betrakta som internationell standard.

Nedanstående två grafer visar vikten av att ta hänsyn till ämnesområde och publiceringsår samt vikten av att ta hänsyn till typ av publikation. På x-axeln publiceringsår och på y-axeln genomsnittligt antal erhållna citeringar uppmätta 2009:

Grafen ovanför (data från Essential Science Indicators) visar tydligt att den förväntade genomsnittliga citeringsfrekvensen för biokemi är betydligt högre än för datorvetenskap. Det går därför inte att anlägga någon jämförelse mellan analysenheter från dessa olika områden utan att först utföra någon form av normalisering som beskrivits ovan. Det är vidare inte rimligt att jämföra publikationer inom ett givet ämnesområde med olika publiceringsdatum då det är uppenbart att citeringar ackumulerar med tiden. Grafen nedan visar behovet att vid normalisering också ta hänsyn till typ av publikation:

Exemplet ovan avser forskningsområdet ”Signal Processing” (definition enligt Scimago och datakälla Science Citation Index Expanded). Förutom effekten av publiceringsår framgår det att den förväntade genomsnittliga citeringsgraden för ett givet år är högre för översiktsartiklar än för originalartiklar och samma förhållande gäller mellan originalartiklar och letters.

Förutom normaliseringsgruppernas sammansättning är frågan om analysenhets storlek en viktig aspekt i given analys. Exempel på aggregationsnivåer ges nedan:

Makronivå

  • Geopolitiska regioner
  • Länder
  • Breda ämnesområden och delområden av desamma
  • Specifika temata

Mesonivå

  • Universitet
  • Forskningsinstitutioner
  • Tidskrifter
  • Forskargrupper

Mikronivå

  • Mindre forskargrupper
  • Individer

Analysenheterna presenteras i fallande skala med avseende på populationens storlek och konfidensnivån med avseende på observerat värde för aktuell citeringsbaserad bibliometrisk indikator. Säkerheten eller validiteten vilken är kopplat till indikatorerna som beräknas för makronivån är i regel större än för meso- och mikonivån. Detta bland annat på grund av det brus som införs av den ”slumpmässiga” fördelningen av högciterade artiklar samt reliabilitetsproblem i datainsamlingsprocessen. En vanlig, om än arbiträr, tumregel gör gällande att minst 50 publikationer måste ingå i en analys för att inte felmarginalen skall omöjliggöra en meningsfull tolkning. Som tidigare påtalats gäller att en citering till en publikation anses indikera vetenskaplig genomslagskraft och att det aggregerade antalet citeringar (normaliserade) till en analysenhets publikationer används ofta som en grov proxy för att värdera publikationernas kvalitet. Detta antagande har visat sig hålla tillfredställande på makro- och mesonivå (korrelerar till exempel väl med peer review). Men samma antagande kan bli problematiskt på mikronivå då bland annat slumpmässighet och det faktum att citeringar till publikationer kan vara negativa, det vill säga då en publikation citeras för att resultatet som presenteras ifrågasätts, kan ha alltför stort inflytande. I stora material spelar dock dessa faktorer en mindre roll då de tenderar att ta ut varandra.

Produktivitetsmått

Hittills har endast citeringsbaserad bibliometrisk metod behandlats. En intressant variabel i utvärderande studier är även antalet publikationer som en analysenhet publicerat under givet tidsintervall. Dylika indikatorer avser mäta produktivitet snarare än kvalitet eller inflytande. För en och samma analysenhet, säg en institution, kan till exempel en tidsserie skapas för att studera den vetenskapliga produktionen över tid. Anläggs jämförelser mellan analysenheter inom samma fält bör en normalisering med avseende på storlek göras, till exempel genom användandet av helårsverken. En icke okontroversiell fråga i sammanhanget rör definitionen av publikation. Vad skall betraktas som en vetenskaplig sådan och vilka typer skall ligga till grund för beräkning av vetenskaplig produktivitet?  På liknande sätt som citeringsfrekvensen normaliseras med avseende på ämnesområde måste hänsyn tas till att olika fält inte har en jämn fördelning av sina publikationer över publikationstyper. I den svenska modellen beaktas endast refereegranskade artiklar i internationella tidskrifter, eller noga räknat en delmängd av dessa, nämligen de som finns indexerade i citeringsindexen tillhandahållna av Thomson Reuters. Grafen nedan visar ett estimat av hur många dylika artiklar en nordisk forskare inom olika forskningsområden producerar inom en fyraårsperiod (HSV 2008:18R).


På basis av ovan presenterad data blir det uppenbart att om endast aktuell publikationstyp utgör underlaget i beräknandet av produktivitet, måste hänsyn tas till att publiceringspraxis är starkt beroende på ämnesområde. Endast vissa områden har artiklar i internationella tidskrifter som sin huvudsakliga publikationskanal, medan andra områden företrädesvis publicerar sin forskning i till exempel antologibidrag, böcker, konferenspapers, rapporter eller svenskspråkiga tidskrifter.

Läs vidare här om resonemangen bakom den svenska modellen och hur normaliserad citeringsgrad beräknas samt hur denna aspekt av den publicerade forskningen kombineras med produktivitetsberäkningar vilka justerats med avseende på ämnesområde.

En alternativ modell

Ett alternativ till citeringsanalyser av tidskriftsartiklar finner vi i Norge där man använder man sig av en bibliometrisk modell för forskningsutvärdering och resursfördelning (Vekt på forskning 2004) som skiljer sig tämligen kraftigt från den svenska. I sammanhanget kan nämnas att Stockholms universitet använder sig av den norska modellen på institutionsnivå och en variant av den norska modellen är under utarbetning i Danmark. Precis som i Sverige görs ett försök att kombinera produktivitet och genomslagskraft. Genomslagskraft operationaliseras dock inte med hjälp av citeringar och fler publikationstyper än artiklar i internationella tidskrifter ligger till grund för beräknandet av produktivitet. Utgångspunkten är en strikt definition på vad som är att betrakta som en vetenskaplig publikation och genomslagskraft beräknas utifrån vilken vetenskaplig nivå som tilldelats – fastställt av paneler bestående av ämnesexperter – en publiceringskanal i vilken given publikation återfinns.  De kanaler, vilka beaktas i modellen, är förlag, tidskrifter, serier och webbplatser. En publikation i en dylik kanal måste, för att vara poänggivande, uppfylla använd definition på en vetenskaplig publikation, vilket bland annat inbegriper att det skall röra sig om originalforskning och att kanalen i fråga har rutiner för peer review.

Läs vidare här om den norska modellen, hur publiceringskanaler indelas i nivåer, vilka publikationstyper som är giltiga samt hur den använda definitionen på genomslagskraft och produktivitet kombineras för att tilldela en analysenhet publikationspoäng.

Den svenska och norska modellen är som synes tämligen olika. Den svenska modellen begagnar sig av citeringar för att mäta genomslag och uppmärksamhet i forskarvärden och tar bara hänsyn till artiklar i tidskrifter vilka indexeras av Thomson Reuters. Det norska systemet försöker mäta genomslag på forskningen genom att på förhand definiera och vikta publikationstyper och publiceringskanaler. Det norska systemets relativa styrka är kanske att det inte är knutet till en specifik databas och godkänner fler publikationstyper än den svenska modellen. Den relativa svagheten är att genomslagskraft definieras på förhand, det vill säga oavsett hur publikationerna mottags av andra forskare, exempelvis med avseende på citeringar. Gemensamt för de båda modellerna är dock att incitamentsstrukturen premierar forskning som konkurerar på, och är synlig på, den internationella scenen.

Sidan uppdaterad 2017-12-18






Genom att surfa vidare på JU.se godkänner du att vi använder cookies. Mer information