Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH.

Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH

Varför är man intresserad av osäkerheten i bibliometrisk statistik? •Hur ”säker” eller ”exakt” är statistiken för ett analysobjekt? •Skiljer sig olika analysobjekt åt? •Är en förändring över tid signifikant?

Vad är felmarginaler Från Wikipedia: The margin of error is a statistic expressing the amount of random sampling error in a survey's results. Dvs ”felet” beror på att statistik baserad på ett slumpässigt urval har en osäkerhet i hur väl urvalet representerar hela populationen i kombination med mätfel

Bibliometriska analyser baseras nästa alltid på totalundersökningar, dvs baseras på studieobjektets ALLA publikationer i en viss databas... då finns inga fel i den bemärkelse termen felmarginal normalt syftar på. Om analysen görs om blir resultatet troligen exakt det samma.

Visst finns fel/osäkerheter i bibliometrisk statistik •Fel identifieringen av analysobjektens publikationer •Fel i databsen -ffa felaktiga detaljer i ref. listor  fel i antalet citeringar till en artikel Marginellt i analyser av god kvalité Kan troligen vara betydande i vissa fall, men vi har inga metoder för att uppskatta storleken på dessa (?) • Resultatet är beroende av den databas som analysen baseras på

Ett alternativt perspektiv: Hur stabilt är ett bibliometriskt mått? Hur beroende är citeringsstatistiken för ett studieobjekt av några få högt citerade publikationer? •Colliander & Ahlgren 2011 •Waltman et al 2012

Stabilitet – hur mäts det? Resampling / permutation statistics: Ett stort antal nya uppsättningar data skapas genom upprepad slumpässig provtagning av de data man har. Från dessa nya utslumpade urval kan man uppskatta stabilitieten i statistiken.

Original obs.

Metodik •Bootstrapping (med återlägg) •Jackknife (utan återlägg – ta bort x observationer) Skapa ett stort antal (ofta tusentals) nya prov genom resampling och basera spridningsmått på dessa. Tex intervallet inom vilket 95% av alla nya medelvärden finns. Colliander & Ahlgren Waltman et al

Original obs. Bootstrapping Med återlägg

Original obs. N orig Jackknife utan återlägg N sample N sample < N orig

Exempel på Uppskattning av error margins/stabilitet för fältnormerad medelcitering Kronman & Karlsson, Nordiska bibliometrikonferensen 2008 (opubl) •Antagande: det finns en osäkerhet i årsmedel beroende på en slumpmässig variation mellan år i förekomsten av högt citerade publikationer 1.Årsmedelvärden 1984-2005 för 2.24 svenska lärosäten och 153 länder med en volym om > 10 publ/år 3.Trender togs bort med en polynom regression 4.Konfidensintervall/felmarginaler beräknade baserat på residualerna från 3 5.Eller med bootstrapping

Eliminering av trender...

Medelcitering, Länder och svenska lärosäten

Bootstrapp-uppskattningar Origninaldata: 15 års publ för 4 svenska lärosäten (150 000 publ)

Schabloner för stabilitetsinterval för fältnormerad medelcitering Antal publikationer 95%-konfidens intervall Medel 95%-konfidens intervall Inkl 95% 95 % Bootstrapp intervall 10± 0,1 ± 0,5± 0,8 100± 0,05± 0,2± 0,3 1000± 0,02± 0,09± 0,1 10 000± 0,01± 0,04

95 % Stability intervals of Mean Normalized Citation Score (MNCS) for 50 univeristies (Waltman et al 2012)

Sammanfattning •Det finns tvelöst felkällor i bibliometrisk (citerings) statistik •MEN dessa är svåra att kvantifiera •Felet är troligen oftast litet men ibland rätt stort... (tex ”svåra” namn i ref listor) •Stabiliteten i citeringsmått pga enstaka högt citerade publikationer kan relativt enkelt uppskattas •Stabilitets intervallet bör inte tolkas som ett ”mätfel”

Bör man använda [parametriska] statistiska tester på bibliometrisk statistik? •Problem -Ofta totalundersökningar som i princip inte är behäftade med några mätfel -Fördelningsmönstret är starkt skevt  statistiska metoder som bygger på normalfördelningen är inte lämpliga -Ofta stora N  lätt att hitta signifikanser även för små skillnader.  svar Hypotestestande statistik - tveksamt! Konfidensinterval / Stabilitet OK Se Schneider 2012 för en kritisk diskussion om hypotestestning av bibliometriska material

Referenser •Colliander C & Ahlgren P. 2011. The effects and their stability of field normalization baseline on relative performance with respect to citation impact: A case study of 20 natural science departments. Journal of Informetrics 5: 101-113. •Waltman L. et al. 2012. The Leiden Ranking 2011/2012: Data Collection, Indicators, and Interpretation. Journal of the American Soc for Information Science and Technol. 63(12): 2419–2432 •Leydesdorff L & Bornmann L. 2012. Testing differences statistically with the Leiden ranking. Scientometrics 92:781–783 •Schneider JW 2012. Caveats for using statistical significance tests in research assessments. arXiv:1112.2516v1

Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH.

Liknande presentationer

En presentation över ämnet: "Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH.

Liknande presentationer

En presentation över ämnet: "Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss