Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avAxel Jonsson
1
Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH
2
Varför är man intresserad av osäkerheten i bibliometrisk statistik? •Hur ”säker” eller ”exakt” är statistiken för ett analysobjekt? •Skiljer sig olika analysobjekt åt? •Är en förändring över tid signifikant?
3
Vad är felmarginaler Från Wikipedia: The margin of error is a statistic expressing the amount of random sampling error in a survey's results. Dvs ”felet” beror på att statistik baserad på ett slumpässigt urval har en osäkerhet i hur väl urvalet representerar hela populationen i kombination med mätfel
4
Bibliometriska analyser baseras nästa alltid på totalundersökningar, dvs baseras på studieobjektets ALLA publikationer i en viss databas... då finns inga fel i den bemärkelse termen felmarginal normalt syftar på. Om analysen görs om blir resultatet troligen exakt det samma.
5
Visst finns fel/osäkerheter i bibliometrisk statistik •Fel identifieringen av analysobjektens publikationer •Fel i databsen -ffa felaktiga detaljer i ref. listor fel i antalet citeringar till en artikel Marginellt i analyser av god kvalité Kan troligen vara betydande i vissa fall, men vi har inga metoder för att uppskatta storleken på dessa (?) • Resultatet är beroende av den databas som analysen baseras på
6
Ett alternativt perspektiv: Hur stabilt är ett bibliometriskt mått? Hur beroende är citeringsstatistiken för ett studieobjekt av några få högt citerade publikationer? •Colliander & Ahlgren 2011 •Waltman et al 2012
7
Stabilitet – hur mäts det? Resampling / permutation statistics: Ett stort antal nya uppsättningar data skapas genom upprepad slumpässig provtagning av de data man har. Från dessa nya utslumpade urval kan man uppskatta stabilitieten i statistiken.
8
Original obs.
9
Metodik •Bootstrapping (med återlägg) •Jackknife (utan återlägg – ta bort x observationer) Skapa ett stort antal (ofta tusentals) nya prov genom resampling och basera spridningsmått på dessa. Tex intervallet inom vilket 95% av alla nya medelvärden finns. Colliander & Ahlgren Waltman et al
10
Original obs. Bootstrapping Med återlägg
11
Original obs. N orig Jackknife utan återlägg N sample N sample < N orig
12
Exempel på Uppskattning av error margins/stabilitet för fältnormerad medelcitering Kronman & Karlsson, Nordiska bibliometrikonferensen 2008 (opubl) •Antagande: det finns en osäkerhet i årsmedel beroende på en slumpmässig variation mellan år i förekomsten av högt citerade publikationer 1.Årsmedelvärden 1984-2005 för 2.24 svenska lärosäten och 153 länder med en volym om > 10 publ/år 3.Trender togs bort med en polynom regression 4.Konfidensintervall/felmarginaler beräknade baserat på residualerna från 3 5.Eller med bootstrapping
13
Eliminering av trender...
14
Medelcitering, Länder och svenska lärosäten
15
Bootstrapp-uppskattningar Origninaldata: 15 års publ för 4 svenska lärosäten (150 000 publ)
16
Schabloner för stabilitetsinterval för fältnormerad medelcitering Antal publikationer 95%-konfidens intervall Medel 95%-konfidens intervall Inkl 95% 95 % Bootstrapp intervall 10± 0,1 ± 0,5± 0,8 100± 0,05± 0,2± 0,3 1000± 0,02± 0,09± 0,1 10 000± 0,01± 0,04
17
95 % Stability intervals of Mean Normalized Citation Score (MNCS) for 50 univeristies (Waltman et al 2012)
18
Sammanfattning •Det finns tvelöst felkällor i bibliometrisk (citerings) statistik •MEN dessa är svåra att kvantifiera •Felet är troligen oftast litet men ibland rätt stort... (tex ”svåra” namn i ref listor) •Stabiliteten i citeringsmått pga enstaka högt citerade publikationer kan relativt enkelt uppskattas •Stabilitets intervallet bör inte tolkas som ett ”mätfel”
19
Bör man använda [parametriska] statistiska tester på bibliometrisk statistik? •Problem -Ofta totalundersökningar som i princip inte är behäftade med några mätfel -Fördelningsmönstret är starkt skevt statistiska metoder som bygger på normalfördelningen är inte lämpliga -Ofta stora N lätt att hitta signifikanser även för små skillnader. svar Hypotestestande statistik - tveksamt! Konfidensinterval / Stabilitet OK Se Schneider 2012 för en kritisk diskussion om hypotestestning av bibliometriska material
20
Referenser •Colliander C & Ahlgren P. 2011. The effects and their stability of field normalization baseline on relative performance with respect to citation impact: A case study of 20 natural science departments. Journal of Informetrics 5: 101-113. •Waltman L. et al. 2012. The Leiden Ranking 2011/2012: Data Collection, Indicators, and Interpretation. Journal of the American Soc for Information Science and Technol. 63(12): 2419–2432 •Leydesdorff L & Bornmann L. 2012. Testing differences statistically with the Leiden ranking. Scientometrics 92:781–783 •Schneider JW 2012. Caveats for using statistical significance tests in research assessments. arXiv:1112.2516v1
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.