Introduction to statistical analysis Nina Santavirta

Slides:



Advertisements
Liknande presentationer
Samhällsvetarkåren vid Lunds universitet Forum för internationalisering
Advertisements

Your Name I am Perfect and loved as i am Everybody Fits I Focus on my strenghts I am worth $ _________ a month Focus on your own goal 15 min SeeLiveFeel.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Lösningsfokuserat arbetssätt
Behandling Tillfrisknande ? Tid EXPONERINGUTFALL.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Ett projektarbete under ST i allmänmedicin av Magnus Röjvall
Hastighetsefter- levnad – hur tar vi nästa steg? Nuläge kring stödsystem för hastighets– anpassning Sista sekunden Anders Lie, Trafikverket.
Diskreta, deterministiska system Projekt 1.2; Vildkatt
FK2002,FK2004 Föreläsning 2.
Ladfors, mars 2015 Induktion 13e Mars Ladfors, mars 2015 Reklampaus: Jönköping augusti 2015 Bl.a. Induktions symposium.
Aktionsforskning Harriet Axelsson Teacher Professionalism Content Knowledge Perspectives on Content (science history, theory and education)
Skriftlig individuell uppgift Interaktionsdesign i digitala medier (A.1) HT-2012, 7,5 hp Lärare: Daniel Nylén.
Daniel Nylén, Institutionen för Informatik Organisation 2 C.1 Systemdesign.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Hjälper huvudverbet att ange tid eller modalitet
Statsvetenskap 3, statsvetenskapliga metoder
Förr och nu Från innan GCP till Business Compliance Peter Jansson, AstraZeneca.
Anläggnings- & vägmodeller
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Skriv en kort uppsats med rubriken
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
A Lean House –way of describing a Lean system
Diskret stokasticitet Projekt 2.3, Talltita
Mål Matematiska modeller Biologi/Kemi Statistik Datorer
Professionalism and ethics Basic concepts. SWEBOK on a Profession  Professional education, validated through accreditiation  Certification or licensing.
 Who frågar efter en persons (eller personers) identitet (vem dem är).  Who is he?  Who are they?  Who is coming?
To practise speaking English for 3-4 minutes Genom undervisningen i ämnet engelska ska eleverna ges förutsättningar att utveckla sin förmåga att: formulera.
© Gunnar Wettergren1 IV1021 Project models Gunnar Wettergren
1-1 Copyright © 2009 Pearson Education, Inc. Publishing as Pearson Addison-Wesley 1-1 Programmering 7.5 hp Programmering är... creativ, fascinerande, roligt,
Reliabilitet och Validitet
CHI-TSONG CHEN KAPITEL 2- Systems Kortfattade läsanvisningar Läs hela kapitlet utom 2.9 och 2.10.
Lab Contact 1  Lab Assistants:  Meng Liu, Group B  Sara Abbaspour, Group A
UMEÅ UNIVERSITET Institutionen för beteendevetenskapliga mätningar Val av frågeformat Uppgifter i prov och test Skal-/enkätfrågor.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
Skolledardagen Platsen var Birger Jarl i Stockholm Jag var där och Eva-Lis Sirén Men även Ann-Marie Begler, GD Skolinspektionen Hennes råd till.
STEPS TO FOLLOW FOR BECOMING A SHIP CAPTAIN A career as a ship captain can be a tedious task. Ship captains take care of business, navigation and operation.
SAFETY EQUIPMENT USED IN MARITIMEOPERATIONS One of the most important sections in maritime courses consists of boat and ship operations. Safety is an important.
Metodik inom klinisk läkemedelsprövning och biostatistik Catrin Wessman & Michael Ashton.
Advice from Bronx Best Real Estate Attorney. Jagiani Law office of New York has been successfully working as divorce attorney & Real estate attorney for.
Digitization and Management Consulting
Why you should consider hiring a real estate attorney!
Law abiding grounds of filing a divorce Jagianilaw.com.
Types of Business Consulting Services Cornerstoneorg.com.
Tennis as they see it Research on attitudes to tennis of junior tennis players through gender perspective.
Mathematics 1 /Matematik 1
Bringapillow.com. Online Dating- A great way to find your love! The words ‘Love’ and ‘Relationship’ are close to every heart. Indeed, they are beautiful!
Work of a Family law attorney Jagianilaw.com. A Family Law Attorney basically covers a wide range spectrum of issues that a family may face with difficulty.
Meeting singles had never been so easy before. The growing dating sites for singles have given a totally new approach to getting into relationships. ‘Singles.
My role model.
Svarsfrekvensen i undersökningar från webbpaneler. Några resultat
Pearlleady.com Attractive Graduation and Wedding Gifts Online.
How to Buy Engagement Rings for Women Online?. Buying engagement rings for women or tiffany celebration rings from the online market could be a bit challenging.
You Must Take Marriage Advice to Stop Divorce! Dontgetdivorced.com.
Practice and challenges in involving fathers
Vad gör jag om jag vill forska med SPORs data?
مینا نوروزی راد – محمد آرشی
Accounts + SD = ♥? SD indicators generated from an integrated statistical account New report financed by Eurostat, DG Environment and Statistics Sweden.
Grundläggande begrepp
Publish your presentations online we present SLIDEPLAYER.SI.
Publish your presentations online we present SLIDEPLAYER.RS.
Presentationens avskrift:

Introduction to statistical analysis Nina Santavirta

Kursens uppläggning

Forskningsmetodik

Undersökningens planering Är A & O! Bestäm vilken är din “outcome” variabel, dvs vad är det fenomen du väljer att titta på? Beroende vs oberoende variabler (utgående från intuition, erfarenhet, tidigare forskning) Bestäm bakgrundsvariablerna (utgående från intuition, erfarenhet, tidigare forskning) Sätt upp en modell av sambanden mellan variablerna Keep it simple!

Undersökningens uppläggning Tvärsnittsforskning Kohortundersökningar Fall-kontrollundersökningar

Tvärsnittsforskning Forskaren tar ett “tvärsnitt” ur populationen vid tidpunkt t1 och drar sina slutsatser på basen av dessa resultat Lämpar sig bäst vid forskning vars avsikt är att kartlägga, fastlägga interaktion Kausaliteter kan inte fastställas “Jämförelsegrupp” (ex. åldrande arbetstagare)

Longitudiella undersökningar För att kunna fastställa kausalförhållanden följer man upp sitt sampel under en längre tidsperiod och gör upprepade mätningar vid t1, t2 och t3. Risk: bortfall

Forskningsdesign, kohort studie Friska Insjuknade Exponerade Ej exponerade

En kohortundersökning utgår från exponerade och oexponerade individer som jämförs med avseende på sjukdomsförekomst (eller någon annan funktionsstörning jämförbar med sjukdom). t.ex. lärarundersökning var den exponerade gruppen permitterad och den oexponerade gruppen inte permitterad. Avsikten med gruppen oexponerade individer, jämförelsegruppen, är att den skall ge information om den sjuklighet som skulle förväntas i den exponerade gruppen om exponeringen vore utan betydelse för sjukdomsförekomsten.

Jämförelsegrupperna Jämförelsegruppen bör väljas så att den liknar den exponerade gruppen med avseende på så många riskindikatorer som möjligt, utom på den studerade exponeringen. Intern jämförelse Extern jämförelse Jämförelse med hela populationen

Confounding Confounding uppstår om någon annan riskfaktor än den studerade exponeringen (ex. permittering) skiljer sig mellan grupperna. Ett sätt att tackla detta är stratifiering. alkohol konsumption CVD tobaksrökning

Fall-kontroll studie

Den relativa risken RR=(53/43) (53/85) = 2 Fall-kontroll studie Den relativa risken RR=(53/43) (53/85) = 2

Kontroller Slumpmässigt urval av befolkningen T.ex. patienter ur samma upptagningsområde som fallen utgör

Instrumentkonstruktion

Operationalisering Om man mäter t.ex blodtryck definieras t.ex. begreppet “lågt blodtryck” i < 100 mm/hg När man skall “mäta” teoretiska konstrukt såsom lidande, depression, livskvalitet, commitment etc uppstår problem. Man måste operationalisera sina begrepp, dvs bryta ner dem i “mätbara” enheter.

Den teoretiska bakgrunden Internal Commitment External

Operationalisering Commitment meningsfullhet Internal motivation prioritet Commitment tid External resurser frekvens

Att insamla data med hjälp av olika mätinstrument attitudes personality job satisfaction job commitment job demands The individual job control social support quality of life somatic symptoms blood pressure Standardiserade test Självkonstruerade test

Viktiga grundbegrepp Item (påstående), “osion hyvyys tai heikkous riippuu sananvalintojen selkeydestä” Skala (mätenhet) Instrument (består av många item), standardiserade eller självkonstruerade Latent variabel (bildar instrument)

Standardiserade test Tillstånd att använda, dvs copyright Kodnyckeln Översättning och kulturdifferenser Håll dig till det ursprungliga instrumentet

Självkonstruerade test Fråga enkelt och klart Endast en sak per fråga Försök planera frågorna så att du får varians i svaren Fråga inte samma sak om igen Undvik påståenden som är absoluta Variera positiva och negativa så att skalan inte alltid går i samma riktning, OBS! dessa bör rekodas före analysen! Blanda påståendena i ett instrument slumpmässigt Strukturera frågeformuläret enligt teman Se till att formuläret är attraktivt

Skalor Likert-skalan (5-gradig: stämmer absolut, stämmer, vet ej, stämmer inte, stämmer absolut inte; instämmer, av samma åsikt...) Tidsskala: (ständigt, ofta, ibland, sällan, aldrig) Visual Analogue Scale (VAS): 10 cm sträcka som anges med kryss, ingen numrering x inte alls ambitiös mycket ambitiös

Goda råd fråga inte ålder, fråga födelseår planera helhet, svåra frågor först eller sist korta, klara svarsinstruktioner koda varje formulär berätta inte nödvändigtvis vad du är ute efter uttryck ett tack i slutet av formuläret numrera sidorna planera insamlingsförfarandet i detalj beräkna realistisk budget planera tidpunkten för datainsamling

Följebrevet Tonen skall vara saklig, vänlig och personlig Rikta dig till adressanten: Bästa sjukvårdare, Bästa patient Kort inledning Presentera dig själv Presentera din forskning och dess huvudsyfte Poängtera vikten av deltagande Ange tidsram Ange procedur Berätta varifrån adressantens adress erhållits Skriftligt medgivande Beskriv hur du planerar konfidentialitet Beskriv var/hur resultaten publiceras Tacka och undteckna med kontaktuppgifter för information

Content of the course Organization and presentation of data Measurement scales Univariate analysis Descriptive statistics The central tendency Variability Normal curve and z-scores Confidence interval

Statistical inference. Role of chance. Formulate hypotheses Collect data to test hypotheses

Statistical inference. Role of chance. Systematic error Formulate hypotheses Collect data to test hypotheses C H A N C E Accept hypothesis Reject hypothesis Random error (chance) can be controlled by statistical significance or by confidence interval

Organization and presentation of data learning objectives: to define measurement scales for the variables to construct frequency tables to interpret data presented in graphs

Measurement scales Nominal scales (categorical or qualitative) Classification of peoples or objects into categories Ordinal scales (ordered categories) The characteristics can be put in ordered categories Interval scales (continues or discrete) The distances between the values are equal, but the zero point is arbitrary chosen Ratio scales The distances between the values are equal, but the zero point is determined by nature

Measurement scales. Examples Nominal scales sex: 1=male; 2=female marital status: 1=single; 2=married; 3=divorced

Measurement scales. Examples Ordinal scales socioeconomic status: 1=worker 2=blue collar 3=white collar pain severity: 1=mild; 2=moderate; 3=severe attitude scale: 1=strongly agree; 2=agree; 3=neutral; 4=disagree; 5=strongly disagree

Measurement scales. Examples Interval scales temperature: Celsius temperature scale pain intensity measured by VAS: 0=no pain; 10cm=severe pain

Measurement scales. Examples Ratio scales temperature: Kelvin temperature scale (zero represents the absence of molecular motion) age: in years (0-???), in months (0-????) height: in cm (40-270), in m (0.4-2.7)

Measurement scales Nominal scales controlled, uncontrolled Ordinal scales low, normal, high Interval scales , Ratio scales by sphygmomanometer diastolic blood pressure

Variable classification

Variable classification. Example Effect of a lactation nurse on the success of breast feeding: a randomized controlled trial. (Jones DA, West RR. J Epidemiol Commun Health, 1986, 40, 45-49). The objectives of the trial: to assess the effect of the lactation nurse on attitudes towards breast feeding, problems encountered in breast feeding, and on how long the mother continued to breast feed before weaning (measured in completed weeks). The experimental group -the women who received assistance from the lactation nurse; the control group- the rest. (a) What response variables would you record? What kinds of variable are these? How would you code them? (b) What explanatory variables would you record? What kinds are these? How would you code them?

Variable classification. Example What response variables would you record? attitudes towards breast feeding problems encountered in breast feeding duration of breast feeding What explanatory variables would you record? assistance or support from the lactation nurse practical advice + theoretical knowledge What kinds of variable are these? How would you code them?

Univariate analysis cleaning and checking the quality of data examining the variability of data describing the sample checking statistical assumption prior to more complex analysis

Univariate analysis Cleaning and checking the quality of data organizing data into values or categories checking the possible values or categories

Univariate analysis. Tables tabulating data into frequency distribution by counting how frequently each value or category occurs “Getting information from a table is like extracting sunlight from a cucumber”

Tabeller Tabell Frekvenstabell Kumulativ frekvenstabell N och 

Univariate analysis. Graphs Most effective way to describe, explore and summarize a set of numbers bar graph pie histogram

Bar graph Presentation of nominal and ordinal data Percent of cases 96 % 100% 80 60 Percent of cases 40 20 4 % male female

Cirkeldiagram

Histogram Presentation of interval and ratio variables Frequency 50 Frequency 40 30 20 10 22.5 27.5 32.5 37.5 42.5 47.5 52.5 57.5 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 Age in years

Histogram Frequency Age groups 80 70 60 50 40 30 20 10 1.0 2.0 3.0 4.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 Age groups

Graphs Characteristics of good graph: accuracy simplicity clarity appearance well-designed structure

Descriptive statistics learning objectives: to define appropriate summary measure for common type of scales to present summary data in simple table or graphical form

Descriptive statistics Population Parameters Sample Statistics

Descriptive statistics Basic characteristics of a distribution: central tendency variability skewness kurtosis

Descriptive statistics Measures of central tendency Measurement scales Central tendency measurement mean Interval/ Ratio scales Ordinal scales median Nominal scales mode

Descriptive statistics Mean arithmetic mean locates the center of gravity of a distribution xi - observations, i= 1, 2, 3,… n, n - number of observations

Medelvärdet vid frekvenstabell Vid frekvenstabell f  x

Geomertiskt medelvärde GM är inte känsligt för extremvärden och används t.ex. i medicinsk forskningVid beräkning av GM logaritmerar man först observationsvärden, dividerar summan med n. Det värde som vi får genom denna uträkning är på logaritmskala och för att få det geometriska medelvärdet GM måste vi göra en antilogaritmering (10logGM)

Descriptive statistics Median, Mode Median is middle of a set of ordered numbers 50% of the data are below the median and 50% of the data are above median Mode is the most frequent value or category Example 1. observations: 61, 70, 70, 74, 85, 97, 104, 112, 125 rank (order): 1, 2, 3, 4, 5 , 6, 7, 8, 9 median: 85 mode: 70

Descriptive statistics Median Example 2. observations: 61, 70, 70, 74, 85, 97, 104, 112, 125, 132 rank (order): 1, 2, 3, 4, 5 , 6, 7, 8, 9, 10 median: (85+97)/2= 91

Comparison of measures of central tendency Mode Median Mean

Comparison of measures of central tendency Mean is the most common measure of central tendency the most trustworthy estimate of a population average serves best when used with distributions that are reasonably symmetrical and have one mode Median is nonalgebraic not sensitive to extreme values may be used with distributions of any shape especially useful with very skewed skewed

Interval/ Ratio scales Descriptive statistics Measures of variability Measurement scales Variability measurement Interval/ Ratio scales standard deviation Ordinal scales range Nominal scales interquartile range

Measures of variability Standard deviation (SD) n-1 is degree of freedom

Standardavvikelse vid frekvenstabell Vid frekvenstabell f  parentesen

Measures of variability Standard deviation Mean Two frequency distribution with equal mean, but different variabilities.

Measures of variability Interquartile range (IQR) IQR = Q3 - Q1 75 th percentile 25 th percentile Example. Data from table 1. IQR= 14.0

Measures of variability Range difference between the most extreme values simplest measure of variability quick estimate of variability sensitive to very extreme values

Comparison of measures of variability SD - the most widely reported measure of variability - serves best with distributions that are symmetric and have one mode - cannot be used when the distribution has very extreme values

Comparison of measures of variability IQR - easy to understand - can be used with distributions of any shape, but are especially useful with very skewed distribution Range - quick, rough estimates of variability - to call attention to two extreme values of a distribution

Descriptive statistics Measures of skewness or symmetry Positively skewed Negatively skewed Mode Median Mean Mode

Descriptive statistics Measures of kurtosis or peakedness indicates whether a distribution has the right bell-shape measures whether the bell-shape is too flat or too peak kurtosis value >0 - distribution is too peaked kurtosis value <0 - distribution is too flat

Descriptive statistics Graphical presentation Error Bar 44 42 40 95% CI AGE 38 36 34 32 30 N = 15 337 male female SEX mean

Descriptive statistics Graphical presentation Extreme outlier Box Plot Minor outliers Largest value which is not outlier 75th percentile 50th percentile (median) 25th percentile Smallest value which is not outlier

Descriptive statistics Outliers Source of an outlier: an error in the recording data an error of data collection an actual extreme value from an unusual subject Exclude the cases with outlier values Keep the cases with outlier values Calculate trimmed mean

Begreppet sannolikhet Med sannolikhet avses ‘den relativa frekvensen i långa loppet’. Ex.: Sannolikheten att få krona P(H)=0.5 betyder att vi väntar oss att i det långa loppet få krona vid hälften av kasten. Sannolikheten kan anta värden mellan 0-1: 0P(A) 1 Sannolikheten för en händelse är alltid ett tal mellan 0 och 1. För en säker händelse är sannolikheten 1.

Begreppet sannolikhet Sannolikheten för att A eller B inträffar (A och B utesluter ömsesidigt varandra)? P(A eller B) = P(A) + P(B) Sannolikheten att A eller B inträffar? P(A eller B) = P(A) + P(B) - P(A och B)

Begreppet sannolikhet Sannolikheten att A och B inträffar om händelserna är oberoende av varandra? P(A och B) = P(A)  P(B)

Begreppet sannolikhet Låt oss anta att av alla unga flickor i Finland har 3% ätstörningar . Om vi upprepade gånger väljer en individ slumpmässigt ur denna grupp så väntar vi oss i det långa loppet att välja en person med ätstörningar i 3% av fallen. Från denna befolkning väljer vi två personer slumpmässigt och oberoende av varandra. Vilken är sannolikheten att båda har ätstörningar?

Begreppet sannolikhet P(A och B) = P(A)  P(B) = 0.03  0.03 = 0.0009 Vilken är sannolikheten att exakt en av personerna har ätstörningar (= sannolikheten att välja en person med ätstörningar är 3% och sannolikheten att välja en som inte har är 100 - 3 dvs 97%)? P(exakt en har ätstörningar)=(0.030.97) 2=0.0582 Vi multiplicerar med två för att händelsen kan inträffa på två sätt, antingen har person 1 ätstörningar och person två inte, eller så har person 1 inte men person två har.

Begreppet sannolikhet Vilken är sannolikheten att ingen i urvalet har ätstörningar? P(Ingen i urvalet har ätstörningar)=0.970.97=0.940 Vilken är sannolikheten att åtminstone en av individerna har ätstörningar (antingen den ena eller den andra eller båda)? P(A eller B) = P(A) + P(B) - P(A och B) = 0.03 + 0.03 - 0.0009 = 0.0591

Begreppet sannolikhet Vilken är sannolikheten för att högst en har ätstörningar (sannolikheten att exakt en har eller att ingen har)? P(Högst en har ätstörningar) = 0.0582+0.9991=0.9991

Olika fördelningar Binomfördelningen Utfallet i ett slumpmässigt försök som antingen “lyckas” eller ej t.ex.: vi har en befolkning där 3% har diabetes. Vi väljer 5 personer ur denna befolkning. Vilken är sannolikheten att observera en med diabetes? På hur många sätt kan vi välja en person med diabetes ur befolkningen?

Binomfördelningens formel för x=0, 1, 2 etc. där n! beräknas n(n-1)(n-2)…1 Definition av 0! = 1

0.031 x 0.974 =0.03 x 0.97 x 0.97 x 0.97 x 0.97

Poissonfördelningen Vi tänker oss att vi har händelser som kan inträffa när som helst under under ett tidsintervall. Sannolikheten för en händelse inom ett tidsintervall. Sannolikheten för en händelse inom ett tidsintervall är proportionell mot tidsintervallets längd och oberoende av antalet tidigare händelser samt av tiden som gått från föregående händelse. I denna situation är antalet inträffade händelser en Poissonfördelad stokastisk variabel.

Sannolikhetsfunktionen för Poissonfördelningen

Exempel: Vi planerar en undersökning av insjuknande i malignt melanom bland finska män i åldern 50-54 år. I undersökningen följer vi 10 000 män under ett år. Vi studerar sjukdomsförekomsten genom att beräkna incidenstalet. Från det nationella cancerregistret vet vi att det bland män i åldern 50-54 år i Finland insjuknar 25 individer per 100 000 personer och år i malignt melanom. Vi kan beräkna Poissonfördelningens parameter m genom att multiplicera denna insjuknandefrekvens med den sammanlagda persontiden i undersökningen, dvs m=0.00025x10 000=2.5

Vi börjar med att beräkna sannolikheten att inte observera något fall i studien

Sannolikheten att observera ett fall av malignt melanom under ett år bland män i ålder 50-54 år.

Sannolikheten att observera två fall av malignt melanom under ett år bland män i ålder 50-54 år.

Den normalfördelade kurvan

Den normalfördelade kurvan

Normal distribution IQ-skala:=100, sd=15 34% 34% 14% 14% 2% 2% z -3.0z -2.0z -1.0z 0.0 1.0z 2.0z 3.0z IQ-skala 55 70 85 100 115 130 145

Normal distribution 34% 34% 14% 14% 2% 2% z -3.0z -2.0z -1.0z 0.0 1.0z 2.0z 3.0z

Standardiserade z-poäng Ex.: I ett normalfördelat material var medelvärdet =30 och standardavvikelsen sd=4. Om man slumpmässigt väljer ut en person, vilken är sannolikheten att hans/hennes värde är 25 eller mera? 22 26 30 34 38

P(A) = smaller area = 0.105 P(B) = larger area = 0.895 Svar: sannolikheten är 0.89 eller 89%

Att analysera proportioner Mått på sjukdomsförekomst eller med förekomst på sjukdom jämförbara funktionsstörningar I en kampanj vars avsikt var att uppmuntra människor att använda flytväst gavs följande epidemioligiska data: Av 125 drunknade på ett år , använde endast 11 flytväst, medan 114 inte använde. Denna jämförelse innehåller två absoluta nummer av fall men storleken på de två populationer som gav upphov till drunkningarna dvs de som hade flytväst vs de som inte hade nämns inte . Den observerade diskrepansen kan likväl reflektera att mängden människor som använder flytvest är liten i jämförelse med dem som inte använder.

Att analysera proportioner Mått på förekomst av sjukdom eller motsvarande funktionsstörning skall i allmänhet vara oberoende av populationsstorleken dvs antale sjuka bör anges i relation till hela populationen. Det finns tre mått på förekomsten av sjukdom/funktionsstörning: prevalens kumulativ incidens incidens

Prevalens Prevalens (anger proportion, antar alltid värden mellan 0-1)

Ett sampel på 1038 barn i åldern 10-12 år var randomiserat uttaget ur populatinen i stor-Helsingfors. Vid en undersökning framkom att 70 diagnosticerades med läs- och skrivsvårigheter. Förekomsten av läs- och skrivsvårigheter hos barn i åldern 10-12 i storstadsområdet är då:

Kumulativ incidens Kumulativ incidens anger andelen av individer som vid en bestämd tidsperiods början var friska men som insjuknar under periodens gång

Kumulativ incidens Ex: Det svenska befolkningsregistret från 1960 visade att 3076 män i ålder 20-64 var anställda inom plastik branschen. Enligt Sveriges cancerregister insjuknade 11 av dem i hjärncancer under perioden 1961-1973. Den kumulativa incidensen under denna period på 13 år är:

Incidens Incidensen utgör det egentliga talet på sjukdomsförekomst (measures force of morbidity). Nämnaren utgörs av personår som tar i beaktande att personer kan tillkomma till en population eller falla bort och observationstiden tas i beaktande per person.

Mellan åren 1970-1973 fann man 29 fall av hjärtinfarkt bland män i åldersgruppen 40-44 år i Stockholm. Personårsantalet var 41 532. incidensen blev sålunda:

Om att ställa diagnos Symptom - subjektiva, erfars endast av personen som har symptomen Tecken - går att observera för utomstående Test - ”objektiva” mätinstrument, mera eller minder tillförlitliga Viktigt vid ställande av diagnos är att testet har reliabilitet validitet

Sensitivitet och specifitet klassifierade som sjuka populationen sjuka sjuka klassi- fierade som friska (falska negativa) friska, klassi- fierade som sjuka (falska positiva) sjuka, klassifierade som sjuka

Sensitivitet och specifitet klassifierade som elever med ADHD populationen elever med ADHD elever med ADHD klassi- fierade som friska (falska negativa) friska, klassi- fierade som elever med ADHD (falska positiva) elever med ADHD, klassifierade som elever med ADHD

Sensitivitet och specifitet antalet sjuka individer som klassifierats som sjuka _____________________________________ totala antalet sjuka sensitivitet = antalet friska individer som klassifierats som friska _______________________________ totala antalet friska specifitet =

Forskningsdesign, kohort studie Friska Insjuknade Exponerade Ej exponerade

Forskningsdesign, fall-kontroll studie Friska Insjuknade Exponerade Ej exponerade Kontroll- personer Fall

Odds ratio and relative risk

Probabilities Probability of low birth weight (LBW) with no prenatal care LBW no prenatal care Probability of normal birth weight with no prenatal care normal weight no prenatal care

Probabilities Probabilities Probability of low birth weight (LBW) with prenatal care LBW prenatal care Probability of normal birth weight with prenatal care normal weight prenatal care

Odds Odds of low birth weight, when no prenatal care probability of occurrence ----------------------------- probability of nonoccurrence Odds of LWB infant, with prenatal care probability of occurrence ----------------------------- probability of nonoccurrence

Odds Ratio Ratio of one probability to the other The odds of having a low birth infant are almost four times greater when the woman has no prenatal care

A risk is the the number of occurrence out of the total. Odds ratios are used to estimate what epidemiologists call relative risk (RR). A risk is the the number of occurrence out of the total. LBW without prenatal care LBW with prenatal care

Relative Risk Relative risk is the risk given one condition versus the risk given another condition. The odds ratio is at least equal to relative risk but often overestimates it The relative risk is three times higher to have a LBW infant for women with no prenatal care

Statistical estimation Every member of the population has the same chance of being selected in the sample Population Parameters Random sample estimation Statistics

Den normalfördelade kurvan POPULATIONEN ?

Den normalfördelade kurvan SEM  ?

Point estimation and interval estimation learning objectives: to understand the relationship between point estimation and interval estimation to calculate and interpret the confidence interval

Statistical estimation Estimate Point estimate Interval estimate sample mean sample proportion confidence interval for mean confidence interval for proportion Point estimate is always within the interval estimate

Interval estimation Confidence interval (CI) provide us with a range of values that we belive, with a given level of confidence, containes a true value CI for the population means

Confidence interval (CI) De oftast använda risknivåerna är 5%, 1% och 0.1% med motsvarande konfidensintervall på 95%, 99% och 99.9%. Motsvarande z-poäng blir då 1.96, 2.58 och 3.29.

Interval estimation Confidence interval (CI) 34% 34% 14% 14% 2% 2% z -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 -1.96 2.58 -2.58 1.96

Interval estimation Confidence interval (CI), interpretation and example Age in years 60.0 57.5 55.0 52.5 50.0 47.5 45.0 42.5 40.0 37.5 35.0 32.5 30.0 27.5 25.0 22.5 Frequency 50 40 30 20 10 x= 41.0, SD= 8.7, SEM=0.46, 95% CI (40.0, 42), 99%CI (39.7, 42.1)

Konfidensintervall för procent Konfidensintervall för procent beräknas enligt samma princip som för medelvärde. SEM ersätts med “SEP” (standard error of percent) som beräknas enligt: Q = 100 - P

Konfidensintervall för korrelationskoefficient

Övningsexempel Vi har ett sampel på 30 personer som genomgått test i logiskt tänkande. Medelvärdet blev  = 34.97 och standardavvikelsen sd= 1.83. Beräkna 95%, 99% och 99.9% CI. CI.95 = 34.97  1.96 x 0.34 = 34.30  35.64 CI.99 = 34.97  2.58 x 0.34 = 34.09  35.85 CI.999 = 34.97  3.29 x 0.34 = 33.85  36.09

Övningsexempel I en klass på 30 elever ägde 30% en PC. Beräkna 95% CI. CI.95 = 30  1.96 x 8.37 = 13.59  46.41

Correlation Correlational techiques are used to study relationships A relationship between two variables means that changes in the value of one variable leads to changes in the values of the other variable To judge the strength of the relationship, one must consider the actual value of the correlation coefficient and the associated p value

Assumptions normally distributed variables homoscedasticity, for every value of x, the distribution of y-scores must have approximately equal variability the relationship between x and y must be linear

The correlation coefficient, r the coefficient can take values between -1 and +1 the value of the coefficient measures the strength of the relationship the sign (+ or -) indicates the direction of the relationship

a negative relationship Scatterdiagram a negative relationship a positive relationship

Formula for Pearson r r =

Example

r =

r = r = r = 0.8396

Meaning of r The coefficient of determination, r2, is used as a measure of the meaningfulness of r. This is a measure of the amount of variance the two variables share. X Y The overlapping area indicates the shared variance of variable X and Y. This area can be determined by squaring the correlation coefficient r = 0.20, r2 = 0.04 which means that the independent variable, X, accounts for 4% of the variance of the dependent variable Y.

Partial correlation (r12.3 ) Partial correlation is used to control variance that will distract or mislead us? hours of study grades intelligence correlation between hours of study (1) and grades (2) was found negative; after controlling for intelligence (3) it was found positive intelligence was a confounder, correlated to both X and Y

Multiple correlation, R Multiple correlation is a technique for measuring the relationship between a dependent variable and a weighted combination of independent variables. The multiple correlation, R, can go from 0 to 1. When reporting R the squared coefficient R2 is rather presented. R2 is the amount of variance accounted for in the dependent variable by the combination of independent variables.

Multiple correlation, R2 Consider the following situation: Y r=0.30 r=0.40 X2 X1 There is no overlap between X1 and X2. R2 = 0.25 (0.402 + 0.302)

Multiple correlation, R2 Y X1 X2 In this case, there is correlation between X1 and X2, and if you add the squared correlation of X2 with Y, you would add in the cross- hatched area twice