Repetitionsföreläsning

Slides:



Advertisements
Liknande presentationer
Rör vi oss? Det beror på vad vi jämför oss med.
Advertisements

Uppgifter/Läxa Lös uppgifterna: 120, 121, 123, 125, 126, 128, 130, 133, 142, 144, 145.
Hud & hudsjukdomar Fredrik Hieronymus.
Behandlas under 4 kursträffar i mineralmuseet
Administration Distribution Metabolism Exkretion
Kap. 3 Derivator och Integraler
Kapitel 3 Sannolikhet och statistik
Kap. 3 Derivator och Integraler
Sol i Syd Projektdagen 2017 Region Blekinge
SP Sveriges Tekniska Forskningsinstitut
KONJUNKTURINSTITUTET
KPP053, HT2016 MATLAB, Föreläsning 2
Praktiska grejer Lärare: Erik Ramm-Schmidt Läxorna finns på Wilma
Kapitel 1 Algebra och linjära modeller manada.se.
Kursintroduktion Brukarorienterad design
Kapitel 2 Förändringshastigheter och derivator manada.se.
Behandlas under 4 kursträffar i mineralmuseet mars-april 2017
Sällsynta jordartsmetaller
GEOGRAFI.
Så tycker de äldre om äldreomsorgen 2016
Men kolla bildspelet vecka 18 först
Nordiska Lärarorganisationers Samråd
Arbetsgrupp ”Hat och hot mot förtroendevalda”
Är en radikal omställning till hållbar konsumtion möjlig och hur påverkar det våra möjligheter till välbefinnande? Jörgen Larsson Assistant professor in.
X Avrundning och överslagsräkning
Välkommen till.
ULA Kompetenscenter - en del av TPY
VISBY IBKs FÖRENINGSTRÄD
Styrelsen i stallet vecka 20
Framgångsfaktorer för en global projektverksamhet
Gotlands energieffektiviseringsnätverk
Medelhavsbuffé 11/ Bildkavalkad.
Nya regler om energi i BBR
Sannolikhet och statistik
Lagen om Energikartläggning i stora företag
Växtekologisk orienteringskurs
Tularemi.
Information till primärvården Herman Nilsson-Ehle Catharina Lewerin
Inför avtalsrörelsen 2016 Lars Calmfors
Lagen om Energikartläggning i stora företag
KPP053, HT2016 MATLAB, Föreläsning 3
Lars Calmfors Föreläsning 2 för Riksrevisionen 25/2-2016
Fosfor från Östersjöns djupbottnar är problemet
Täthet hos flänsförband mellan stora polyetenrör och ventiler
Arbetsbeskrivning Sportkommittén
Dagens ämnen Matriser Räkneoperationer och räknelagar
Mellankrigstiden
Ledarutveckling över gränserna
Regiongemensam enkät i förskola och familjedaghem 2016
Hur får vi fler att söka till Teknikcollege ?
det är den här processen
Uppföljning av år 2016 HFS-nätverket
BILDSPEL ABISKO, ev. YOUTUBE KLIPP
Visit Karlskoga Degerfors
Vårdprevention - en introduktion för medarbetare på sjukhus
Trygg, säker och samordnad vård- och omsorgsprocess
Föräldraenkät 2017 Förskola
BYGDSAM Anundsjö Grundsunda BLT Nätra.
Nyheter i tredje upplagan av Handbok Riskanalys och Händelseanalys
Så här säljer du med SMS.
Finansiell samordning
Arbetsmarknadsutsikterna hösten 2016
Dagläger MTB i Högbobruk
Sportlovsläger 9-12 feb Årshjulet med läger på skolloven börjar med ett dagläger för våra tävlingsgymnaster Vi hälsar alla gymnasterna i S- och R-ben samt.
Medlemsinfo Tenhults IF
Välkommen till vårt Öppet Hus, SeniorNet Huddinge
Fortum: Lars Modigh Agneta Molinder Synovate Temo: Gun Pettersson
Attraktiv Hemtjänst Introduktion i att utvärdera hemtjänst
Presentation av verksamhetsplan
20% rabatt (På ordinarie priser)
Presentationens avskrift:

Repetitionsföreläsning

Population / Urval / Inferens Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning och mäter den tid det tar innan byxorna går sönder. Populationen är alla byxor som företaget tillverkar och kommer att tillverka av denna modell. Urvalet är de 100 par man väljer att testa Inferens handlar om hur man med hjälp av information från ett urval kan dra slutsatser om populationen.

Nominalskala Innehåller minst information En variabel kan mätas på 4 olika typer av skalor, som har en inbördes rangordning utifrån hur mycket information vi har tillgång till: Nominalskala Innehåller minst information Ordinalskala De olika utfallen kan rangordnas Intervallskala De olika utfallen kan rangordnas och avståndet mellan utfallen har en innebörd. Kvotskala De olika utfallen kan rangordnas, avståndet mellan utfallen har en innebörd och noll betyder avsaknad av egenskapen. Skaltypen avgör vilka beräkningar, diagram och statistiska test som vi kan använda. Vi kan alltid använda en metod som är avsedd för en lägre skaltyp men aldrig en metod som är avsedd för en högre skaltyp. Oftast är det dock ett sämre alternativ att välja en metod som är avsedd för en lägre skaltyp.

Skaltyp Test av Test metod Test av en hypotes om att en variabel i en population har ett visst medelvärde, eller att en variabel i en population har en viss fördelning. I dessa tester har vi enbart en variabel. Skaltyp Test av Test metod Intervallskala eller kvotskala Medelvärde Hypotestest på medelvärde från en population Ordinalskala eller nominalskala Andel som har ett visst utfall Hypotestest på andel från en population Fördelning över variabelns alla utfall Chi 2 Men i de här fallen är det oftast bättre att göra konfidensintervall.

Skaltyp Test av Test metod Test av en hypotes om vilken av två variabler i en population som är störst, test av beroende urval. (Vi har en grupp och jämför två variabler i den gruppen, för varje individ har vi då två utfall och kan beräkna differensen mellan dem) Skaltyp Test av Test metod Intervallskala eller kvotskala Medelvärde av differenser t-test på beroende urval Ordinalskala Vilket tecken som har störst rangsumma Wilcoxons teckenrangtest Vilket tecken har flest observationer teckentest

Testerna på föregående 2 slide är i första hand deskriptiva test Testerna på föregående 2 slide är i första hand deskriptiva test. Vi testar om en variabel i en population ser ut på ett visst sätt eller vilken av två variabler som är störst. (Testerna om vilken variabel som är störst kan dock användas för att undersöka samband, exempelvis om de båda variablerna är hälsotillstånd före respektive efter en behandling. Vi ska nu övergå till analytiska test, finns det ett samband mellan två variabler. Om den ena av dessa båda variabler är en variabel mätt på nominalskala, kan vi använda den för att dela in populationen i två eller flera grupper och se om dessa avviker från varandra med avseende på den andra variabeln. På nästa slide sammanfattas de olika tester vi har för att jämföra olika grupper. Vi kan dela in grupperna med hjälp av en variabel som är mätt på nominalskala.

Att jämföra oberoende urval/populationer Flera populationer Nominalskala Hypotestest på andelar från två populationer, Chi 2 i korstabell Ordinalskala Wilcoxon rangsummetest Kruska Wallis Kvotskala Hypotesttest på medelvärde och/eller varians från två populationer ANOVA testet

Att undersöka samband mellan två variabler mätta på ordinalskala: Om vi vill testa om två variabler har ett samband där båda variablerna mäts på minst ordinalskala kan vi använda spearmans korrelationskoefficient för att mäta styrkan i sambandet. Dock fångas enbart linjära samband av korrelationskoefficienter. I det här fallet kan vi också klassindela den ena variabeln, använda den för att dela in materialet i grupper och göra en Kruska Wallis. Det är en svagare test i den meningen att vi inte utnyttjar informationen om att utfallen kan rangordnas på den variabel vi använder till gruppindelning. Men vi kan fånga icke linjära samband och vi får resultaten redovisat per grupp. Vi kan också klassindela båda variablerna och använda chi2 i korstabell. Testen blir ännu svagare men vi får frekvenserna redoisade parvis för variablerna. Dessa tre tester kan komplettera varandra.

Att undersöka samband mellan två variabler mätta på intervall eller kvotskala. Om vi vill testa om två variabler har ett samband där båda variablerna mäts på minst intervallskala kan vi använda pearssons korrelationskoefficient för att mäta styrkan i sambandet. Om vi kan utesluta en kausal påverkan i en av riktningarna, dvs om vi kan hävda att den ena variabeln är oberoende av den andra och därmed säga att det är den beroende variabeln som beror av oberoende kan vi beräkna hur stor den kausala effekten är genom att beräkna en regressionskoefficient. Men hjälp av en multipel regressionsmodell kan vi beräkna storleken på den kausala effekten från var och en av de oberoende variablerna givet att övriga oberoende variabler är oförändrade. Detta är vår ”kaxigaste” metod. Vi säger inte enbart att det finns ett samband utan beräknar också storleken på kausala effekter. Därmed behöver vi starka antaganden som ska vara uppfyllda och intervall eller kvotskala på variablerna. (Eller dummyvariabler som oberoende variabler)

Några exempel på metodval: Övning 19d, icke parametriska Erbjuder de hotell som tillhör en kedja mer eller mindre relevant kompetensutbildning till sin personal? nominalskala ordinalskala

Att jämföra oberoende urval/populationer Flera populationer Nominalskala Hypotestest på andelar från två populationer, Chi 2 i korstabell Ordinalskala Wilcoxon rangsummetest Kruska Wallis Kvotskala Hypotesttest på medelvärde eller varians från två populationer ANOVA testet

Några exempel på metodval: Övning 19c, icke parametriska Är yngre anställda mer eller mindre nöjda med relevansen i den kompetensutbildning som arbetsgivarna arbjuder kvotskala ordinalskala Spearmans rangkorrelationskoefficient är möjlig eftersom båda variablerna har minst ordinalskala. (Dock ej pearsons korrelationskoefficient) Om sambandet är icke linjärt kan Kruska Wallis avslöja att de i mellangruppen anser kompetensutbildningen mindre relevant.

Några exempel på metodval: Övning 19b, icke parametriska Har stora hotell yngre anställda än små hotell? kvotskala Vi kan använda regressionsanalys eftersom båda variablerna har kvotskala. Om sambandet är icke linjärt kan vi prova en kvadratisk modell eller en log linjär modell. (Vi kan dela in hotellen i grupper efter hur många anställda de har och göra ANOVA analys eller klassindela båda och göra korstabell, men eftersom regressionsanalys är vår kraftfullaste metod är det svårt att argumentera för något annat.)

En forskare vill undersöka om det går att lindra huvudvärk med hjälp av en ny behandling. Han drar ett slumpmässigt urval av 11 patienter som har sökt för problem med återkommande huvudvärk. Patienterna får ange sina huvudvärksproblem på en skala mellan 1 och 10, där 10 är stora problem och 1 små problem, före respektive efter en tioveckors behandling med den nya metoden. Gör en hypotestest för att se om vi kan bevisa att behandlingen har effekt på huvudvärk. Använd 5 % signifikansnivå. 𝐻 0 : Behandlingen har ingen effekt på huvudvärk. 𝐻 1 : Huvudvärken antingen förbättras eller försämras av behandlingen. Här har vi två variabler mätta på ordinalskala, men vi ska inte se om de korrelerar utan om den ena är större än den andra. Därför är det inte spearmans korrelationskoefficient i det här fallet.

Skaltyp Hypotes om Test metod Test av en hypotes om vilken av två variabler i en population som är störst, test av beroende urval. (Vi har en grupp och jämför två variabler i den gruppen, för varje individ har vi då två utfall och kan beräkna differensen mellan dem) Skaltyp Hypotes om Test metod Intervallskala eller kvotskala Medelvärde av differenser t-test på beroende urval Ordinalskala Vilket tecken som har störst rangsumma Wilcoxons teckenrangtest Vilket tecken har flest observationer teckentest

Sammanfattning av regressionsanalys: Att tolka regressionskoefficienterna Om den beroende variabeln är en icke logaritmerad variabel och den oberoende variabeln är: En vanlig kvantitativ variabel: Ökningen av Y när X ökar med en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler. En kvadrerad variabel. Parametern före den okvadrerade variabeln ger oss effekten av X på Y när X är lågt. Parametern före den kvadrerade variabeln ger oss förändringen av effekten av X på Y när X ökar.

Sammanfattning av regressionsanalys: Att tolka regressionskoefficienterna Om den beroende variabeln är en logaritmerad variabel och den oberoende variabeln är: Också en logaritmerad variabel Den procentuella ökningen av Y när X ökar en procent, vid oförändrade värden på övriga oberoende variabler. En vanlig kvantitativ variabel: Antilog av koefficienten minus ett och multiplicerat med hundra ger oss den procentuella ökningen av Y när X ökar en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Antilog av koefficienten minus ett och multiplicerat med hundra geross den procentuella skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler.

Sammanfattning av regressionsanalys: 𝑙𝑜𝑔𝑦=3,2+1,5∙𝑙𝑜𝑔 𝑥 1 +0,11∙ 𝑥 2 10 0,11 =1,29 Om x1 ökar med en procent ökar y med 1,5 procent, vid oförändrade värden på övriga oberoende variabler. Om x2 ökar med en enhet ökar y med 29 procent, vid oförändrade värden på övriga oberoende variabler. Om x2 är en dummy: skillnaden mot referenskategorin är 29 procent, vid oförändrade värden på övriga oberoende variabler.

Att tolka regressionskoefficienter när variablerna är andelar. 𝑌=𝑎+𝑏∙𝑥+𝑒 Y = antal allergiker per 100 000 invånare. X = antal personer som bor i städer per 100 000 invånare 𝑏 tolkas som ökningen av antal allergiker per 100 000 invånare, om andelen som bor i städer ökar med 1 person per 100 000 invånare.

Att tolka regressionskoefficienter när variablerna är andelar. 𝑌=𝑎+𝑏∙𝑥+𝑒 Y = andel allergiker. X = andel som bor i städer. 𝑏 tolkas som ökningen av andelen allergiker om andelen som bor i städer ökar med 1. Dock en lite märklig tolkning eftersom en andel knappast kan öka med ett. Bättre att dela med 10 eller hundra och gära tolkningen om andelen som bor i städer ökar med en tiondel eller en hundradel.

Att tolka regressionskoefficienter när variablerna är andelar. 𝑌=𝑎+𝑏∙𝑥+𝑒 Y = andel allergiker, procent. X = andel som bor i städer, procent. 𝑏 tolkas som ökningen av andelen allergiker uttryckt i procentenheter om andelen som bor i städer ökar med en procentenhet. log 𝑌=𝑎+𝑏∙ log 𝑥 +𝑒 𝑏 tolkas som procentuella ökningen av andelen allergiker om andelen som bor i städer ökar med en procent.

Antag att vi får följande resultat: 𝑌=𝑎+0,4∙𝑥+𝑒 Om andelen som bor i städer ökar med en procentenhet ökar andelen allergiker med 0,4 procentenheter. log 𝑌=𝑎+2∙ log 𝑥 +𝑒 Om andelen som bor i städer ökar med en procent ökar andelen allergiker med en procent. I ett land där 50 % av befolkningen bor i städer och 5 % är allergiker innebär första regressionsmodellen att: Om andelen som bor i städer ökar till 51 % ökar andelen allergiker till 5,4 % Andra regressionsmodellen att Om andelen som bor i städer ökar till 50,5 % ökar andelen allergiker till 5,1 % ( 51% => 5,2% )

Problem som kan uppstå vid regressionsanalys. Ej normalfördelade residualer Heteroskedasticitet Endogenitet Multikollinearitet Felspecificerad modell linjär – icke linjär felaktigt utelämnade oberoende variabler

Sannolikhetslära Sannolikhet är ett tal mellan noll och ett som beskriver hur stor chans det är att något händer.

Klassisk sannolikhetsteori Olika sätt att bestämma sannolikheter Klassisk sannolikhetsteori Fungerar enbart om alla utfall har samma sannolikhet Sannolikheten för ett specifikt utfall: 1 𝑡𝑜𝑡𝑎𝑙𝑎 𝑎𝑛𝑡𝑎𝑙𝑒𝑡 𝑚ö𝑗𝑙𝑖𝑔𝑎 𝑢𝑡𝑓𝑎𝑙𝑙 Sannolikheten för en händelse: 𝐴𝑛𝑡𝑎𝑙𝑒𝑡 𝑢𝑡𝑓𝑎𝑙𝑙 𝑠𝑜𝑚 𝑖𝑛𝑔å𝑟 𝑖 ℎä𝑛𝑑𝑒𝑙𝑠𝑒𝑛 𝑡𝑜𝑡𝑎𝑙𝑎 𝑎𝑛𝑡𝑎𝑙𝑒𝑡 𝑚ö𝑗𝑙𝑖𝑔𝑎 𝑢𝑡𝑓𝑎𝑙𝑙

Empirisk sannolikhetsteori Olika sätt att bestämma sannolikheter Empirisk sannolikhetsteori Baseras på historiska realiserade utfall. Sannolikheten för en händelse: 𝐴𝑛𝑡𝑎𝑙𝑒𝑡 𝑔å𝑛𝑔𝑒𝑟 𝑑𝑒𝑡 𝑖𝑛𝑡𝑟ä𝑓𝑓𝑎𝑡 𝐴𝑛𝑡𝑎𝑙𝑒𝑡 𝑔å𝑛𝑔𝑒𝑟 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑒𝑡 𝑢𝑡𝑓ö𝑟𝑡𝑠 ”The law of large numbers” : Ju fler gånger ett försök utförs desto säkrare blir den empiriska sannolikheten

Räkneregler för sannolikheter

Slumpvariabel - random variable. En kvantitet (eller kategori) som är resultatet av ett experiment och som kan anta olika värden. Diskret slumpvariabel - discrete random variable. En slumpvariabel som enbart kan anta vissa distinkta värden. Kontinuerlig slumpvariabel - continous random variable. En slumpvariabel som kan anta alla värden inom ett intervall.

Egenskaper hos en sannolikhetsfördelning. En sannolikhetsfördelning är ett sätt att visa en slumpvariabels alla utfall och de olika utfallens sannolikheter. Sannolikheten för ett enskilt utfall är ett tal mellan 0 och 1. Utfallen är ömsesidigt uteslutande händelser. Summan av sannolikheten för alla möjliga utfall är 1

Några specialfall av diskreta sannolikhetsföredelningar: Uniform diskret sannolikhetsfördelning. Alla utfall har samma sannolikhet Binomial sannolikhetsfördelning Vi räknar något och sannolikheten att det vi räknar ska uppkomma är hela tiden densamma Hypergeometrisk sannolikhetsfördelning Vi tar ett urval av en population utan återläggning och räknar antalet som har en viss egenskap Poisson fördelningen ingår ej i kursen

Kontinuerliga sannolikhetsfördelningar 1. Uniform sannolikhetsfördelning 2. Normalfördelning 3. Exponentialfördelning Senare kommer vi att gå igenom fler kontinuerliga sannolikhetsfördelningar: 𝑡-fördelningen Chi2-fördelningen F-fördelningen

Sannolikhetsfunktion för en uniform fördelning. (Density function) Sannolikheten att x hamnar mellan c och d är lika med den andel av arean som ligger mellan c och d. a c d b

The Empirical Rule

𝑃 𝑧<2.00 = 𝑃 0<𝑧< 2.00 +𝑃 𝑧<0.00 = Vad är sannolikheten att ur den standardiserade normalfördelningen dra ett tal som är mindre än 2? 𝑃 𝑧<2.00 = 𝑃 0<𝑧< 2.00 +𝑃 𝑧<0.00 = 𝑃 0<𝑧< 2.00 +0.5=0.4772+0.5=0.9772

𝑃 𝑧<−1.5 = 𝑃 𝑧>1.5 = 0.5−𝑃 0<𝑧<1.5 = Ett annat exempel: Vad är sannolikheten att ur den standardiserade normalfördelningen dra ett tal som är mindre än minus 1,5. 𝑃 𝑧<−1.5 = 𝑃 𝑧>1.5 = 0.5−𝑃 0<𝑧<1.5 = 0.5−𝑃 0<𝑧<1.5 =0.5 −0.4332=0.0668

Alla normalfördelningar kan konverteras till den standardiserade normalfördelningen. Exempel på beräkning Antag att svenska kroppslängden hos svenska män är normalfördelad med medelvärdet 181 cm och standardavvikelsen 6 cm. Kroppslängden hos svenska män kan noteras som: 𝑋=𝑁 181,6 Hur stor andel av svenska män är längre än 187.4 cm?

Alla normalfördelningar kan konverteras till den standardiserade normalfördelningen. Exempel på beräkning Antag att svenska kroppslängden hos svenska män är normalfördelad med medelvärdet 181 cm och standardavvikelsen 6 cm. Hur stor andel av svenska män är längre än 187.4 cm? Kroppslängden hos svensk män kan noteras som: 𝑋=𝑁 181,6 14 % av svenska män är längre än 187.4 cm

Beräkning av index över sysselsättningen i Sverige antal sysselsatta Index 2005 4 262 600 100,0 2006 4 340 600 101,8 2007 4 444 500 104,3 2008 4 484 100 105,2 2009 4 380 800 102,8 2010 4 429 400 103,9 4 262 600 4 262 600 ∙100 4 484 100 4 262 600 ∙100 4 429 400 4 262 600 ∙100 Det år då indexet sätts till 100 kallas basår, i det här fallet 2005.

Laspeyre Prisindex Paasches Prisindex 𝐼 0,𝑡 𝐿 = 𝑝 𝑡 𝑞 0 𝑝 0 𝑞 0 ⋅100 𝐼 0,𝑡 𝑃 = 𝑝 𝑡 𝑞 𝑡 𝑝 0 𝑞 𝑡 ⋅100 Där: .p0 = Pris vid tidpunkt 0 .pt = Pris vid tidpunkt t .q0 = Kvantitet vid tidpunkt 0 .qt = Kvantitet vid tidpunkt t

År 1 År 2 prisökning Jordgubbar Pris per liter 20 22 10% Antal sålda liter 50 000 60 000 Yougurt 33 50% 130 000 95 000 Laspeyres Paasche

Principen för kedjeindex Antag att A och B är två variabler för vilka vi inte känner nivån men vet den årliga förändringen. Årlig förändring Index serier, basår:1 År A B 1 2% 1% 2 1.5% 0.5% 3 2.5% 4 3% -0.5% 5 6 År A B 1 100 2 101,5 100,5 3 104,0 4 107,2 101,0 5 109,3 102,0 6 110,4 103,5 107,2∙1,02 101,5∙0,995

Användning av prisindex 𝑅𝑒𝑎𝑙 𝑙ö𝑛= 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙 𝑙ö𝑛 𝐾𝑃𝐼 ∙100 𝐷𝑒𝑓𝑙𝑎𝑡𝑒𝑟𝑎𝑡 𝑣ä𝑟𝑑𝑒 = 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙𝑡 𝑣ä𝑟𝑑𝑒 𝑙ä𝑚𝑝𝑙𝑖𝑔𝑡 𝑖𝑛𝑑𝑒𝑥 ∙100