Presentation laddar. Vänta.

Presentation laddar. Vänta.

Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband.

Liknande presentationer


En presentation över ämnet: "Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband."— Presentationens avskrift:

1 Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband med var och en av variablerna PAPER, MACHINE, OVERHEAD och LABOR blev endast de två första signifikanta. ????? Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att förklara kostnaden?

2 Vi plottar förklaringsvariablerna mot varandra:
GraphMatrix Plot…

3 Tydligt samband mellan alla par av förklaringsvariabler.

4 och vi ser att samtliga korrelationer ligger mycket nära 1.
Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler: MTB > corr c2-c5 Correlations: PAPER; MACHINE; OVERHEAD; LABOR PAPER MACHINE OVERHEAD MACHINE 0.000 OVERHEAD LABOR Cell Contents: Pearson correlation P-Value och vi ser att samtliga korrelationer ligger mycket nära 1.

5 Om korrelationen är hög (över 0
Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler blir modellen svår att analysera: konstiga värden på parameterskattningar ( t ex negativa lutningsparametrar där sambandet skall vara positivt) låga t-kvoter, dvs. svårt att påvisa signifikans för enskilda förklaringsvariabler. konstiga modeller (”självklara” förklaringsvariabler blir inte av betydelse i modellen) Orsaken är att det är svårt i en anpassad modell att separera vad i varje förklaringsvariabel som främst förklarar variationen i y.

6 Problemet har kommit att kallas multikolinjäritet
Dock kan det räcka med namnet kolinjäritet, eller ännu hellre samlinjäritet. Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna Hur upptäcker man och hur åtgärdar man detta? Metod 1: Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs. även med y. Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y.

7 (Dock är PAPER en mycket nära kandidat här.)
I exemplet beräknar vi MTB > corr c1-c5 Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER 0.000 MACHINE OVERHEAD LABOR Cell Contents: Pearson correlation P-Value Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.)

8 Metod 2: Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en modell där den första förklaras av de andra. T ex om x1 har starka samband med variablerna x2, x3, x4 blir en modell: x1 = 0  1  x2 2  x3 3  x4  Om denna modell anpassas erhålls en förklaringsgrad R12 , som anger hur stor del av den totala variationen i x1 som förklaras av de övriga x-variablerna. Är R12 stor borde man kunna utesluta x1 ur modellen för y

9 Den s k Variance Inflation Factor , VIF, för variabeln x1 definieras som
Och vi ser att för ett stort värde hos R12 blir också VIF1 stor. VIF kan som lägst bli 1 vilket inträffar då R12=0. Om R12=1 blir VIF oändligt stor, men detta inträffar i princip inte. Vi anpassar modellen x1 = 0  1  x2 2  x3 3  x4  med Minitab:

10 MTB > regress c2 3 c3-c5 Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR The regression equation is PAPER = MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P Constant MACHINE OVERHEAD LABOR S = R-Sq = 98.2% R-Sq(adj) = 98.0% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

11 VIF finns förstås definierad för varje ingående x-variabel som
där Rj2 = förklaringsgraden i en anpassad modell där xj förklaras av övriga x-variabler. Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kolinjäritet. VIF-värden kan fås automatiskt i Minitab-utskriften:

12 Vi ser att det råder stora problem med (multi)kolinjäritet här!
MTB > regress c1 4 c2-c5; SUBC> vif. Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P VIF Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kolinjäritet här!

13 I Datorövning 2 fick vi litet konstiga resultat när vi försökte undersöka totalvärdets beroende av tomtyta med uppdelning på fastigheter med och utan garage: Regression Analysis: Total$ versus Acreage, Garage, Acr*Gar The regression equation is Total$ = Acreage Garage Acr*Gar 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P VIF Constant Acreage Garage Acr*Gar Den enda term som blir signifikant är samspelstermen, vilket känns konstigt, men vi ser höga VIF-värden för Acreage och Acr*Gar. Förmodligen är det så att Garage finns i betydligt högre utsträckning på större tomter och då blir Acreage och Acr*Gar väl mycket korrelerade.

14 Är (multi)kolinjäritet alltid ett bekymmer?
När den anpassade modellen skall användas för att förklara variation och samband skall kolinjäritet undvikas. Tolkningarna blir annars lätt missvisande. När den anpassade modellen skall användas för prognoser i nya punkter är bekymret mindre eftersom anpassningen görs så att ingående x-variabler kopplar till värdet hos y så bra som möjligt.

15 Val mellan olika modeller – Modellbygge:
Vi illustrerar med följande datamaterial: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) i volymenheter, dvs y med följande variabler: x1 (TIME) = den tid (i månader) som säljaren (i distriktet) har varit anställd. x2 (POTENT) = total industriförsäljningens volym i distriktet x3 (ADV) = annonskostnader (i dollar) x4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden innan de senaste fyra åren. x6 (ACCTS) = antal kontrakt som säljaren arbetat med x7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x8 (RATING) = bedömningsmått på säljaren satt av av försäljningsansvarig

16 SALES TIME POTENT ADV SHARE SHARE- ACCTS WORK- RATING
CHG LOAD … … … … … … … … …

17 Hur väljer man vilken av ett antal anpassade modeller som är ”bäst”?
Studera varje modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra? 2) Förklaringsgrader: Eftersom R2 ökar för varje ny variabel som läggs till blir inte detta mått rättvist när man jämför olika modeller. Justerad förklaringsgrad: Måttet tar hänsyn till antal variabler, som ingår i modellen. Notera att R2 kan skrivas som 1– (SSE/SST ), så analogi finns med detta mått.

18 I materialet anpassar vi modellerna:
Exempel: I materialet anpassar vi modellerna: y=0  1  x1  2 x2  3  x3  4 x4  5 x5 + 6 x6   (1) y=0  1  x1  2 x2  3  x3  4 x4 + 5 x5 + 6 x6  7 x7  8 x8 +  (2)

19 y=0  1  x1  2 x2  3  x3  4 x4  5 x5 + 6 x6  
MTB > regress c1 6 c2-c7 Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = TIME POTENT ADV SHARE + 285 SHARECHG ACCTS Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS S = R-Sq = 92.0% R-Sq(adj) = 89.4% y=0  1  x1  2 x2  3  x3  4 x4  5 x5 + 6 x6  

20 MTB > regress c1 8 c2-c9 Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = TIME POTENT ADV SHARE + 291 SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3% y=0  1  x1  2 x2  3  x3  4 x4 + 5 x5 + 6 x6  7 x7  8 x8 + 

21 Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av
Enligt den justerade förklaringsgraden är alltså den första modellen bättre. 3) Variansskattning Den modell som har lägst värde på MSE lyckas ju med att ha så litet slumpvariation som möjligt kvar. Dock gäller: MSE minskar om och endast om justerad förklaringsgrad ökar. Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av Modell y=0  1  x1  2 x2  3  x3  4 x4  5 x5 + 6 x6   0.920 0.894 y=0  1  x1  2 x2  3  x3  4 x4 + 5 x5 + 6 x6  7 x7  8 x8 +  0.922 0.883

22 4) Måttet Cp Cp (eller bara kort C) är en något kryptiskt formulerad storhet som relaterar slumpvariansen i en anpassad modell till slumpvariansen hos den maximala modellen samt till antalet ingående parametrar. där sp2 är variansskattningen (dvs. MSE) hos den maximala modellen (den med samtliga tillgängliga x-variabler) Cp skall helst bli så liten som möjligt, och samtidigt  k+1 I annat fall har den anpassade modellen en för stor bias, dvs. ligger snett i förhållande till verkligheten.

23 För att beräkna Cp krävs tydligen att såväl den aktuella som den maximala modellen anpassas.
Typisk uppgift för en datorkörning. Minitab: Kommandot breg kan användas för att ta fram de två bästa modellerna i varje modellstorlek, baserat på de största R2-värdena. Alltså, man jämför alla modeller med en x-variabel och tar ut de två bästa, alla modeller med två x-variabler och tar ut de två bästa etc. I de maximala modellstorleken finns förstås bara en modell och i denna kan visas att Cp alltid är p+1 Kommandot ger förutom R2-värdena även justerade förklaringsgrader, s och dessutom just Cp

24 Cp k+1 MTB > breg c1 c2-c9
Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Cp k+1

25 I utskriften ser vi att i de 7 sista modellerna är Cp k+1 (Lägg till en etta i kolumnen ”Vars” ). Enligt ”reglerna” skall vi välja modell så att Cp blir så liten som möjligt S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G k+1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 8 X X X X X X X X 9 Modellen med TIME, POTENT, ADV, SHARE och SHARECHG skall väljas eftersom denna har lägst värde på Cp med villkoret Cp k+1 bibehållet. Observera dock: Denna modell har inte det högsta värdet på vare sig förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s ).

26 5) Mer algoritmiska modellvalsprocedurer:
Framåtvalsprincipen (Forward selection): Välj först den x-variabel som har högst absolut korrelation med y. (Blir också den variabel som i en enkel linjär regressionsmodell ger högst R2 eller lägst SSE. Testa med t- eller F-test om denna variabel blir signifikant Om den blir det, fixera denna variabel i modellen, kalla den x(1). Om inte, stanna utan modell . Anpassa alla modeller med x(1) och ytterligare en x-variabel, välj tillfälligt den modell som har högst R2 (eller lägst SSE) Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant. Om den blir det, fixera även denna, kalla den x(2). Om inte, stanna vid modellen med x(1) . Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till.

27 I ”vårt” datamaterial:
MTB > corr c1-c9 Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD TIME 0.001 POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING

28 ACCTS fixeras alltså i modellen Nästa steg?
MTB > regress c1 1 c7 Regression Analysis: SALES versus ACCTS The regression equation is SALES = ACCTS Predictor Coef SE Coef T P Constant ACCTS S = R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS fixeras alltså i modellen Nästa steg? Använd breg med vilken man också kan tvinga in en variabel och begränsa modellstorleken enligt: signifikant

29 Den bästa modellen med ACCTS och ytterligare en variabel är alltså
Tvingar in ACCTS Visar bara en modell per storleksklass Visar bara modeller med en variabel fler än de inkluderade (dvs här med max 2 variabler) MTB > breg c1 c2-c9; SUBC> include c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES The following variables are included in all models: ACCTS S W H O P A R R O S R K A T T H E L T I E A A C O I M N D R H A N Vars R-Sq R-Sq(adj) C-p S E T V E G D G X Den bästa modellen med ACCTS och ytterligare en variabel är alltså den med ACCTS och ADV.

30 ADV blir signifikant och fixeras.
MTB > regr c1 2 c7 c4 Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = ACCTS ADV Predictor Coef SE Coef T P Constant ACCTS ADV S = R-Sq = 77.5% R-Sq(adj) = 75.5% ADV blir signifikant och fixeras.

31 MTB > breg c1 c2-c9; SUBC> include c4 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES The following variables are included in all models: ADV ACCTS S W H O P A R R O S R K A T T H E L T I E A C O I M N R H A N Vars R-Sq R-Sq(adj) C-p S E T E G D G X Den bästa modellen med ACCTS, ADV och ytterligare en variabel är alltså den med ACCTS, ADV och POTENT.

32 POTENT blir signifikant och fixeras.
MTB > regress c1 3 c7 c4 c3 Regression Analysis: SALES versus ACCTS, ADV, POTENT The regression equation is SALES = ACCTS ADV POTENT Predictor Coef SE Coef T P Constant ACCTS ADV POTENT S = R-Sq = 82.8% R-Sq(adj) = 80.3% POTENT blir signifikant och fixeras.

33 MTB > breg c1 c2-c9; SUBC> include c3 c4 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES The following variables are included in all models: POTENT ADV ACCTS S W H O A R R S R K A T H E L T I A C O I M R H A N Vars R-Sq R-Sq(adj) C-p S E E G D G X Den bästa modellen med ACCTS, ADV, POTENT och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT och SHARE.

34 SHARE blir signifikant och fixeras.
MTB > regress c1 4 c7 c4 c3 c5 Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE The regression equation is SALES = ACCTS ADV POTENT SHARE Predictor Coef SE Coef T P Constant ACCTS ADV POTENT SHARE S = R-Sq = 90.0% R-Sq(adj) = 88.1% SHARE blir signifikant och fixeras.

35 MTB > breg c1 c2-c9; SUBC> include c3 c4 c5 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES The following variables are included in all models: POTENT ADV SHARE ACCTS S W H O A R R R K A T E L T I C O I M H A N Vars R-Sq R-Sq(adj) C-p S E G D G X Den bästa modellen med ACCTS, ADV, POTENT, SHARE och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT SHARE och SHARECHG.

36 SHARECHG blir inte signifikant och tas därför inte med.
MTB > regress c1 5 c7 c4 c3 c5 c6 Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE, SHARECHG The regression equation is SALES = ACCTS ADV POTENT SHARE + 262 SHARECHG Predictor Coef SE Coef T P Constant ACCTS ADV POTENT SHARE SHARECHG S = R-Sq = 91.2% R-Sq(adj) = 88.9% SHARECHG blir inte signifikant och tas därför inte med. Slutlig modell blir den med ACCTS, ADV, POTENT och SHARE Bra?

37 Bakåtelimineringsprincipen (Backward elimination ):
Anpassa modellen med samtliga tillgängliga förklaringsvariabler. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen. Om en eller flera variabler ej är signifikanta (ses i deras t-kvoter) tas den variabel bort som har lägst absolut t-kvot. Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna är signifikanta  Slutlig modell Om en eller flera variabler ej är signifikanta, ta bort den med lägst absolut t-kvot. Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta.

38 MTB > regress c1 8 c2-c9 Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = TIME POTENT ADV SHARE + 291 SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot

39 MTB > regress c1 7 c2-c8 Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = TIME POTENT ADV SHARE + 296 SHARECHG ACCTS WORKLOAD Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD S = R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är icke-signifikanta. WORKLOAD har lägst absolut t-kvot.

40 MTB > regress c1 6 c2-c7 Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = TIME POTENT ADV SHARE + 285 SHARECHG ACCTS Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS S = R-Sq = 92.0% R-Sq(adj) = 89.4% TIME, SHARECHG och ACCTS är icke-signifikanta. ACCTS har lägst absolut t-kvot.

41 MTB > regress c1 5 c2-c6 Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE, SHARECHG The regression equation is SALES = TIME POTENT ADV SHARE + 325 SHARECHG Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG S = R-Sq = 91.5% R-Sq(adj) = 89.3% Endast SHARECHG är icke-signifikant. På gränsen, men för illustrationen tar vi ändå bort den.

42 MTB > regress c1 4 c2-c5 Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE The regression equation is SALES = TIME POTENT ADV SHARE Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE S = R-Sq = 89.6% R-Sq(adj) = 87.5% Alla förklaringsvariabler är signifikanta  Slutlig modell enligt bakåtelimineringsprincipen. Bra?

43 Stegvis regression: Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas ”stegvis regression”: Välj först den variabel som har högst korrelation med y Behåll variabeln om den är signifikant Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant. Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort.

44 Minitab har kommandot stepwise:
MTB > stepwise c1 c2-c9 Stepwise Regression: SALES versus TIME, POTENT, ... F-to-Enter: 4 F-to-Remove: 4 Response is SALES on 8 predictors, with N = 25 Step Constant ACCTS T-Value P-Value ADV T-Value P-Value POTENT T-Value P-Value SHARE T-Value P-Value S R-Sq R-Sq(adj) C-p More? (Yes, No, Subcommand, or Help) SUBC> No Sätter kritiska gränser för signifikanstest Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHARE, dvs samma som framåtvalsprincipen gav.

45 Kommandot stepwise har underkommandona forward och backward som just ger framåtval resp. bakåteliminering. Det är dock klokt att försöka förstå dessa principer genom att ”välja litet för hand” Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås. Det är inte heller så att någon med nödvändighet ger den bästa modellen. Algoritmerna skall kombineras med förnuft och residualanalys.

46 Index Uttrycker värdet av en storhet relativt värdet av en annan storhet. Serier av värden i tid (eller rum) uttrycks i en viss enhet Index anger alla värden i serien relativt ett av dem  blir enhetsoberoende

47 Exempel Priset på Hasses superstrumpa i kronor Priserna anges i kronor. Om Sverige under tiden haft en fast växelkurs i Euro, t ex euro=8.70 kronor hade prisserien i euro blivit

48 Gör nu istället så att varje pris delas med priset för 1996
År Kronpris Europris /35= /4.02=1 /35= /4.02=1.03 /35= /4.02=1.07 /35= /4.02=1.11 /35= /4.02=1.14 Notera att vi får samma värdeserie oavsett vilken valuta vi använder. Observera dock att fast växelkurs är ett nödvändigt villkor för detta De erhållna värdena kallas relativtal.

49 Omräkning till index Multiplicera de erhållna relativtalen med 100.  Indexserie “Lättare för en del att förstå” Indexvärdet för 1996 är exakt 100 av naturliga orsaker kallas därför basår. Varje indexvärde innehåller den procentuella förändringen av priset jämfört med basåret. T ex index för 1998=107  Priset har ökat med 7% mellan 1996 och 1998. För att uttrycka den procentuella förändringen från år t1 till år t2 beräknas [(Index år t2-Index år t1)/Index år t1]100 t ex från 1998 till 2000: [( )/107]100=6.5  6.5% ökning

50 Byte av basår Basåret kan bytas genom att dividera varje värde i indexserien med värdet för det nya basåret, samt multiplicera med 100 Index år t, basår t1 = (Index år t, basår t0 /Index år t1, basår t0)100 = It (t1 ) = [It (t0 ) / It1 (t0 ) ]  100 Ex. Byte till basår 1998 År Basår Basår 1998 (100/107)  100=93.5 (103/107)  100=96.3 (111/107)  100=103 (114/107)  100=107 Notera att indextal < 100 förekommer

51 Allmän formel: En enkel prisindexserie skapas genom

52 Kvantiteter och försäljningsvärden
Låt qt=försäljningskvantiteten och vt=försäljningsvärdet av en vara år t vt =pt  qt Ex. Priser, kvantiteter och försäljningsvärden för Hasses superstrumpa: År Pris Kvantitet Försäljn.värde

53 Deflatering Försäljningsvärdena är uttryckta i s k löpande priser
Ibland vill man uttrycka dem i priser för ett visst år (i s k fasta priser) Detta åstadkoms genom s k deflatering En värdeserie i löpande priser divideras värde för värde med en prisindexserie. Värden i fast pris erhålls genom att multiplicera samtliga deflaterade värden med prisindex för det år, vars priser skall användas

54 Hasses superstrumpa, forts
År Värden i Index Värden i 1997 års löpande priser priser (5250/100)  103= ( /107)  103=5956 (6240/111)  103=5790 (6200/114)  103=5602

55 Implicitprisindex Man kan också räkna “baklänges”
Givet en värdeserie i löpande pris och motsvarande serie uttryckt i priser för år t Ett s k implicitprisindex erhålls genom att dividera löpande pris-serien värde för värde med fastpris-serien och sedan multiplicera med 100. Basåret blir t Hasses superstrumpa, forts År Värden i Värden i Implicitprisindex löpande års (Basår=1998) priser priser (5250/ )  100 = 93.5 (5220/5423)  100 = 96.3 (6240/6015)  100=104 (6200/5819)  100=107 Avvikelser från tidigare framräknad indexserie beror på avrundningsfel

56 Deflaterad värdeserie och fast pris-serie uttrycker kvantitet
Förutom prisindex kan kvantitetsindex och/eller värdeindex konstrueras Överhuvudtaget kan alla serier av värden omräknas till index, dvs indexbegreppet är inte knutet till ekonomi

57 Sammansatta prisindex
Om ett företag (eller en bransch) säljer mer än en vara skall som regel prisindex baseras på flera (ev. samtliga) varor. Generell konstruktion: där It,i =prisindex år t för vara i wt,i =vikt år t för vara i och summationen görs över alla ingående varor

58 Olika viktsystem Laspeyre’s viktsystem:
wt,i =(pi,0·qi,0)/j (pj,0·qj,0) dvs vikten för vara i utgörs av varans andel av totalförsäljningen (av ingående varor) för basåret. Paasche’s viktsystem: wt,i =(pi,0·qi,t)/j (pj,0·qj,t) dvs vikten för vara i utgörs av varans andel av totalförsäljningen för år t i basårspriser . Laspeyre’s system är vanligast.Vikterna baseras på försäljningsfördelningen under basåret. Dock problematiskt då försäljningen varierar starkt mellan varugrupper från år till år Paasche’s system används i det senare fallet och är mindre stabilt.

59 Exempel forts. Hasses kläder
Priser och försäljningskvantiteter på Hasses superstrumpa och Hasses boxershorts Strumpor Boxershorts Pris Kvantitet Pris Kvantitet Sammansatt prisindex med Laspeyre’s viksystem (Basår 1998): År Index 1999 2000


Ladda ner ppt "Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband."

Liknande presentationer


Google-annonser