Presentation laddar. Vänta.

Presentation laddar. Vänta.

Multivariata Metoder en översikt Klara Westling – IVL Svenska Miljöinstitutet AB.

Liknande presentationer


En presentation över ämnet: "Multivariata Metoder en översikt Klara Westling – IVL Svenska Miljöinstitutet AB."— Presentationens avskrift:

1 Multivariata Metoder en översikt Klara Westling – IVL Svenska Miljöinstitutet AB

2 Multivariata Metoder Klara Westling, Multivariata metoder  Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera.  Världen är multivariat!  Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper –Beskrivande analys (BA) –Relationsanalys (RA)

3 Multivariata Metoder Klara Westling, Beskrivande analys (BA)  Översikt, sortering och klassificering –Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler) –Utan kända klasser –Principalkomponentanalys (PCA) –Korrespondensanalys (CA) + kanonisk CA –Faktoranalys (FA) –Klusteranalys (KA) –Med kända klasser –KNN – K närmaste grannar –SIMCA (anv. PCA) –PLS-DA

4 Multivariata Metoder Klara Westling, Principalkomponentanalys (PCA)  Arbetshästen vid multivariat dataanalys  Finner dominanta korrelationsstrukturer i data  Separerar struktur från brus  Avvikare syns lätt  Klarar bortfall i data (dock inte alla algoritmer)  Lämplig för översikt, sortering och klassificering  Vid förekomstdata av djur och växter kan dock CA vara att föredra

5 Multivariata Metoder Klara Westling, PCA – kortfattad beskrivning PM10 content PM10 content NO2 Wood fuel burning Use of studded tyres Wood fuel burning Use of studded tyres NO2 S T W F B Kort exempel med olika källors påverkan på PM 10 i luften x-variabler: Dubbdäck, vedeldning, avgaser (NO 2 ) (eg. 6 st) y-variabel: PM 10 i luften 6 modeller (2 månader/modell), varierar över året PM 10 predikteras baserat på x-variabler och modeller

6 Multivariata Metoder Klara Westling, Exempel – PCA - Arbetslöshet Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeEECväst, ickeEECöst).AGRMINMANPSCONSERFINSPSTCGroup 1Belgium Denmark France W_Germany Ireland Italy Luxembourg Netherlands UK Austria Finland Greece Norway Portugal Spain Sweden Switzerland Turkey Bulgaria Czechoslovakia E_Germany Hungary Poland Romania USSR Yugoslavia

7 Multivariata Metoder Klara Westling, Exempel – PCA - Arbetslöshet Med 2 komponenter förklaras 62% av variationen i data

8 Multivariata Metoder Klara Westling, Exempel – PCA - Arbetslöshet Man kan också se på observationer och variabler i samma bild

9 Multivariata Metoder Klara Westling, Exempel – PCA - Arbetslöshet  Resultaten kan också visas i 3D: UnemployUnemploy

10 Multivariata Metoder Klara Westling, Exempel – PCA - Arbetslöshet  Även den omodellerade variationen (residualen) hos varje observation kan visualiseras

11 Multivariata Metoder Klara Westling, Faktoranalys (FA) –Äldre broder till PCA –Modellerar både strukturen och bruset –Bygger på ett antal statistiska förutsättningar som skall vara uppfyllda –Inget för nybörjaren

12 Multivariata Metoder Klara Westling, Korrespondensanalys (CA)  Kusin till PCA  Användningsområden parallella med PCA  Används då beskrivningsvariablerna har en klockformad fördelning (förekomstdata av djur och växter)  PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA

13 Multivariata Metoder Klara Westling, Klusteranalys (KA) –Grupperar observationerna enligt “likhet” –Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier –Resultatet presenteras ofta i ett dendrogram (träddiagram)

14 Multivariata Metoder Klara Westling, Exempel – Klusteranalys (okända klasser) Data: Arbetslöshet i Europa

15 Multivariata Metoder Klara Westling, SIMCA – klassificering  Bygger på separata PCA-modeller för varje klass  Nya observationer klassas till den klass som den passar  Metoden upptäcker observationer som inte passar till någon klass!

16 Multivariata Metoder Klara Westling, Sammanfattning – beskrivande analys  PCA är den rekommenderade metoden Den är robust och väl lämpad för att: –Visualisera data –Finna grupperingar –Upptäcka avvikare –Klassificera nya observationer –Bra grafisk diagnostik och presentation  CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna)  KA kan användas för att objektivt dela in ett material i grupper

17 Multivariata Metoder Klara Westling, Relationsanalys (RA)  Samband och prediktioner (x- och y- variabler) –relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler (x) och den andra för beroendevariabler (y). Vi vill vet hur förklaringsvariablerna kan användas för att beskriva och prediktera beroendevariablerna. –Med ursprungsvariabler –MLR, SMLR –Med latenta variabler / underrumsmetoder –PLS, (ANN)

18 Multivariata Metoder Klara Westling, MLR och SMLR (med ursprungsvariabler)  MLR - multipel linjär regression –Den mest felanvända metoden –Fungerar dåligt med korrelerade variabler –Hanterar inte bortfall –Klarar bara en y-variabel per modell –Antar att x är exakt och 100% relevant, endast rekommenderad då man gjort faktorförsök innan och man vet att x är det man anger  SMLR – stegvis MLR –Väljer en delmängd av x-variablerna beroende på deras modelleringsförmåga –Stor risk för övermodellering (overfit) –Urvalet och resultaten är mycket data- och brusberoende – det finns väldigt många sätt att välja X-variabler i stora dataset

19 Multivariata Metoder Klara Westling, PLS (latenta variabler) –Maximerar kovariansen mellan x och y –Korrelerade variabler ger stabilare modell –Finner samband i närvaro av både brus och bortfall –Klarar flera y i samma modell –Intern validering reducerar risken för övermodellering –Grafisk presentation för diagnostik och prediktion –Upptäcker avvikare inför prediktioner för nya observationer –Olinjäritet mellan x och y fångas med transformationer och/eller tillägg av högre ordningens termer av x (ex: x 3 2, x 1 *x 5, x 2 2 *x 7 ) –Kan också användas för identifiering av tidsseriemodeller typ AR, MA och ARMA med tillägg av tidsförskjutna x- och/eller y-variabler på x- sidan

20 Multivariata Metoder Klara Westling, Exempel PLS - Krondroppsdata  Data: X – tid, plats, nederbörd, Y – analyser av 12 olika föroreningar i krondropp

21 Multivariata Metoder Klara Westling, Sammanfattaning - relationsanalys  PLS passar i de flesta fallen  PLS är överlägset MLR och SMLR när det finns många och korrelerade x-variabler  PLS har bättre grafiska diagnostiska möjligheter än de andra metoderna  Stegvis regression är inte alls rekommenderat, stor risk för övermodellering  ANN (neurala nätverk) kan man pröva om inget annat fungerar

22 Multivariata Metoder Klara Westling, Positive Matric Factorisation (PMF)  Positive Matrix Factorisation (PMF) är ett multivariat analysverktyg.  I fall där det misstänks att flera källor bidrar till de uppmätta halterna i en provserie och att dessa källor är okända kan PMF användas för att identifiera dessa källor.  PMF delar upp ursprungsprovet i ett antal ingående källor som tillsammans utgör den uppmäta halten av olika variabler.


Ladda ner ppt "Multivariata Metoder en översikt Klara Westling – IVL Svenska Miljöinstitutet AB."

Liknande presentationer


Google-annonser