Presentation laddar. Vänta.

Presentation laddar. Vänta.

Multivariata Metoder en översikt

Liknande presentationer


En presentation över ämnet: "Multivariata Metoder en översikt"— Presentationens avskrift:

1 Multivariata Metoder en översikt
Klara Westling – IVL Svenska Miljöinstitutet AB

2 Multivariata metoder Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera. Världen är multivariat! Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper Beskrivande analys (BA) Relationsanalys (RA)

3 Beskrivande analys (BA)
Översikt, sortering och klassificering Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler) Utan kända klasser Principalkomponentanalys (PCA) Korrespondensanalys (CA) + kanonisk CA Faktoranalys (FA) Klusteranalys (KA) Med kända klasser KNN – K närmaste grannar SIMCA (anv. PCA) PLS-DA

4 Principalkomponentanalys (PCA)
Arbetshästen vid multivariat dataanalys Finner dominanta korrelationsstrukturer i data Separerar struktur från brus Avvikare syns lätt Klarar bortfall i data (dock inte alla algoritmer) Lämplig för översikt, sortering och klassificering Vid förekomstdata av djur och växter kan dock CA vara att föredra

5 PCA – kortfattad beskrivning
Kort exempel med olika källors påverkan på PM10 i luften x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st) y-variabel: PM10 i luften 6 modeller (2 månader/modell), varierar över året PM10 predikteras baserat på x-variabler och modeller PM10 content PM10 content NO2 Wood fuel burning Use of studded tyres NO2 S T W F B

6 Exempel – PCA - Arbetslöshet
Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeEECväst, ickeEECöst) . AGR MIN MAN PS CON SER FIN SPS TC Group 1 Belgium 3.3 0.9 27.6 8.2 19.1 6.2 26.6 7.2 2 Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 3 France 10.8 0.8 27.5 8.9 16.8 6.0 22.6 5.7 4 W_Germany 6.7 1.3 35.8 7.3 14.4 5.0 22.3 6.1 5 Ireland 23.2 1.0 20.7 7.5 2.8 20.8 6 Italy 15.9 0.5 10.0 18.1 1.6 20.1 7 Luxembourg 7.7 3.1 30.8 18.5 4.6 19.2 8 Netherlands 6.3 22.5 9.9 18.0 6.8 28.5 9 UK 2.7 1.4 30.2 6.9 16.9 28.3 6.4 10 Austria 12.7 1.1 9.0 4.9 7.0 11 Finland 13.0 0.4 25.9 7.4 14.7 5.5 24.3 7.6 12 Greece 41.4 17.6 8.1 11.5 2.4 11.0 13 Norway 22.4 8.6 4.7 9.4 14 Portugal 27.8 0.3 24.5 8.4 13.3 16.7 15 Spain 22.9 0.7 9.7 8.5 11.8 16 Sweden 32.4 17 Switzerland 0.2 37.8 9.5 17.5 5.3 15.4 18 Turkey 66.8 7.9 5.2 11.9 3.2 19 Bulgaria 23.6 1.9 32.3 8.0 18.2 20 Czechoslovakia 16.5 2.9 35.5 1.2 8.7 17.9 21 E_Germany 4.2 41.2 11.2 22.1 22 Hungary 21.7 29.6 17.2 23 Poland 31.1 2.5 25.7 16.1 24 Romania 34.7 2.1 30.1 5.9 11.7 25 USSR 23.7 25.8 9.3 26 Yugoslavia 48.7 1.5 11.3 4.0

7 Exempel – PCA - Arbetslöshet
Med 2 komponenter förklaras 62% av variationen i data

8 Exempel – PCA - Arbetslöshet
Man kan också se på observationer och variabler i samma bild

9 Exempel – PCA - Arbetslöshet
Resultaten kan också visas i 3D: Unemploy

10 Exempel – PCA - Arbetslöshet
Även den omodellerade variationen (residualen) hos varje observation kan visualiseras

11 Faktoranalys (FA) Äldre broder till PCA
Modellerar både strukturen och bruset Bygger på ett antal statistiska förutsättningar som skall vara uppfyllda Inget för nybörjaren

12 Korrespondensanalys (CA)
Kusin till PCA Användningsområden parallella med PCA Används då beskrivningsvariablerna har en klockformad fördelning (förekomstdata av djur och växter) PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA

13 Klusteranalys (KA) Grupperar observationerna enligt “likhet”
Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier Resultatet presenteras ofta i ett dendrogram (träddiagram)

14 Exempel – Klusteranalys (okända klasser)
Data: Arbetslöshet i Europa

15 SIMCA – klassificering
Bygger på separata PCA-modeller för varje klass Nya observationer klassas till den klass som den passar Metoden upptäcker observationer som inte passar till någon klass!

16 Sammanfattning – beskrivande analys
PCA är den rekommenderade metoden Den är robust och väl lämpad för att: Visualisera data Finna grupperingar Upptäcka avvikare Klassificera nya observationer Bra grafisk diagnostik och presentation CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna) KA kan användas för att objektivt dela in ett material i grupper

17 Relationsanalys (RA) Samband och prediktioner (x- och y- variabler)
relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler (x) och den andra för beroendevariabler (y). Vi vill vet hur förklaringsvariablerna kan användas för att beskriva och prediktera beroendevariablerna. Med ursprungsvariabler MLR, SMLR Med latenta variabler / underrumsmetoder PLS, (ANN)

18 MLR och SMLR (med ursprungsvariabler)
MLR - multipel linjär regression Den mest felanvända metoden Fungerar dåligt med korrelerade variabler Hanterar inte bortfall Klarar bara en y-variabel per modell Antar att x är exakt och 100% relevant, endast rekommenderad då man gjort faktorförsök innan och man vet att x är det man anger SMLR – stegvis MLR Väljer en delmängd av x-variablerna beroende på deras modelleringsförmåga Stor risk för övermodellering (overfit) Urvalet och resultaten är mycket data- och brusberoende – det finns väldigt många sätt att välja X-variabler i stora dataset

19 PLS (latenta variabler)
Maximerar kovariansen mellan x och y Korrelerade variabler ger stabilare modell Finner samband i närvaro av både brus och bortfall Klarar flera y i samma modell Intern validering reducerar risken för övermodellering Grafisk presentation för diagnostik och prediktion Upptäcker avvikare inför prediktioner för nya observationer Olinjäritet mellan x och y fångas med transformationer och/eller tillägg av högre ordningens termer av x (ex: x32, x1*x5, x22*x7) Kan också användas för identifiering av tidsseriemodeller typ AR, MA och ARMA med tillägg av tidsförskjutna x- och/eller y-variabler på x-sidan

20 Exempel PLS - Krondroppsdata
Data: X – tid, plats, nederbörd, Y – analyser av 12 olika föroreningar i krondropp

21 Sammanfattaning - relationsanalys
PLS passar i de flesta fallen PLS är överlägset MLR och SMLR när det finns många och korrelerade x-variabler PLS har bättre grafiska diagnostiska möjligheter än de andra metoderna Stegvis regression är inte alls rekommenderat, stor risk för övermodellering ANN (neurala nätverk) kan man pröva om inget annat fungerar

22 Positive Matric Factorisation (PMF)
Positive Matrix Factorisation (PMF) är ett multivariat analysverktyg. I fall där det misstänks att flera källor bidrar till de uppmätta halterna i en provserie och att dessa källor är okända kan PMF användas för att identifiera dessa källor. PMF delar upp ursprungsprovet i ett antal ingående källor som tillsammans utgör den uppmäta halten av olika variabler.


Ladda ner ppt "Multivariata Metoder en översikt"

Liknande presentationer


Google-annonser