Teori
Två frågor: Hur gör man om kategoriska variabler till koordinater? Om man inte kan visa all information, hur väljer man vilken information som skall visas?
Två svar: Χ2-avstånd Optimal projektion
Χ2-avstånd Vi studerar hur vår uppsättning variabler skiljer sig från en variabeluppsättning där variablerna är helt oberoende av varandra Vi studerar ”relativ” avvikelse
Χ2-avstånd En korstabell: Relativa frekvenser för radvariabeln och kolumnvariabeln.
Χ2-avstånd Värden vi fått om rader och kolumner varit oberoende av varandra:
Χ2-avstånd Skillnad mellan vår korstabell och det vi skulle fått om rader och kolumner varit oberoende av varandra:
Χ2-avstånd Skillnad mellan vår korstabell och det vi skulle fått om rader och kolumner varit oberoende av varandra, i förhållande till det värde vi skulle fått om rader och kolumner varit oberoende av varandra:
Χ2-avstånd Ursprungstabell: Förväntad tabell vid oberoende: Avvikelse: Relativ avvikelse:
Radprofiler: Kolumnprofiler:
Χ2-avstånd Koordinat för Melodifestivalen i tre dimensioner! Koordinat för Kieslowski i fyra dimensioner! Koordinat för Melodifestivalen i tre dimensioner!
d i kvadrat är ”chi2-avståndet” Avståndet mellan kolumnerna Kieslowski och Den eneste kan beräknas med hjälp av phytagoras sats: d y1-y2 x1-x2 (x1,y1) (x2,y2) d i kvadrat är ”chi2-avståndet”
Χ2-avstånd Summan av de relativa avvikelserna i kvadrat är ”chi2-värdet” för korstabellen: Summan = 35,4 Alltså är tabellens chi2-värde 35,4
Χ2-avstånd Koppling till sannolikhetsteori: Om tabellens rader och kolonner är oberoende av varandra, och tabellens värden är ”normalfördelade”, så är tabellens chi2-värde ”chi2-fördelat”
Χ2-avstånd 4 kolumner och 3 rader ger en chi2-fördelning Summan = 35,4 Alltså är tabellens chi2-värde 35,4 4 kolumner och 3 rader ger en chi2-fördelning med (3-1)(4-1) = 2*3=6 frihetsgrader: Frekvensfunktion 35,4 Fördelningsfunktion 35,4
Exempel på probabilistisk användning: 2*5=10 frihetsgrader chi2-värdet = 12,3 70% 12,3
99.99% 1*5=5 frihetsgrader chi2-värdet = 32,8 32,8
Projektion