Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Kursmål: För godkänt betyg på kursen skall studenten känna till ett flertal metoder och tekniker för visualisering av datamaterial; kunna genomföra enkla beräkningar av sannolikheter; ha grundläggande kunskaper om stokastiska variabler, vanliga sannolikhetsfördelningar och innebörden av centrala gränsvärdessatsen; känna till regressionsmetodik för anpassning av mätdata; ha utvecklat en intuitiv förståelse för slump, slumpmässigt beteende och känna till hur man genererar slumptal och slump funktioner; förstå användning av punkt- och intervallskattningar för några typproblem; ha kännedom om några typiska ingenjörstillämpningar av sannolikhet och statistik, exempelvis tillförlitlighet och kvalitetsteknik.
Exempel: Belastningsdata Lastbils bakaxel Belastning, stormig hav
Exempel: Tidsjämförelser i system Jämförelser av olika tider: Kompileringstider? Överföringstider? Beräkningstider? Väntetider? ABC 80. Den första svensk- tillverkade persondatorn
Två datamaterial: Föreligger någon skillnad? Konfidensintervall
Exempel: Paketförluster Buffertöverflöden. Router C: Sannolikhet 0,04 Router D: Sannolikhet 0,02 Router E: Sannolikhet 0,02 Router F: Sannolikhet 0,01 Problem: Beräkna sannolikheten att någon av de fyra routrarna är drabbad av bufferöverflöde vid ett slumpvis valt tillfälle. Beräkna sannolikheten att ett paket kan komma från A till B över någon av de två vägarna. (Sannolikheter, händelser m.m. )
Exempel: klimatdata Mätningar av nederbörd vid Maiquetia flygplats, Venezuela. Vad är ”normalt”?
Regnmängder: vad är ”normalt”? 1951-1998
Histogram, regnmängder 1951-1998
Regnmängder 1951-1999
Histogram, regnmängder 1951-1999
gapminder.org
Behov att beskriva datamaterial LÄGESMÅTT : Hur preciserar vi ”medelvärdet” i en datamängd? SPRIDNINGSMÅTT : Hur stor är spridningen kring medelvärdet? BEROENDEMÅTT : Om vi studerar flera storheter som varierar slumpmässigt, vad kan sägas om deras (eventuella) samvariation?
OBSERVATIONER? KVANTITATIVA: Numeriska observationer. Mätbara, uttryckt i någon form av mått. Observationer kan jämföras med varandra. KVALITATIVA: I stället för siffror används ord eller annan ickenumerisk beskrivning. Kan i vissa fall omvandlas till kvantitativa för statistisk analys.
Analys av data för ingenjörer DESIGN : Fastslå/beräkna värden i diverse normer och tabeller. MODELLERING I ALLMÄNHET: Ta hand om variation/mätfel (natur, teknik) RISKHANTERING : Beräkna sannolikheter för oönskade händelser (risker) BESLUTSFATTANDE : Förändring gjorts. Uttala sig på ett statistiskt sunt sätt om det verkligen skett en förändring.
Kursens struktur: SANNOLIKHETSLÄRA: Begreppet sannolikhet. Förfinade matematiska verktyg för att beskriva spridnings-, läges- och beroendemått samt allmänna metoder att beräkna sannolikheter. STATISTIK (INFERENS) : Dra slutsatser om en större population, baserat på ett antal observationer därur.
Beskrivande statistik
Beskrivande statistik Några begrepp: Lägesmått: Medelvärde, median Spridningsmått: Standardavvikelse, varians, variationsbredd Grafiska hjälpmedel: Histogram (kontinuerliga data klassindelas) Lådagram (box plot ) Spridningsdiagram (scatterplot )
Tidigt exempel: Florence Nightingale Florence Nightingale, en pionjär på många sätt. Analys gjord efter Krimkriget, 1854 - 56
Nightingales analys
Exempel på LÄGESMÅTT Syfte: sammanfatta tyngdpunkten av data i ett numeriskt värde. Medelvärde (stickprovsmedelvärde) Median Typvärde
BERÄKNING av lägesmått
SPRIDNINGSMÅTT Syfte: Sammanfatta spridningen hos data. Variationsbredd Kvartilavstånd Standardavvikelse och varians
BERÄKNING av standardavvikelse
Standardavvikelse Lägg märke till att standardavvikelsen … alltid är ickenegativ är relaterad till aritmetiska medelvärdet har samma enhet som de betraktade observationerna
HISTOGRAM (försäljn. Bromma)
SPRIDNINGSDIAGRAM, pris & boyta Samvariation. 33 radhus i Bromma. Ju större boyta, desto högre pris!
Lådagram (boxplot) Lådagrammets upphovsman: John W TUKEY (1915 - 2000) Presenterades i boken Exploratory Data Analysis (1977)
Försäljningar, Bromma ”Lådan” visar kvartiler (25%, 75%) och median (50%). Lägg märke till ”morrhår” och extrema värden (”out- liers”)
Grundbegrepp: