Presentation laddar. Vänta.

Presentation laddar. Vänta.

Rapportskrivande Exjobb SA3 2010. Inledning • Varför skriver vi vetenskapliga rapporter? – För att kommunicera vår studie och våra resultat – Men också.

Liknande presentationer


En presentation över ämnet: "Rapportskrivande Exjobb SA3 2010. Inledning • Varför skriver vi vetenskapliga rapporter? – För att kommunicera vår studie och våra resultat – Men också."— Presentationens avskrift:

1 Rapportskrivande Exjobb SA3 2010

2 Inledning • Varför skriver vi vetenskapliga rapporter? – För att kommunicera vår studie och våra resultat – Men också för att tillåta granskning från forskningssamfundet.

3 Inledning • Vilka krav ställer detta på vår rapport? – Absolut viktigast är att studiens resultat är giltiga • Reliabilitet: Tillförlitlighet i experiment, datainsamling etc. med avseende på slumpmässiga variationer. • Validitet: Att studien mäter eller undersöker det som avses dvs. att problemet kan och har behandlats systematiskt. • Representativitet: Att slutsatserna är generella • Upprepningsbarhet: Studien skall i princip kunna upprepas av någon annan, vilket bl. a. ställer krav på extrem detaljnivå i avgörande stycken.

4 Inledning • Övriga krav • Bygger på och förhåller sig till existerande forskning • ¨Heltäckande – en läsare som tillhör målgruppen skall kunna tillgodogöra sig hela rapporten • Stringent – ”den röda tråden” skall lysa • Välskriven med ett formellt språk • Skall följa en väl etablerad standard för utformningen av vetenskapliga rapporter

5 Delar i en rapport • Titelsida • Abstract (sammanfattning) • Innehållsförteckning • List of figures • List of tables • List of publications • Acknowledgement

6 Delar i en rapport • Observera att detta skiljer sig något från den föreslagna dispositionen i boken – Inledning – Eventuell övergripande metod och positionering – Bakgrund och relaterat arbete (teori) – Genomförd forskning • Metod, Resultat, Analys, Delslutsatser – Övergripande slutsatser – Diskussion och förslag till vidare forskning

7 Rapport: Abstract • Bör sammanfatta rapporten på ett övergripande sätt. • Beskriv problemet – Det övergripande området/problemet – Det exakta problemet studerat • Beskriv metoden / lösningen • Beskriv resultatet • Ge de viktigaste slutsatserna

8 Rapport: Abstract – Lic Tuve • An ensemble is a composite model, aggregating multiple base models into one predictive model. An ensemble prediction, consequently, is a function of all included base models. Both theory and a wealth of empirical studies have established that ensembles are generally more accurate than single predictive models. The main motivation for using ensembles is the fact that combining several models will eliminate uncorrelated base classifier errors. This reasoning, however, requires the base classifiers to commit their errors on different instances – clearly there is no point in combining identical models. Informally, the key term diversity means that the base classifiers commit their errors independently of each other. The problem addressed in this thesis is how to maximize ensemble performance by analyzing how diversity can be utilized when creating ensembles. A series of studies, addressing different facets of the question, is presented. The results show that ensemble accuracy and the diversity measure difficulty are the two individually best measures to use as optimization criterion when selecting ensemble members. However, the results further suggest that combinations of several measures are most often better as optimization criteria than single measures. A novel method to find a useful combination of measures is proposed in the end. Furthermore, the results show that it is very difficult to estimate predictive performance on unseen data based on results achieved with available data. Finally, it is also shown that implicit diversity achieved by varied ANN architecture or by using resampling of features is beneficial for ensemble performance.

9 Rapport: Inledning • (Kom ihåg att hela rapporten i princip skrivs efter att studien är genomförd, dvs. använd inte futurum.) • Kanske det viktigaste kapitlet i rapporten! • Skall bl. a. – Introducera läsaren i ämnet – Motivera studien – Precisera frågeställningen – Redogöra för de viktigaste forskningsbidragen

10 Rapport: Inledning • Inledningskapitlet är oftast hårt strukturerat – Introducerande text – Problemformulering – Forskningsfrågor/Delmål – Viktigaste forskningsbidrag – Beskrivning av rapportens vidare upplägg

11 En iakttagelse • En läsare som inte vill/orkar läsa hela rapporten kommer ofta titta på följande avsnitt: – Sammanfattning / abstract – Viktigaste forskningsbidrag – Introduktion – Problemformulering – Forskningsfrågor/delmål – Slutsatser

12 Inledning: Introducerande text • Syftet är att introducera läsaren i ämnet • Introduktionen måste vara relativt kort och skall enkelt gå att följa för någon i målgruppen. – Ofta börjar introduktionen väldigt brett och smalnar sedan av. – Specifikt skall läsaren inte behöva referera längre fram i rapporten för att förstå introduktionen. – Undvik såväl svåra begrepp som alltför tekniska beskrivningar (om inte målgruppen motiverar det) – Introduktionen skall innehålla precis så mycket som behövs för att förklara och motivera problemformuleringen!

13 Exempel - introduktion • Tuves lic. Tuves lic. • Rikards lic. Rikards lic. • Man kan tänka sig en sammanfattande punktlista (eller motsvarande) som ingång till problemformuleringen. • RikardKeyObs RikardKeyObs

14 Problemformulering • Det viktigaste stycket i hela rapporten! – Skall driva hela arbetet. • Kan formuleras som en forskningsfråga – Bryts oftast ner i mindre delfrågor – Slutsatserna svarar på dessa frågor • Kan formuleras som ett problem – Bryts ner i utvärderingsbara ”objectives” (delmål) – Slutsatserna återkopplar till delmålen

15 Problem Statement - Tuve • The main problem: How should ensembles be created to maximize predictive performance? • The problem statement: How could measurements of diversity and predictive performance on available data be used when combining or selecting base classifiers in order to maximize ensemble predictive performance on unseen data?

16 Research Questions - Tuve • The problem statement can be further specified through the following more specific research questions: 1.How do different means of achieving implicit diversity among base classifiers affect the performance of, and diversity in, the ensemble? 2.Can ensemble predictive performance on novel data be estimated from results on available data? 3.Is there an optimization criterion based on an existing measure on available data that is best for the purpose of developing ensembles that maximize predictive performance? 4.Are combinations of single measures a good solution for the purpose of developing ensembles that maximize predictive performance?

17 Problem statement - Rikard

18 Viktigaste bidrag • Detta avsnitt skrivs väldigt sent trots att det ligger i första kapitlet. • Våga vara tydlig med vad det / de viktigaste bidraget är. • Var inte onödigt blygsam men undvik definitivt också att påstå något här som inte backas upp i rapporten. – Specifikt påstå inte att du ”löst” en generalisering av vad du studerat.

19 Viktigaste bidrag - Tuve Main Contributions Six studies addressing how to use diversity and performance measures in ensemble creation have been addressed in this thesis. The main contributions are: – Implicit diversity is beneficial for overall ensemble accuracy, compared with ensembles with homogenously trained models. – Results show that estimating ensemble performance based on training or validation data is very hard. – Ensemble accuracy and the diversity measure difficulty are the most successful measures to use as single optimization criteria. – A method for optimizing a combined optimization criterion is proposed, which prove to be better than the single best optimization criterion regardless of which single measure that was best.

20 Viktigaste bidrag - Rikard

21 Bakgrund och relaterat arbete • Kan organiseras på olika sätt – oftast dock flera kapitel. • Det ni skriver är ingen lärobok – målet är att ge någon i målgruppen en processerad och sammanfattande genomgång av för den genomförda studien relevant teori. • Teorigenomgången kan vara ganska bred, medan relaterat arbete handlar om exakt (eller nästan exakt) samma problem som det man studerar.

22 Bakgrund och relaterat arbete • Avsnittet om relaterat arbete anses av många (t.ex. vissa examinatorer) vara extremt viktigt. Varför det? – Forskning är kumulativ – Forskning skall utgå från forskningsfronten – inte från vad som står i t.ex. läroböcker – Författarna måste visa att de satt sig in i och förstått vad andra forskare gjort inom problemområdet – Som forskare vill man gärna att andra skall läsa och relatera till ens eget arbete – men det måste förstås gälla åt båda håll

23 Exempel – Ulf avhandling CHAPTER 2 DATA MINING11 2.1A GENERIC DESCRIPTION OF DATA MINING ALGORITHMS D ATA P REDICTIVE REGRESSION P REDICTIVE CLASSIFICATION C LUSTERING C ONCEPT DESCRIPTION E VALUATION AND COMPARISON OF CLASSIFIERS 30 CHAPTER 3 BASIC DATA MINING TECHNIQUES39 3.1L INEAR REGRESSION D ECISION TREES N EURAL NETWORKS G ENETIC ALGORITHMS G ENETIC PROGRAMMING 56 CHAPTER 4 RULE EXTRACTION61 4.1S ENSITIVITY ANALYSIS R ULE EXTRACTION FROM TRAINED NEURAL NETWORKS R ELATED WORK CONCERNING RULE EXTRACTION 67 CHAPTER 5 ENSEMBLES75 5.1M OTIVATION FOR ENSEMBLES E NSEMBLE CONSTRUCTION D IVERSITY R ELATED WORK CONCERNING ENSEMBLE CREATION 87

24 Forskningskapitel • Kan vara ett eller flera. – I en avhandling eller lic. är det oftast flera kapitel, var och ett presenterande en studie, men i en kandidatuppsats räcker det oftast med ett forskningskapitel. – Bör innehålla: • Metod • Resultat • Analys • Delslutsatser

25 Forskningskapitel - metod • Metoden beskriver i detalj hur ni genomfört studien. – I en uppsats är detta oftast det överlägset längsta kapitlet. – Allt skall dokumenteras och beskrivas på en nivå som: • Gör det möjligt för läsaren att bedöma t.ex. reliabilitet, validitet och representativitet. • Innebär att studien (i princip) skall vara möjlig att upprepa för en annan forskare.

26 Forskningskapitel - metod • De flesta exjobb innehåller någon form av empiri. Empiri kan vara t.ex.: – Enkäter – Intervjuer – Kartläggning – Användarstudier – Experiment – Aktionsforskningsprojekt – Utvecklande av system eller prototyp

27 Forskningskapitel - metod • Syftet med empirin skall vara uttalat (bör svara på någon av forskningsfrågorna eller bidra till något av delmålen). • Vald empiri (tillvägagångssätt) skall vara väl motiverat. • Olika designval i studiens utformning bör också motiveras.

28 Exempel – syfte med studie • The purpose of this study (Löfström, Johansson & Niklasson 2008) is to empirically evaluate some standard techniques for introducing implicit diversity in ANN ensembles. More specifically, the study compares resampling techniques and the use of different architectures for base classifier ANNs against a baseline setup. The baseline setup combines a number of ANNs with identical architectures that were trained individually, using all available training data. The most important criterion is of course generalization accuracy; i.e., accuracy on a test set, but it is also interesting to compare the levels of diversity produced by the different methods. In addition, the study examines how diversity, measured using the disagreement measure, and generalization accuracy co-vary, depending on the technique used to introduce the diversity.

29 Exempel – syfte med studie • The purpose of this study was to evaluate G-REX against the criteria proposed by Craven and Shavlik in [CS99]; i.e. accuracy, comprehensibility, fidelity, scalability and generality. To demonstrate the high generality possessed by G-REX, rule extraction was extended to regression problems. In addition, new representation languages, here regression trees and fuzzy rules, were used. Lastly, G-REX was also applied to another kind of opaque models, here boosted decision trees.

30 Exempel – motiverade designval • For simplicity, and to allow easy replication of the experiments, the Weka workbench [19] was used for all experiments. In this study, two kinds of ensemble models were used as oracles, a large Random Forest [5] and a number of RBF neural networks, trained and combined using standard bagging [4]. For the actual classification, J48 and JRip were used since they represent what probably are the most famous tree inducer C4.5 [17] and rule inducer RIPPER [7], respectively.

31 Forskningskapitel - resultat • Fundera igenom noga exakt hur resultaten skall presenteras. – Resultaten skall presenteras så tydligt som möjligt, t.ex. i figurer, tabeller och diagram – Resultaten skall presenteras i sin helhet – om det blir för mycket data kan delar flyttas till en appendix. – Resultaten bör kommenteras och viss analys kan/bör förekomma i resultatkapitlet.

32 CompanyTOMIM Always0.83 Apollo Fritidsresor Ving Mean Figure 42: Short-term prediction of IM for Apollo. Table 40: Results for short-term predictions given as R 2 values. Short-term predictions, using the variables share-of-voice and previous result, were much better (with the exception of Fritidsresor), see Table 40 and a sample prediction in Figure 42. Forskningskapitel – resultat: exempel

33

34 Forskningskapitel - analys • Analysen bör vara på övergripande nivå • Analysen bör utgå från studiens syfte (en forskningsfråga eller ett delmål) och måste baseras på resultaten. • Ofta använder man olika statistiska metoder för att genomföra analysen – detta är ämnet för F2 i kursen.

35 Forskningskapitel – analys: exempel

36 Forskningskapitel - delslutsatser • Observera att detta inte är det övergripande slutsatskapitlet. • Slutsatserna utgår från studiens (empirins) syfte. • Slutsatserna måste vara tydliga utifrån analysen. • Slutsatserna sammanfattar ofta studien

37 Forskningskapitel – slutsatser: exempel This paper shows that the predictive performance of genetically evolved decision trees can compete successfully with trees induced by more specialized machine learning techniques, here J48. The main advantage for an evolutionary approach is the inherent ability to produce a number of decision trees without having to sacrifice individual accuracy to obtain diversity. Here, each tree was evolved based on all available training data, which is in contrast to standard techniques, which normally have to rely on some resampling technique to produce diversity. The proposed method, consequently, evolves a collection of accurate yet diverse decision trees, and then uses some selection strategy to pick one specific tree from that pool. The key idea, suggested here, is to form an imaginary ensemble of all trees in the pool, and then base the selection strategy on that ensemble. Naturally, the assumption is that individual trees that, to a large extent, agree with the ensemble are more likely to generalize well to novel data. In the experimentation, the use of several selection strategies produced evolved trees significantly more accurate than the standard rule inducer J48. The best performance was achieved by selection strategies utilizing the imaginary ensemble on actual predictions, thus limiting the applicability to problems where predictions are made for sets of instances. Nevertheless, the results also show that even when bulk predictions are not possible, the suggested approach still outperformed J48.

38 Slutsatser (övergripande) • Slutsatserna besvarar forskningsfrågorna eller visar att delmålen är uppfyllda. – Oftast upprepar man frågorna/delmålen och redovisar därefter motsvarande slutsats. • Slutsatserna måste utgå från empirin (samt möjligen teorin) och bör styrkas genom referenser tillbaka in i texten.

39 Slutsatser (övergripande): exempel - Rikard

40 Slutsatser (övergripande): exempel - Tuve Slutsatser Tuve

41 Diskussion och förslag till vidare forskning • I detta kapitel diskuterar författarna kritiskt studien, t.ex. utifrån kriterierna reliabilitet, validitet etc. • Författarna kan även ge förslag på fortsatt forskning

42 Exjobbet • Det exakta formatet styrs av hur ert projekt ser ut. • Om ni bara har en studie, som då skall svara på alla forskningsfrågorna, så har ni förstås bara övergipande slutsatser. • Ofta kan det ändå vara bra att dela in rapportens empiri i flera studier eller experiment.

43 Exjobbet • Den röda tråden skall ”lysa” dvs. den skall vara tydlig och enkel att följa. – Problemformuleringen skall följa av inledningen – Forskningsfrågorna skall följa av problemformuleringen – Den empiriska studien (metoden) skall vara designad för att kunna svara på forskningsfrågorna – Resultaten från den empiriska studien skall redovisas tydligt – Analysen skall utgå från de redovisade resultaten – Slutsatserna skall besvara forskningsfrågorna baserat på analysen.

44 Språket • Ni kan skriva på engelska eller svenska • Välj inte engelska om ni inte a) är vana att skriva på engelska b) tror att ert arbete kommer att behöva spridas internationellt • Ett dåligt språk kan förstöra en i övrigt bra rapport • Ni måste undvika stavfel, meningsbyggnadsfel, särskrivningar etc.

45 Språket – några tips • Skriv under hela exjobbets gång, dvs. spara inte rapporten till sist. • Om ni vet med er att ni inte är speciellt duktiga på att skriva så bör ni försöka hitta någon som kan hjälpa er genom att läsa korrektur • När ni skriver, skriv inte en ”draft” först (som ni tänker er att fixa till språket på efteråt) utan lägg kraften på att skriva korrekt från början

46 Språket – några tips • Oftast är det bäst att skriva kortfattat och rakt på, vilket då passar bäst ihop med en saklig och ganska ”torr” stil • Forskningsrapporter bygger på precision och stringens, kom t.ex. ihåg att ett ords exakta betydelse ofta är viktigt • Hela rapporten skrivs i efterhand – använd lämpligt tempus. • Använd passiv form i skrivandet dvs. ”En trädmodell skapades med Clementine” I stället för ”Vi skapade en trädmodell i Clementine” • Undvik överhuvudtaget ”vi”, om ni inte vill lyfta fram att ni t.ex. gjorde ett avgörande designval.

47 Referenser • Vi använder Harvardsystemet, vilket beskrivs väl i boken • Två huvudsakliga varianter: – ”Blom et al. (2005) beskriver t-testet…” – ”Sambanden analyseras med ett t-test (Blom et al. 2005) • Observera att ”allmängods” inte behöver refereras – men att ni då förstås inte får ”klippa och klistra” från en viss källa • Mycket viktigt: – Väv in referenserna i texten, stapla dem inte på varandra. – Om ni t.ex. i teorin vill beskriva något och använder er av främst en källa skriv det då innan presentationen istället för att referera varje stycke. • ”Beskrivningen av neuronnät nedan baserar sig på Haykin (1998).”

48 Exempel – inte bra sätt att referera Hjärnans sätt att lagra information har väckt intresse hos forskare inom datavetenskapen, vilket lett till att en ny teknik har vuxit fram (ANN). Denna teknik eftersträvar att simulera den mänskliga hjärnans funktionalitet, för att kunna tillämpas på problem som ej kunnat lösas med traditionella data­ vetenskapliga metoder. (Andersson & McNiell, 1992) Ett ANN är liksom det biologiska neuronnätet uppbyggt av neuron. Ett artificiellt neuron simulerar de grundläggande funktionerna hos den biologiska neuronen. (Andersson & McNiell, 1992). Figur 3.3 Ett artificiellt neurons grundläggande funktionalitet. Länkarna, vilka samankopplar neuron, har en vikt. Vikten (W n ) hos länken multipliceras med indatan (X n ) och bestämmer härigenom hur stor och vilken inverkan indatan skall ha på neuronet. Det är länkarnas vikt som uppdateras då neuronnätet tränas. Neuron i sig är uppbyggda av två beräkningsfunktioner. Den första, summeringsfunktionen, ger summan av den viktade indatan. Transferfunktionen (f) bearbetar sedan resultatet från summerings­funktionen, vilket ger neuronets utdata. (Andersson & McNiell, 1992)

49 Bättre sätt att referera Neuronnät är en välkänd och mogen teknik. Nedanstående teoretiska genomgång följer i stort läroboken, ”Artificial Intelligence, A modern approach” (Russell & Norvig 1995, s ). … Backpropagation (Rumelhart, Hinton & Williams 1986) är den populäraste metoden för att träna MLP nät, vilket gör att nät av denna typen ofta helt enkelt kallas för backpropagationnät. Nätet initialiseras med slumpmässiga vikter som sedan anpassas genom träning. • Varför en referens där?

50 Utformning och omfattning • Rapporten skall skrivas i institutionens mall för kandidatuppsats – Informatik. • Antalet sidor bör vara mer än 40 men mindre än 60. Antalet sidor får inte överstiga 100. • Detta inkluderar inte ”datatunga” appendix som t.ex. kodlistningar.

51 Seminarier • Utnyttja seminarierna på bästa sätt – Seminarierna finns för att underlätta processen och förbättra kvaliteten på de färdiga rapporterna. – Seminarierna ställer krav på att man ligger någorlunda rätt i tidsplanen. • Gör inte ”minsta möjliga” utan se till att ni har tillräckligt med tid för att hinna producera något av hög kvalitet. • Lägg mycket kraft både på den egna texten och på att läsa och kritisera den andra gruppen. • Fokusera på de viktigaste aspekterna – se till att det hela hänger ihop.


Ladda ner ppt "Rapportskrivande Exjobb SA3 2010. Inledning • Varför skriver vi vetenskapliga rapporter? – För att kommunicera vår studie och våra resultat – Men också."

Liknande presentationer


Google-annonser