Jonny Karlsson PROCESSPROGRAMMERING Föreläsning 6 ( ) Innehåll: Att designa parallella program - manuell vs. automatisk parallellisering - Java och ”multi-core” processorer
Jonny Karlsson Manuell vs. automatisk parallellisering Att designa parallella program har länge varit en manuell process Att designa parallell kod är komplext och ger ofta upphov till oväntade fel (trådsäkerhet) Det finns en mängd olika verktyg för automatisk parallellisering av program (främst för Fortran och varianter av C) Parallelliseringsverktyg tillåter ofta två olika typer av automatisering: Fullt automatisk Programmeraren ger direktiv för parallellisering för kompilatorn
Jonny Karlsson Manuell vs. automatisk parallellisering Ett exempel på ett parallelliseringsverktyg är OpenMP, se Det har också utvecklats liknande verktyg för Java, t.ex. Automatisk parallellisering är ofta en bra lösning men det finns också problem: Felaktiga resultat kan produceras Mindre flexibelt än manuell parallellisering Begränsar sej till en viss del av parallelliserbarkod, främst loopar
Jonny Karlsson Manuell vs. automatisk parallellisering ”Ordentliga” automatiska parallelliseringsverktyg för Java saknas? Vi kommer tillsvidare att koncentrera oss på manuell parallellisering eftersom detta ger en bättre förståelse för hur Java program kan parallelliseras och optimeras för Multi- processor arkitekturer
Jonny Karlsson Java och ”multi-core” processorer Dagens Java virtualmaskiner skall enligt litteratur klara av att använda multi-core processorer Multipla Java trådar skall ocskå enligt litteratur klara av att exekveras parallellt på multipla processorer om sådana finns. Concurrent API:n som funnits med sedan JDK5 har (där bl.a. Thread Pools definieras) bästa stödet för multi-core processorer
Jonny Karlsson Hur parallellisera? Hur skall vi då parallellisera ett java program på rätt sätt för att få bästa möjliga prestanda? T.ex. Om vi har en seriell kod (ickeparallelliserad) måste vi söka fram sådana algoritmer som är ”tunga” (detta kan göras manuellt men det finns även ”performance analysis” verktyg som man kan använda för detta ändamål) Den enklaste typen av parallelliserbar kod är loopar En lång loop som t.ex. utför en beräkning för varje iterationsvarv och där varje iterationsvarv är oberoende av varandra kan enkelt splittas upp i två eller flera delar (Denna typ av parallellisering brukar kallas för ”embarrassingly parallell” eftersom det är så enkelt, bl.a. ingen kommunikation behövs mellan de olika delarna)
Jonny Karlsson Hur parallellisera? Det mest optimala är att splitta upp loopen i så många delar som det finns tillgängliga processorer/processorkärnor Att splitta upp en loop i flera delar än antalet processorer/processorkärnor gör inte koden längre effektivare (eftersom processorerna i stället börjar alternera mellan de olika ”överlopps” trådarna) Antalet lediga processorkärnor kan i ett Java-programm fås fram på följande sätt: Runtime.getRuntime().availableProcessors();
Jonny Karlsson Hur parallellisera? När man splittar upp en loop i t.ex. två delar gör man det i praktiken så att vi har en s.k. ”master thread” och två s.k. ”worker threads” Master thread sköter om att skapa en trådgrupp på två trådar och delegerar sedan uppgifter åt ”worker” trådarna Så länge ”worker” trådarna ”arbetar” väntar master tråden (med await)
Jonny Karlsson Hur mycket effektivare program får vi? I teorin borde en loop försnabbas med 50% om vi har två processorkärnor och fördelar ”arbetet” jämnt mellan båda kärnorna. Detta stämmer dock ej i praktiken eftersom: Att skapa trådar/överföra kod till trådgrupper tar processortid Båda processorkärnorna är sällan (nästan aldrig) helt och hållet lediga Så i praktiken försnabbas en loop med ca 35% enligt Java-dokumentationen LÅT OSS TESTA!!!!