Presentation laddar. Vänta.

Presentation laddar. Vänta.

Requirements and Design Considerations for an Open and General Architecture for Information Refinement Fredrik Olsson

Liknande presentationer


En presentation över ämnet: "Requirements and Design Considerations for an Open and General Architecture for Information Refinement Fredrik Olsson"— Presentationens avskrift:

1 Requirements and Design Considerations for an Open and General Architecture for Information Refinement Fredrik Olsson

2 Innehåll 1. Introduktion 2. Informationsförädling 3. Några viktiga mjukvaruplattformar 4. En fallstudie – SVENSK 5. Allmänna observationer 6. Kravspecifikation och design av en öppen arkitektur för informationsförädling 7. Slutsatser

3 Nyttan av generell och återanvändbar språkteknologimjukvara Undvika uppfinna hjulet om och om igen Förkorta vägen från idé till prototyp Ett steg mot reproducerbarhet av forskningsresultat

4 Några utmaningar Variationer mellan och inom språk Kunskap om uppgiften, användarna och deras situation

5 Mål och frågor Q-1: Hur beskriva en mängd relaterade språkteknologiuppgifter som är liten nog att försöka göra generell mjukvara för, och som samtidigt är stor nog för att rättfärdiga det merarbete som konstruerandet av sådan mjukvara medför? Definiera en generell och öppen arkitektur för informationsförädling.

6 Mål och frågor (forts.) Q-2: Hur kan mängden relaterade uppgifter beskrivas i termer av krav som en tänkt användare kan ha? Q-3: Hur kan kravspecifikationen implementeras, dvs. hur ska en mjukvara som svarar mot kraven designas?

7 Informationsförädling Med informationsförädling menas den arbetsprocess i vilken text hanteras i syfte att komma åt de delar av innehållet som är relevant sett från ett visst perspektiv.

8 Informationsförädling – några tillämpningsområden Texter och mobila tjänster. SICS, DSV och room33 AB. Data mining. SICS, eNiklas AB. Stöd för professionella informationssökare. SICS, Patent- och Registreringsverket. Proteinnamnsigenkänning. SICS, Virtual Genetics Laboratory AB.

9 Mjukvaruplattformar: TIPSTER DARPA, CIA, DoD, NIST, SPAWAR Mål: effektiv och billig dokumenthantering. Objektorienterad databasarkitektur: Dokument och samlingar av dokument. Annoteringar, spann och attribut. Specifikationen publikt tillgänglig. Ingen har gjort en fullständig implementation.

10 Mjukvaruplattformar: Eurotra EU-projekt: 12 länder, 18 institutioner, 150 forskare Mål 1: förindustriell prototyp av transferbaserad maskinöversättning för nio språk. Mål 2: förbättra forskningsklimatet och kompetensen i datorlingvistik i europa. Delar av arbetet finns tillgängligt.

11 Mjukvaruplattformar : CLE SRI International, Cambridge University. Engelskt projekt (?). Mål: domänoberoende system för att omvandla engelska till formell representation. Inte publikt tillgänglig: ”You don’t give away a one million Pound program” (SRI:s forskningschef).

12 Mjukvaruplattformar: ALEP ALEP: EU-projekt. IAI, Cap Gemini, SNI, SRI-CRC, Cray Systems, SEMA, BIM Mål: plattform för att minska tiden från prototyp till produkt. Möjligt att inkorporera existerande komponenter. Publikt tillgänglig.

13 Mjukvaruplattformar: Verbmobil Tyskt storprojekt. 31 partners, 168,6 miljoner D-mark, 900+ forskare Mål: tal till tal-översättningssystem: tyska, engelska och japanska. Resultatet finns inte publikt tillgängligt.

14 Mjukvaruplattformar: GATE GATE: University of Sheffield – Mål: teoriobunden kommunikations- och kontrollinfrastruktur för språkteknologikomponenter. Bygger på TIPSTER. Fritt tillgänglig.

15 Mjukvaruplattformar: DARPA Communicator DARPA, MITRE, AT&T Labs, MIT, IBM, NIST. Bygger på MIT’s Galaxy II. Mål 1: nästa generations multimodala gränssnitt till distribuerad information. Mål 2: en arkitektur för alla där det är lätt att anpassa och utvärdera moduler. Fritt tillgänglig.

16 Mjukvaruplattformar: ATLAS NIST, MITRE, LDC. Mål: generell arkitektur för att annotera lingvistisk data med tillhörande verktyg. Påminner om TIPSTER. Fritt tillgänglig: bjuder in alla att vara med.

17 En fallstudie - SVENSK NUTEK, SICS Mål: generell verktygslåda för svenska bestående av återanvändningsbara komponenter. Bygger på GATE.

18 TextCat Tokeniser LexToken Splitter UCP SweCG 2 CLEBrillTagger ParserBox DSPDUP LP-Detect SweCG

19 En fallstudie - SVENSK Utmaningar: Politiska; dela med sig, licenser, dokumentation Tekniska: integrering, inga APIer, buggar i svarta lådor Lingvistiska: domänanpassning, avsaknad av verktyg för lingvistisk avlusning

20 Allmänna observationer Hög tid att utvecklare kombinerar kunskap från språkteknologiområdet med traditionell mjukvaruutveckling. En arkitektur bör vara generell m.a.p. en klass av uppgifter, inte ett helt forskningsfält. Olika typer av användare kan ha olika krav. Fokusera på tillämpningsområdet. Håll arkitekturen öppen. Möjliggör användande av existerande och systemspecifika komponenter. Stöd underhåll av arkiktekturen.

21 Behov av en ny plattform - Kaba Fanns ingen passande för informationsförädling Full kontroll över koden Funktionalitet Distribution/öppenhet

22 Kravspecifikation för informationsförädling Användare: datorlingvist/programmerare Kaba ett verktyg för utvecklare av informationsförädlingssystem Tillåta integrering av existerande och specialgjorda komponenter Bygga på öppna standarder Favoriserar ingen speciell lingvistisk teori

23 Kaba-baserat system Information Användare Kaba-baserat system Kaba-baserat system Information AnvändareMjukvara

24 Kravspecifikation - användarkrav 1. Utveckla informationsförädlingssystem 2. Utvärdera system 3. Flytta system till ny informationsdomän eller till nytt språk 4. Dokumentera system 5. Underhålla system 6. Skapa lektioner 7. Hantera data och program

25 Design av en öppen arkitektur Hantering av data Metadata för komponenter (UC 7.1). In- och utdata (UC 7.3, 7.4). Intern representation av annoterad text (UC 7.6). Databeständighet (UC 7.5).

26 Design av en öppen arkitektur Interaktion med andra Kaba-baserat system används av annan mjukvara (UC 1.1.1). Kaba-baserat system använder externa komponenter (UC 7.7.3). Kaba-baserat system interagerar med människor (UC 1.2.1, 1.2.2, 1.2.3). Distribuerad processning (UC 1.1.3, 7.7.1). Dokumentation och lektioner (UC 1.1.4, 4, 6, 7.2).

27 Design av en öppen arkitektur Skapa interna (systemspecifika) komponenter (UC 7.8.1). Använda interna komponenter (UC 7.8.3). Underhåll av system Underhåll av externa komponenter (UC 1.1.2, 7.7.2). Underhåll av interna komponenter (UC 7.8.2). Underhåll av hela system (UC 5).

28 Design av en öppen arkitektur Stöd för att flytta Kaba-baserade system mellan olika informationsdomäner (UC 3). Stöd för utvärdering av system (UC 2).

29 Slutsatser Syftet med generella verktyg är gott, men genomförandet är problematiskt och inte alltid berättigat. Användbara generella verktyg kräver begränsningar! Informationsförädling bra begränsning Kravspecifikation och designförslag kan synliggöra nya forskningsfrågor

30 Nya forskningsfrågor - övergripande När en hypotes om informationsförädling har implementerats i ett system, är det möjligt att använda samma system, eller delar av det, för att testa en annan hypotes? När är det bättre att bygga ett helt nytt system än att återanvända ett existerande?

31 Nya forskningsfrågor - systemnivå Vilka metoder är användbara för att samla och annotera data i syfte att träna och utvärdera komponenter för informationsförädling? Vilka maskininlärningsmetoder är lämpliga för vilka informationsförädlingsuppgifter?

32 Nya forskningsfrågor – bortom systemet Givet att ett informationsförädlingssystem ska konstrueras och att det är tänkt att användas och kanske t.o.m. definieras av användare som inte är experter; vilka metoder finns det för att fånga slutanvändarnas informationsbehov?


Ladda ner ppt "Requirements and Design Considerations for an Open and General Architecture for Information Refinement Fredrik Olsson"

Liknande presentationer


Google-annonser