some exam questions with suggested solutions
Transcription
some exam questions with suggested solutions
Eksamen i TDT4173 Ruben Spaans December 6, 2012 1 Oppgaver Oppgave 1. Dener hva et velformulert læringsproblem (well-posed learning problem) er. Svar Det betyr at læringen vil forbedres med erfaring for en oppgave: Oppgave T vil løses bedre i henhold til et ytelsesmål P , basert på erfaring E . Oppgave 2. Hypotesen for induktiv læring er en fundamental antakelse for all læring. Hva uttrykker denne hypotesen? Svar Enhver hypotese som approksimerer målfunksjonen bra over en tilstrekkelig stor mengde av treningseksempler vil også approksimere målfunksjonen bra over andre uobserverte eksempler. Oppgave 3. Hva er induktiv bias? Hva er de to hovedformer for induktiv bias? Gi et eksempel på en metode uten induktiv bias. Hva kan denne metoden lære? Svar Induktiv bias er en mengde med antakelser man gjør for at en læringsalgoritme skal være i stand til å predikere resultat på ukjent input. Restriction bias og preference bias! Restriction bias: en restriksjon i hypoteserommet (som i Find-S og CE). Preference bias: ID3. I ID3 vil små beslutningstrær foretrekkes, og de med høy information gain nær rotnoden. Et eksempel på en metode uten induktiv bias er rote learning, en klassikator som lærer å kjenne igjen kun de positive treningseksemplene. Den klarer med andre ord ikke å generalisere, og vil ikke være i stand til å klassisere ukjente data som er ulik treningseksemplene. Det totale antall hypoteser i et hypoteserom er 2|S| der S er mengden av alle eksempler som kan konstrueres. En rote learner kan representere alle hypoteser (target concept) i dette rommet, noe andre algoritmer ikke kan (f.eks candidate elimination). Oppgave 4. Hva menes med overtilpasning (overtting) i sammenheng med induktiv læring? Hva kan forårsake overtilpasning, og hvordan kan 1 man unngå overtilpasning? Du kan eksemplisere ved å referere til læring av beslutningstrær om du vil. Svar En hypotese overtilpasser et treningssett hvis det nnes en annen hypotese som har høyere training error, men har mindre error over hele fordelingen av data. For å ta eksempel fra beslutningstrær: Overtilpasning kan oppstå når man legger til et støyete treningseksempel: Man får et stort beslutningstre som klassiserer dårligere. Man kan stoppe å gro treet når datasplitten ikke er statistisk signikant, eller gro hele treet og prune til slutt. Oppgave 5. Noen maskinlæringsalgoritmer utnytter a priori-kunnskap, an- dre gjør ikke det. Gi to eksempler på læremetoder (fra pensum) som benytter a priori-kunnskap, og to som ikke gjør det. For de to metodene som gjør det, beskriv kort hvilken rolle a priori-kunnskap spiller i læremetoden hos hver av dem. Svar To metoder som ikke bruker a priori-kunnskap: Support vector ma- chines og decision tree learning. Begge lærer kun fra treningseksempler. To metoder som bruker a priori-kunnskap: Bayesianske nettverk og KBANN. Et bayesiansk nettverk er en rettet graf der en kant fra A til B betyr at hendelsen B er betinget av hendelsen A, og da trenger man å vite et estimat for P(B|A). KBANN bruker eksisterende kunnskap for å konstruere et nevralt nettverk før selve læringsfasen. Oppgave 6. Hva er en Naive Bayes-klassikator? Nevn styrker og svakheter denne klassikatoren har. forslag til egenskaper du kan vurdere: Kjøretidskompleksitet for læring og klassikasjon, plass-kompleksitet for modellen, og antagelsen en Naive Bayes-klassikator gjør om (betingede) uavhengigheter mellom de forskjellige variable. Sammenlign dette med egenskapene til generelle Bayesianske nett. Begrunn svarene dine. Svar Naïve Bayes-klassikator er (naturligvis) en klassikasjonsmetode. Den velger target-verdien som har høyest sannsynlighet, som er gitt ved v = argmaxvj ∈V P (vj ) Y P (ai |vj ). i Antakelsen ved metoden er P (a1 , a2 , cdots, an |vj ) = Y P (ai |vj ), i dvs at alle attributtene er uavhengige av hverandre. La n være antall attributter, V mulige klassiseringer (targetverdier), |V | antall slike, T mengde med treningseksempler, |T | antall treningseksempler. Egenskaper ved naive bayes: Kjøretid for læring er: O(|V |n|T |), kjøretid for klassisering O(|V |n) og plasskompleksitet O(|V |n). Alle er polynomiske 2 og håndterbare. Antakelsen er restriktiv. I ere tilfeller kan man si at attributter er avhengige, som torden og regn (torden medfører ofte regn). Egenskaper ved bayesianske nettverk: Mindre streng antakelse, betinget uavhengighet mellom undermengder av variabler. Hvert attributt (node) er betinget uavhengig av sine ikke-etterkommere, gitt foreldrenodene. Inferens (nn verdier av enkelte variabler) er NP-mard, men for mange grafer er det overkommelig, samt at det kan approksimeres bra i praksis. Trening avhenger om nettverksstrukturen er kjent eller ikke. Ukjent => vanskelig, kjent => like lett som naive bayes. Konklusjon, naive bayes er garantert å være kjapt, men antakelsen er veldig restriktiv. Bayes er avhengig av at grafen er kjent. Oppgave 7. EM-algoritmen består av to trinn (E-trinnet og M-trinnet) som gjentas. Beskriv med egne ord hva som skjer i de to trinnene. Når er det nødvendig å bruke EM-algoritmen? Svar EM-algoritmen brukes når man har en fordeling som er en blanding av k forskjellig normalfordelinger, og man ønsker å nne de k mean-verdiene. E-trinnet: regn ut E(zij ) for de skjulte variablene zij , gitt at nåværende hypotese er sann. i er variabelnr og j er nummer på fordeling. zij er ideelt sett 1 hvis variabel i stammer fra fordeling j , og 0 ellers. M-trinnet bruker verdiene beregnet i E-trinnet for å lage ny hypotese (nye mean-verdier). Oppgave 8. Nevn den prinsipielle forskjellen mellom k-Nearest Neighbour- metoden og case-basert resonnering i mer generell forstand, for hvert av de følgende to trinn i CBR-syklusen: Retrieve Reuse Svar Retrieve: k-nearest neighbour nner de k elementene som har kortest (euklidisk) avstand til query-objektet i det aktuelle søkerommet. Er avhengig av at attributtene er delmengde av Rn . I CBR nå man ikke ha søkerom som er delmengde av Rn . Attributtene må ikke være tall. Man kan utvilke spesielle metoder som passer domenet. Reuse: k-nearest neighbour foretar man majority vote eller gjennomsnitt (hvis targetverdi er yttall). I CBR kan man enten kopiere løsningen tilknyttet en case (tilsvarer vote), eller tilpasse (adapt) løsningen til problemet før den utføres. Typisk er case-løsningen mer kompleks enn i k-nearest neighbour. Generelt kan man si at k-nearest neighbour passer bedre til concept learning, mens CBR passer til problemløsning. Oppgave 9. Gitt CBR-systemet Protos. hvordan indekseres casene i Pro- tos? I hvilke av CBR-syklusens 4 faser benyttes generell domenekunnskap? 3 Hvordan benyttes den generelle domenekunnskapen i Retrieve-fasen? Svar Casebasen inneholder exemplars (en slags idealcase) for hver kategori. Det er tre typer indexing knowledge: remindings sier noe om kobling mellom feature og kategori (f.eks. backrest -> chair). Prototypicality sier noe om hvor mye en exemplar tilhører en kategori basert på suksess i tidligere klassiseringer. Exemplar dierences indikerer hvilke features som skiller dem fra exemplarer med lignende beskrivelser. Domenekunnskap brukes i retrieval og revise. I retrieval: gitt newcase, nn exemplar c slik at c er strong match mot newcase. Klassiseringen skal forklares med domenekunnskap, som består av kunnskapen som er representert ved de tre typer indexing knowledge, som er en encoding av kunnskapen. Forklaringen sier hvorfor det er en god match. I revise-fasen sjekker en ekspert om forklaringen er god, og gjør endringer om nødvendig. Oppgave 10. I artikkelen Remembering to forget foreslås det en kompetansemodell for casebaser. Hva uttrykker begrepene retrieval space adaption space coverage set reachability set? Skisser kort hvordan dette rammeverket brukes til å denere en strategi for å slette case fra en casebase. Svar Retrieval space: Gitt et target-problem t, mengden av alle cases som løser t. Adaption space: Gitt et target-problem t, mengden av alle cases hvis løsning kan tilpasses til å løse t. Coverage set: For en gitt case, coverage set er mengden av target-problemer som den kan bli brukt til på løse. Reachability set: Gitt et target-problem, reachability set er mengden av cases som kan skae en løsning på problemet. Målet er å ha en casebase som maksimerer kompetanse og minimerer størrelse. Casene slettes i rekkefølgen (minst viktig til mest viktig), auxiliary, support, spanning, pivotal case. Hvis det er ere kandidater i en kategori, velges den med lavest utility. Oppgave 11. Forklar begrepet kryss-validering. Hvordan brukes kryssvalidering for å beregne godheten av en læringsalgoritme? 4 Svar Kryss-validering er å utelate en bit av treningseksemplene for å sjekke om de blir klassisert korrekt. For å beregne godheten, del opp treningseksemplene i k mengder med minst 30 elementer i hver (like store). Gjør så kryssvalidering, og beregn klassiseringsfeil. Lav feil => bedre algoritme. Kan også brukes for å sammenligne to algoritmer med hverandre. Oppgave 12. Et eksempel på en ensemble-algoritme fra pensum er bag- ging. Hva er bagging? Hva er en svak klassikator (weak classier)? Hvordan kan bagging-algoritmen forbedre resultatene en slik svak klassikator gir? Hvilke egenskaper bør den svake klassikatoren ha for at bagging skal være virkningsfullt? Svar Bagging: Samling med weak classiers, der hver av dem får et datasett som er tilfeldig utplukk (med tilbakelegging) fra originalt datasett. Endelig klassisering skjer med majoritetsvoting blant alle klassikatorene. En svak klassikator er en som er bare litt bedre enn tilfeldig gjetting, for eksempel decision stumps: if person_height > 2m, then person is basketball_player. Den svake klassikatoren bør være ustabil, dvs at små endringer i treningssettet fører til store variasjoner i klassiseringen. Oppgave 13. Support vektor-maskiner kalles ofte stor margin-klassikatorer (large margin classiers). Forklar hvorfor dette er et passende navn for denne klassikasjonsalgoritmen. Svar Tenk på bildet med prikker, den optimale streken og marginlinjene. Oppgave 14. Support vektor-maskiner omtakes også ofte som kjerne- maskiner (kernel machines). Forklar hvilken rolle kjerner/kernels har i SVM-rammeverket. Svar 5