some exam questions with suggested solutions

Transcription

some exam questions with suggested solutions
Eksamen i TDT4173
Ruben Spaans
December 6, 2012
1
Oppgaver
Oppgave 1. Dener hva et velformulert læringsproblem (well-posed learning
problem) er.
Svar Det betyr at læringen vil forbedres med erfaring for en oppgave: Oppgave T vil løses bedre i henhold til et ytelsesmål P , basert på erfaring E .
Oppgave 2. Hypotesen for induktiv læring er en fundamental antakelse for
all læring. Hva uttrykker denne hypotesen?
Svar Enhver hypotese som approksimerer målfunksjonen bra over en tilstrekkelig stor mengde av treningseksempler vil også approksimere målfunksjonen
bra over andre uobserverte eksempler.
Oppgave 3. Hva er induktiv bias? Hva er de to hovedformer for induktiv
bias? Gi et eksempel på en metode uten induktiv bias. Hva kan denne
metoden lære?
Svar Induktiv bias er en mengde med antakelser man gjør for at en læringsalgoritme skal være i stand til å predikere resultat på ukjent input. Restriction
bias og preference bias! Restriction bias: en restriksjon i hypoteserommet
(som i Find-S og CE). Preference bias: ID3. I ID3 vil små beslutningstrær
foretrekkes, og de med høy information gain nær rotnoden.
Et eksempel på en metode uten induktiv bias er rote learning, en klassikator som lærer å kjenne igjen kun de positive treningseksemplene. Den klarer
med andre ord ikke å generalisere, og vil ikke være i stand til å klassisere
ukjente data som er ulik treningseksemplene. Det totale antall hypoteser i
et hypoteserom er 2|S| der S er mengden av alle eksempler som kan konstrueres. En rote learner kan representere alle hypoteser (target concept)
i dette rommet, noe andre algoritmer ikke kan (f.eks candidate elimination).
Oppgave 4. Hva menes med overtilpasning (overtting) i sammenheng
med induktiv læring? Hva kan forårsake overtilpasning, og hvordan kan
1
man unngå overtilpasning? Du kan eksemplisere ved å referere til læring
av beslutningstrær om du vil.
Svar En hypotese overtilpasser et treningssett hvis det nnes en annen
hypotese som har høyere training error, men har mindre error over hele
fordelingen av data. For å ta eksempel fra beslutningstrær: Overtilpasning
kan oppstå når man legger til et støyete treningseksempel: Man får et stort
beslutningstre som klassiserer dårligere. Man kan stoppe å gro treet når
datasplitten ikke er statistisk signikant, eller gro hele treet og prune til
slutt.
Oppgave 5. Noen maskinlæringsalgoritmer utnytter a priori-kunnskap, an-
dre gjør ikke det. Gi to eksempler på læremetoder (fra pensum) som benytter
a priori-kunnskap, og to som ikke gjør det. For de to metodene som gjør det,
beskriv kort hvilken rolle a priori-kunnskap spiller i læremetoden hos hver
av dem.
Svar To metoder som ikke bruker a priori-kunnskap: Support vector ma-
chines og decision tree learning. Begge lærer kun fra treningseksempler.
To metoder som bruker a priori-kunnskap: Bayesianske nettverk og KBANN.
Et bayesiansk nettverk er en rettet graf der en kant fra A til B betyr at
hendelsen B er betinget av hendelsen A, og da trenger man å vite et estimat
for P(B|A). KBANN bruker eksisterende kunnskap for å konstruere et nevralt
nettverk før selve læringsfasen.
Oppgave 6. Hva er en Naive Bayes-klassikator? Nevn styrker og svakheter
denne klassikatoren har. forslag til egenskaper du kan vurdere: Kjøretidskompleksitet for læring og klassikasjon, plass-kompleksitet for modellen, og
antagelsen en Naive Bayes-klassikator gjør om (betingede) uavhengigheter
mellom de forskjellige variable. Sammenlign dette med egenskapene til generelle
Bayesianske nett. Begrunn svarene dine.
Svar Naïve Bayes-klassikator er (naturligvis) en klassikasjonsmetode. Den
velger target-verdien som har høyest sannsynlighet, som er gitt ved
v = argmaxvj ∈V P (vj )
Y
P (ai |vj ).
i
Antakelsen ved metoden er
P (a1 , a2 , cdots, an |vj ) =
Y
P (ai |vj ),
i
dvs at alle attributtene er uavhengige av hverandre. La n være antall attributter, V mulige klassiseringer (targetverdier), |V | antall slike, T mengde
med treningseksempler, |T | antall treningseksempler.
Egenskaper ved naive bayes: Kjøretid for læring er: O(|V |n|T |), kjøretid for
klassisering O(|V |n) og plasskompleksitet O(|V |n). Alle er polynomiske
2
og håndterbare. Antakelsen er restriktiv. I ere tilfeller kan man si at
attributter er avhengige, som torden og regn (torden medfører ofte regn).
Egenskaper ved bayesianske nettverk: Mindre streng antakelse, betinget
uavhengighet mellom undermengder av variabler. Hvert attributt (node)
er betinget uavhengig av sine ikke-etterkommere, gitt foreldrenodene. Inferens (nn verdier av enkelte variabler) er NP-mard, men for mange grafer
er det overkommelig, samt at det kan approksimeres bra i praksis. Trening
avhenger om nettverksstrukturen er kjent eller ikke. Ukjent => vanskelig,
kjent => like lett som naive bayes. Konklusjon, naive bayes er garantert
å være kjapt, men antakelsen er veldig restriktiv. Bayes er avhengig av at
grafen er kjent.
Oppgave 7. EM-algoritmen består av to trinn (E-trinnet og M-trinnet)
som gjentas. Beskriv med egne ord hva som skjer i de to trinnene. Når er
det nødvendig å bruke EM-algoritmen?
Svar EM-algoritmen brukes når man har en fordeling som er en blanding av
k forskjellig normalfordelinger, og man ønsker å nne de k mean-verdiene.
E-trinnet: regn ut E(zij ) for de skjulte variablene zij , gitt at nåværende
hypotese er sann. i er variabelnr og j er nummer på fordeling. zij er ideelt
sett 1 hvis variabel i stammer fra fordeling j , og 0 ellers. M-trinnet bruker
verdiene beregnet i E-trinnet for å lage ny hypotese (nye mean-verdier).
Oppgave 8. Nevn den prinsipielle forskjellen mellom k-Nearest Neighbour-
metoden og case-basert resonnering i mer generell forstand, for hvert av de
følgende to trinn i CBR-syklusen:
ˆ Retrieve
ˆ Reuse
Svar Retrieve: k-nearest neighbour nner de k elementene som har kortest
(euklidisk) avstand til query-objektet i det aktuelle søkerommet. Er avhengig
av at attributtene er delmengde av Rn . I CBR nå man ikke ha søkerom som
er delmengde av Rn . Attributtene må ikke være tall. Man kan utvilke
spesielle metoder som passer domenet.
Reuse: k-nearest neighbour foretar man majority vote eller gjennomsnitt
(hvis targetverdi er yttall). I CBR kan man enten kopiere løsningen tilknyttet en case (tilsvarer vote), eller tilpasse (adapt) løsningen til problemet før
den utføres. Typisk er case-løsningen mer kompleks enn i k-nearest neighbour.
Generelt kan man si at k-nearest neighbour passer bedre til concept learning,
mens CBR passer til problemløsning.
Oppgave 9. Gitt CBR-systemet Protos. hvordan indekseres casene i Pro-
tos? I hvilke av CBR-syklusens 4 faser benyttes generell domenekunnskap?
3
Hvordan benyttes den generelle domenekunnskapen i Retrieve-fasen?
Svar Casebasen inneholder exemplars (en slags idealcase) for hver kategori.
Det er tre typer indexing knowledge: remindings sier noe om kobling
mellom feature og kategori (f.eks. backrest -> chair). Prototypicality sier
noe om hvor mye en exemplar tilhører en kategori basert på suksess i tidligere
klassiseringer. Exemplar dierences indikerer hvilke features som skiller
dem fra exemplarer med lignende beskrivelser.
Domenekunnskap brukes i retrieval og revise. I retrieval: gitt newcase, nn
exemplar c slik at c er strong match mot newcase. Klassiseringen skal forklares med domenekunnskap, som består av kunnskapen som er representert
ved de tre typer indexing knowledge, som er en encoding av kunnskapen.
Forklaringen sier hvorfor det er en god match. I revise-fasen sjekker en
ekspert om forklaringen er god, og gjør endringer om nødvendig.
Oppgave 10. I artikkelen Remembering to forget foreslås det en kompetansemodell for casebaser. Hva uttrykker begrepene
ˆ retrieval space
ˆ adaption space
ˆ coverage set
ˆ reachability set?
Skisser kort hvordan dette rammeverket brukes til å denere en strategi for
å slette case fra en casebase.
Svar Retrieval space: Gitt et target-problem t, mengden av alle cases som
løser t.
Adaption space: Gitt et target-problem t, mengden av alle cases hvis løsning
kan tilpasses til å løse t.
Coverage set: For en gitt case, coverage set er mengden av target-problemer
som den kan bli brukt til på løse.
Reachability set: Gitt et target-problem, reachability set er mengden av
cases som kan skae en løsning på problemet.
Målet er å ha en casebase som maksimerer kompetanse og minimerer størrelse. Casene slettes i rekkefølgen (minst viktig til mest viktig), auxiliary,
support, spanning, pivotal case. Hvis det er ere kandidater i en kategori,
velges den med lavest utility.
Oppgave 11. Forklar begrepet kryss-validering. Hvordan brukes kryssvalidering for å beregne godheten av en læringsalgoritme?
4
Svar Kryss-validering er å utelate en bit av treningseksemplene for å sjekke
om de blir klassisert korrekt. For å beregne godheten, del opp treningseksemplene i k mengder med minst 30 elementer i hver (like store). Gjør så
kryssvalidering, og beregn klassiseringsfeil. Lav feil => bedre algoritme.
Kan også brukes for å sammenligne to algoritmer med hverandre.
Oppgave 12. Et eksempel på en ensemble-algoritme fra pensum er bag-
ging. Hva er bagging? Hva er en svak klassikator (weak classier)?
Hvordan kan bagging-algoritmen forbedre resultatene en slik svak klassikator gir? Hvilke egenskaper bør den svake klassikatoren ha for at bagging
skal være virkningsfullt?
Svar Bagging: Samling med weak classiers, der hver av dem får et datasett
som er tilfeldig utplukk (med tilbakelegging) fra originalt datasett. Endelig
klassisering skjer med majoritetsvoting blant alle klassikatorene.
En svak klassikator er en som er bare litt bedre enn tilfeldig gjetting,
for eksempel decision stumps: if person_height > 2m, then person is
basketball_player.
Den svake klassikatoren bør være ustabil, dvs at små endringer i treningssettet fører til store variasjoner i klassiseringen.
Oppgave 13. Support vektor-maskiner kalles ofte stor margin-klassikatorer
(large margin classiers). Forklar hvorfor dette er et passende navn for denne
klassikasjonsalgoritmen.
Svar Tenk på bildet med prikker, den optimale streken og marginlinjene.
Oppgave 14. Support vektor-maskiner omtakes også ofte som kjerne-
maskiner (kernel machines). Forklar hvilken rolle kjerner/kernels har i
SVM-rammeverket.
Svar
5