Strojno učenje in odkrivanje znanja v podatkovnih bazah (data
Transcription
Strojno učenje in odkrivanje znanja v podatkovnih bazah (data
Univerza v Ljubljani Fakulteta za strojništvo Strojno učenje in odkrivanje znanja v podatkovnih bazah (data mining) Učno gradivo za predmet Inteligentni sistemi doc. dr. Bogdan Filipič Institut Jožef Stefan Jamova 39, 1000 Ljubljana bogdan.filipic@ijs.si Ljubljana, 2002 1. Uvod Sodobne računalniške in komunikacijske tehnologije omogočajo zbiranje, shranjevanje in hitro dostopanje do velikih količin podatkov. Obstoječe baze podatkov pa ostajajo v veliki meri neobdelane in neizkoriščene. V njih je še veliko neodkritih in potencialno uporabnih informacij, do katerih bi lahko prišli le z ustrezno analizo podatkov. Razkorak med velikim obsegom uskladiščenih podatkov in njihovo skromno izkoriščenostjo je spodbudil razvoj novega področja v računalništvu, t.i. podatkovnega rudarjenja (angl. data mining), imenovanega tudi odkrivanje znanja v podatkovnih bazah (angl. knowledge discovery in databases – KDD). Področje se ukvarja z odkrivanjem implicitnih, doslej neznanih in potencialno uporabnih informacij v podatkih (Witten in Frank, 2000). Ključni korak v tem pristopu je uporaba strojnega učenja (angl. machine learning) na podatkih. Metode strojnega učenja iz obravnavanih podatkov izpeljejo posplošene opise v različnih oblikah, kot so npr. odločitvena drevesa ali klasifikacijska pravila. Ti rezultati omogočajo modeliranje, klasifikacijo in napovedovanje, za razliko od rezultatov statističnih metod pa dajejo tudi boljši vpogled v obravnavano problematiko in s tem pripomorejo k njenemu boljšemu razumevanju. V tem gradivu predstavljamo metodologijo odkrivanja znanja v podatkih, strojno učenje s poudarkom na induktivnem učenju odločitvenih dreves in prosto dostopno programsko orodje za analizo podatkov s strojnim učenjem Weka. Nato pokažemo praktične primere uporabe te metodologije pri podpori odločanja v proizvodnih procesih. 2. Odkrivanje znanja v podatkovnih bazah Po nekaterih ocenah se količina podatkov, shranjenih v podatkovnih bazah po vsem svetu, podvoji vsakih dvajset mesecev. Podatke s svojimi aktivnostmi generiramo vsi subjekti, od posameznikov do največjih korporacij, saj pri današnjem načinu življenja in poslovanja skoraj ni več aktivnosti, ki ne bi bila tudi računalniško podprta. Shranjevanje podatkov je enostavno in poceni, kar velja tako na nivoju posameznega osebnega računalnika kot globalnega medmrežja. Ob nenehnem napredovanju pomnilniških zmogljivosti in globalizaciji procesov, ki podatke ustvarjajo, eksponentni rasti obsega shranjenih podatkov ni videti konca. Ob tem pa se povečuje razkorak med količino ustvarjenih podatkov in količino podatkov, ki jih ljudje obvladujemo, razumemo in koristno uporabljamo. Naše tovrstne zmogljivosti napredujejo zelo počasi, zato se z večanjem obsega uskladiščenih podatkov delež razumljenih in koristno izrabljenih drastično manjša. Korak k zmanjševanju te razlike je bil storjen z začetkom razvoja metodologije odkrivanja znanja v podatkovnih bazah okrog leta 1990. Metodologija se loteva reševanja problemov z analizo podatkov, ki so že shranjeni v podatkovnih bazah. Njeno bistvo je v iskanju takšnih vzorcev (povezav, odvisnosti) v podatkih, ki na ekspliciten način povzemajo v podatkih vsebovane zakonitosti, omogočajo sklepanje in pojasnjevanje in so uporabni pri nadaljnjih odločitvah. Odkrivanje znanja v podatkovnih bazah pomeni nadaljevanje in razširitev koncepta strojnega učenja. Strojno učenje je tehnična (algoritmična) osnova, ki jo je novo področje izpopolnilo in prilagodilo za obravnavanje velikih baz podatkov, s kakršnimi se srečujemo v praksi. Zanje so poleg kompleksnosti ponavadi značilni še redundantnost zapisov, šum v podatkih, 1 manjkajoče vrednosti in podobne, za formalno obravnavo neugodne lastnosti, ki pa se jim v praksi le stežka izognemo. Odkrivanje znanja v podatkovnih bazah je netrivialen postopek, ki obsega naslednje korake: • • • • • izbiro podatkov, predprocesiranje podatkov, transformacijo podatkov, analizo oz. obdelavo podatkov, interpretacijo in ovrednotenje odkritih vzorcev. Izbira podatkov pomeni določitev tistih podatkov iz množice razpoložljivih, ki jih bomo analizirali. Izbiro lahko opravimo tako na nivoju podatkovnih zapisov kot na nivoju komponent zapisov. Dobljeni podmnožici podatkov pravimo ciljni podatki. Predprocesiranje podatkov običajno pomeni nadaljnje krčenje ciljnih podatkov. V tem koraku ugotavljamo prisotnost šuma v podatkih, kot so napačne ali manjkajoče vrednosti. Napake so lahko sintaktične ali semantične. Pojavijo se pri vnašanju, prenosu ali predhodnih obdelavah podatkov. Sintaktične napake zaznamo z leksikalnim pregledovanjem podatkov, semantične (npr. vrednost podatka izven pričakovanega obsega vrednosti) pa s statističnim preverjanjem. Takšne zapise popravimo, če je to mogoče, v nasprotnem primeru pa jih izločimo iz nadaljnje obravnave. Manjkajoče vrednosti podatkov še ne pomenijo nujno, da je nek podatkovni zapis neuporaben za analizo. Mnoge metode strojnega učenja namreč znajo obravnavati tudi manjkajoče vrednosti. Transformacija podatkov je namenjena neposredni pripravi predprocesiranih podatkov za analizo z izbrano metodo strojnega učenja. Podatke iz obstoječega formata pretvorimo v format, kakršnega zahteva izbrana metoda. S tem iz predprocesiranih podatkov dobimo transformirane podatke. Ključni korak v postopku odkrivanja znanja v podatkovnih bazah je njihova analiza oz. obdelava s strojnim učenjem. Zanjo uporabimo primerno metodo, ki ustreza tipu zastavljene naloge (klasifikacija, razvrščanje v skupine, regresijsko modeliranje) in lastnostim podatkov (zvezni ali diskretni, urejene ali neurejene vrednosti, prisotnost neznanih vrednosti ipd.). Analiza odkrije relevantne vzorce v podatkih. Ti so lahko predstavljeni na različne načine, npr. kot odločitvena drevesa, pravila tipa če–potem (angl. if–then), odločitveni seznami, regresijska drevesa itd. Oblika je pogojena z vrsto problema in uporabljenim algoritmom strojnega učenja, pa tudi z namenom uporabe. Obdelavi podatkov sledita interpretacija in ovrednotenje odkritih zakonitosti. Dobljene rezultate pojasnimo v kontekstu obravnavane problematike ter jih primerjamo z obstoječim znanjem in morebitnimi rezultati drugih metod. S testi ovrednotimo tudi zanesljivost rezultatov. Podamo jo kot pričakovano klasifikacijsko točnost, napako napovedovanja ipd., odvisno od uporabljene metode in oblike rezultata. Opisani postopek shematično prikazuje slika 1. V njem je kot končni rezultat iz podatkov pridobljeno znanje. Namen postopka seveda ni pridobivanje znanja samega zase, temveč za uporabo v reševanju problemov na obravnavanem področju, kot so modeliranje, nadzor in vodenje, podpora odločanju ipd. Pridobljeno znanje na ta način dobi uporabno vrednost. 2 podatki IZBIRA PODATKOV ciljni podatki PREDPROCESIRANJE PODATKOV predprocesirani podatki TRANSFORMACIJA PODATKOV transformirani podatki ANALIZA PODATKOV vzorci, zakonitosti INTERPRETACIJA IN OVREDNOTENJE znanje Slika 1: Značilni koraki v postopku odkrivanja znanja v podatkovnih bazah 3. Strojno učenje Pod učenjem razumemo pridobivanje znanja, bodisi preko neposrednega sprejemanja od učitelja, s samostojnim študijem ali skozi izkušnje. To pojmovanje se seveda nanaša na učenje pri človeku, ko pa govorimo o strojnem učenju, ki naj bi ga izvajal stroj – računalnik, ta definicija ne zadošča. Zato v splošnem kot učenje opredelimo tiste aktivnosti, ki pripomorejo k temu, da nek sistem bolje opravlja svoje naloge. Obstaja več vrst učenja, ki se razlikujejo po tem, kakšni sta vlogi učečega se sistema (učenca) in sistema, ki poučuje (učitelja). V primeru enostavnega učenja sistem, ki se uči, zgolj sprejema znanje od učitelja, brez da bi ga sam preverjal ali dopolnjeval. Pri človeku je to pomnjenje podanih dejstev, pri računalniku pa sprejemanje instrukcij za delovanje (programiranje). Drug skrajni primer je samostojno odkrivanje zakonitosti brez sodelovanja učitelja. To je najvišja oblika učenja pri človeku, računalniki pa je v splošnem (še) ne obvladajo. Vmes med tema skrajnostima je učenje na osnovi primerov (angl. instance-based learning), imenovano tudi induktivno učenje. V tem primeru učečemu se sistemu posredujemo učne primere, ki predstavljajo rešene primere iz nekega področja, sistem pa primere posploši tako, da iz njih izpelje splošna pravila ali zakonitosti, ki omogočajo nadaljnje reševanje problemov na tem področju. Koncept učenja na osnovi primerov ilustrira slika 2. Strojno učenje (Mitchell, 1997) je nastalo kot alternativa statistični analizi podatkov. Njegov namen ni zgolj graditi čimbolj zanesljive modele iz podatkov, temveč morajo biti modeli tudi takšni, da jih je moč pojasniti in razumeti. Prav transparentnost rezultatov je bistvena novost, ki jo prinašajo sistemi strojnega učenja v primerjavi s statističnimi metodami. 3 učni primeri (rešeni problemi) splošna pravila, zakonitosti SISTEM, KI SE UČI Slika 2: Učenje na osnovi primerov 3.1. Induktivno strojno učenje Med vsemi oblikami strojnega učenja je najbolj raziskano prav učenje iz primerov ali induktivno učenje. Učne primere za sisteme induktivnega strojnega učenja ponavadi opišemo z atributi in razredi. Atributi predstavljajo lastnosti obravnavanih objektov ali situacij, razred pa opisuje, kako ta objekt ali situacijo obravnavamo ali kakšno odločitev zanj(o) sprejmemo. Ponazorimo takšen način opisovanja učnih primerov s preprostim odločitvenim problemom. Potrebno se je odločiti, katero prevozno sredstvo bomo uporabili za pot v službo, pri čemer kot vplivne dejavnike upoštevamo vreme, temperaturo in stanje avtomobila. To so atributi odločitvenega problema, izbrano prevozno sredstvo pa je razred. V tabeli 1 je zbranih nekaj primerov odločitev. Vsak primer je opisan s t.i. atributnim vektorjem, ki vsebuje vrednosti atributov in razreda (na razred lahko gledamo tudi kot na posebej odlikovani atribut). Atributi so različnih vrst, npr. numerični in diskretni.Vrednosti dveh atributov, označeni z “?”, sta neznani. Tabeli s tako opisanimi primeri pravimo odločitvena tabela (angl. decision table). Tabela 1: Primer odločitvenega problema: izbira prevoznega sredstva Vreme sončno deževno sneži sončno oblačno Temperatura 10 ? 0 5 15 Avto pokvarjen ? da ne ne ne Prevozno sredstvo kolo avtobus avtobus peš avto Induktivno strojno učenje že nekaj časa ni več le raziskovalna tema, temveč tudi širše dostopna metodologija, implementirana v obliki prototipnih akademskih in komercialnih računalniških programov. Ti programi generirajo rezultate v obliki odločitvenih dreves, klasifikacijskih pravil ali celo neposredno uporabnih računalniških programov, ki implementirajo iz primerov izpeljani odločitveni postopek (Bratko, 1993). Programi strojnega učenja so široko uporabni pri zajemanju znanja za ekspertne sisteme in sisteme za podporo odločanja, značilna področja uporabe pa so medicinska diagnostika, inženirski problemi ter poslovno in finančno odločanje. 3.2. Učenje odločitvenih dreves Med sistemi strojnega učenja na osnovi primerov, podanih v atributnem zapisu, je posebej znana družina učnih algoritmov TDIDT (angl. top-down induction of decision trees) 4 (Quinlan, 1986). Ti algoritmi dajejo rezultat učenja v obliki odločitvenih dreves. Odločitveno drevo je v formalnem smislu graf, sestavljen iz vozlišč in povezav. Notranja vozlišča drevesa so obeležena z atributi, povezave z vrednostmi atributov, zunanja vozlišča, imenovana tudi listi, pa z vrednostmi razredov. Posamezna pot od vrhnjega vozlišča (korena) do lista ustreza enemu pravilu tipa če-potem. Predpostavka (if del) takega pravila je konjunkcija testov na atributih, ki jih na poti opravimo na notranjih vozliščih, zaključek (then del) pravila pa vrednost razreda, zapisana v listu. Na ta način lahko odločitveno drevo pretvorimo v ekvivalenten nabor pravil. Predstavimo koncept odločitvenega drevesa z zgledom. Na sliki 3 je primer odločitvenega drevesa za problem izbire prevoznega sredstva. Drevo je izpeljano iz učnih primerov v tabeli 1 in je enakovredno odločitvam, zapisanim v tabeli, le da jih predstavlja na preglednejši način. Pri velikem številu učnih primerov se odločitveno drevo ponavadi izkaže tudi za zelo kompakten zapis zakonitosti, vsebovanih v primerih. vreme sončno temperatura ≤5 >5 peš kolo oblačno deževno, sneži avto avtobus Slika 3: Odločitveno drevo za izbiro prevoznega sredstva, zgrajeno iz primerov v tabeli 1 Odločitvenemu drevesu s slike 3 ustrezajo štiri pravila za izbiro prevoznega sredstva, ki jih lahko preberemo vzdolž povezav od korena do listov v drevesu: 1) 2) 3) 4) Če je vreme sončno in temperatura ≤ 5, potem peš. Če je vreme sončno in temperatura > 5, potem s kolesom. Če je vreme oblačno, potem z avtom. Če je vreme deževno ali sneži, potem z avtobusom. In kako poteka gradnja odločitvenega drevesa iz učnih primerov v atributnem zapisu? Osnova postopka je delitev učne množice na podmnožice, ki poteka rekurzivno, vse dokler vsi primeri v posamezni podmnožici ne pripadajo enemu samemu razredu. Ta učni algoritem, imenovan ID3, je predlagal Quinlan (1979). Besedni zapis algoritma vidimo na sliki 4. 5 Če vsi učni primeri pripadajo enemu razredu, potem kreiraj list, označen s tem razredom, sicer: 1) poišči najinformativnejši atribut v učni množici, 2) kreiraj vrhnje vozlišče drevesa, označeno s tem atributom, 3) razdeli učno množico na podmnožice glede na vrednosti tega atributa, 4) rekurzivno ponovi postopek na vsaki podmnožici. Slika 4: Algoritem za gradnjo odločitvenih dreves ID3 Ključni element gradnje odločitvenega drevesa je izbira najinformativnejšega atributa v vsakem rekurzivnem koraku, saj se na osnovi vrednosti tega atributa izvede delitev trenutno obravnavane množice učnih primerov in kreira novo vozlišče v nastajajočem drevesu. Informativnost atributov je definirana na naslednji način. Naj učna množica vsebuje primere iz NC razredov, porazdelitev razredov pa naj bo C. Po informacijski teoriji je količina informacije, potrebna za klasifikacijo primera iz te množice, enaka NC E (C ) = −∑ pi log 2 pi (1) i =1 Pri tem je pi verjetnost, da primer pripada i-temu razredu. Če to množico razdelimo v podmnožice na osnovi atributa A, ki ima Nv možnih vrednosti, količina informacije za klasifikacijo primera postane NV E (C | A) = −∑ p j j =1 NC pij i =1 j ∑p log 2 pij pj (2) Tu je pj verjetnost, da ima primer j-to vrednost atributa A, pij pa verjetnost, da primer hkrati pripada i-temu razredu in ima j-to vrednost atributa A. Informativnost atributa je potem Inf ( A) = E (C ) − E (C | A) (3) in najinformativnejši atribut je tisti z najvišjo vrednostjo Inf(A). Verjetnosti, ki jih potrebujemo pri tem izračunu, ponavadi ocenimo z relativnimi frekvencami v učni množici. Razširitev osnovnega učnega algoritma ID3 je program Asistent (Cestnik in sod., 1987), ki vsebuje več dopolnitev, pomembnih za učenje iz realnih podatkov: možnost učenja iz nepopolnih podatkov, binarizacijo atributov (t.j. delitev primerov v dve podmnožici v vsakem koraku) in rezanje dreves (angl. tree pruning), ki povečuje zanesljivost rezultatov pri učenju iz šumnih podatkov. Naslednik algoritma ID3 je tudi algoritem C4.5, ki je zelo popularen zaradi javne dostopnosti in dobre spremljajoče knjige (Quinlan, 1993). 3.3. Program za analizo podatkov s strojnim učenjem Weka Med novejšimi prosto dostopnimi programskimi orodji za odkrivanje znanja v podatkovnih bazah se je močno uveljavil sistem Weka (Witten in Frank, 2000). Razvit je bil na Oddelku za računalništvo Univerze Waikato v Hamiltonu na Novi Zelandiji in je dostopen na naslovu 6 http://www.cs.waikato.ac.nz/ml/weka. Njegovo ime je akronim za Waikato Environment for Knowledge Analysis (weka je obenem tudi ptič neletalec, ki živi samo na Novi Zelandiji). Program Weka je implementiran je v programskem jeziku java, kar ga dela uporabnega na različnih tipih računalnikov. Posebna praktična vrednost Weke pa je tudi v tem, da to ni implementacija enega samega algoritma strojnega učenja, temveč vključuje širok spekter učnih algoritmov: učenje odločitvenih dreves, regresijskih dreves in povezovalnih pravil, metodo najbližjih sosedov, Bayesov klasifikator in druge. Za vse učne algoritme je v Weki predpisan enoten format vhodnih podatkov. Podatki morajo biti zapisani na tekstovni datoteki v obliki, kot je za primer prej obravnavane izbire prevoznega sredstva prikazana na sliki 5. Vhodna datoteka vsebuje tri pomembne elemente: ime obravnavane relacije oz. učnega problema, opis atributov in opis učnih primerov. Na primeru vidimo, da atribute in razred obravnavamo enotno. Za vsakega podamo ime in tip, ki je lahko numeričen ali diskreten. Za diskretne atribute naštejemo možne vrednosti. Privzeta nastavitev programa je, da zadnji atribut (v našem primeru prevozno_sredstvo) obravnava kot razred, vendar lahko to nastavitev po potrebi spremenimo in kot razred obravnavamo poljuben drug atribut. Za ključno besedo data naštejemo učne primere, opisane z atributi v enakem vrstnem redu, kot so bili atributi definirani. Weka sprejema tudi neznane vrednosti atributov. Te označimo z “?”. @relation prevoz @attribute @attribute @attribute @attribute vreme {soncno, oblacno, dezevno, snezi} temperatura numeric avto_pokvarjen {da, ne} prevozno_sredstvo {pes, kolo, avtobus, avto} @data soncno, 10, ?, kolo dezevno, ?, da, avtobus snezi, 0, ne, avtobus soncno, 5, ne, pes oblacno, 15, ne, avto Slika 5: Predstavitev odločitvenega problema o izbiri prevoznega sredstva v formatu, ki ga zahteva program za analizo podatkov Weka Učenje odločitvenih dreves v Weki omogoča program J4.8. To je implementacija Quinlanovega algoritma C4.5 Revision 8, ki je bil zadnja javno dostopna verzija tega algoritma pred objavo komercialnega naslednika C5.0, ki ga trži podjetje RuleQuest Research (za informacije o podjetju glej http://www.rulequest.com, o programu pa http://www.rulequest.com/see5-info.html). Rezultat gradnje odločitvenega drevesa za izbiro prevoznega sredstva, dobljen s programom J4.8, vidimo na slikah 6 in 7. Na prvi je izpis drevesa v tekstovni obliki (t.i. lineariziran izpis), na drugi pa preglednejši grafični prikaz. Nekoliko drugačna topologija drevesa v primerjavi s tisto na sliki 3 izvira iz dejstva, da je bila tokrat uporabljena binarizacija atributov. Hitro pa lahko ugotovimo, da sta drevesi pomensko enakovredni in ustrezata istemu naboru pravil (na sliki 7 simbol “!=” pomeni “ni enako”). 7 J48 pruned tree --------------vreme = soncno | temperatura <= 5.0: pes (1.0) | temperatura > 5.0: kolo (1.0) vreme != soncno | vreme = oblacno: avto (1.0) | vreme != oblacno: avtobus (2.0) Number of Leaves : Size of the tree : 4 7 Slika 6: Lineariziran zapis odločitvenega drevesa za izbiro prevoznega sredstva, dobljen z učnim algoritmom J4.8 Slika 7: Grafični prikaz odločitvenega drevesa za izbiro prevoznega sredstva, dobljenega z učnim algoritmom J4.8 3.4. Vrednotenje rezultatov strojnega učenja Rezultat strojnega učenja, npr. odločitveno drevo, lahko vrednotimo po več kriterijih. Pomembna sta predvsem njegova klasifikacijska točnost in razumljivost. Za ugotavljanje klasifikacijske točnosti so bile razvite razne empirične metode, razumljivost oz. smiselnost pa najbolje ovrednoti strokovnjak za problemsko področje, na katerega se rezultat nanaša. Klasifikacijska točnost odločitvenega drevesa je delež obravnavanih primerov, ki jih drevo pravilno klasificira. Ločimo klasifikacijsko točnost na učnih in testnih primerih. Klasifikacijsko točnost na učnih primerih ugotovimo tako, da primere, na katerih je bilo zgrajeno drevo, klasificiramo, t.j. z drevesom napovemo njihove razrede, in ugotovimo, kolikšen je delež primerov, pri katerih se dejanski in napovedani razred ujemata. Za uporabnost drevesa na bodočih, doslej nevidenih primerih z obravnavanega problemskega 8 področja je bolj informativna klasifikacijska točnost, dobljena na testnih primerih. To dobimo tako, da celotno množico primerov razdelimo na učno in testno. Na učni zgradimo drevo, na testni, ki je učni algoritem ni obravnaval, pa testiramo točnost. Običajno ta test za dano množico ponovimo večkrat pri različnih delitvah primerov na učne in testne, kot točnost pa podamo povprečje takih testov. V zadnjem času se za določanje klasifikacijske točnosti najpogosteje uporablja t.i. prečno preverjanje (angl. cross-validation), kjer opravimo določeno število delitev primerov na učne in testne in pripadajoča testiranja tako, da so testne množice med seboj disjunktne, testne množice iz vseh poskusov pa skupaj sestavljajo celotno množico primerov. Tako npr. pri 10-kratnem prečnem preverjanju v vsakem od desetih poskusov uporabimo 90% primerov za učenje in 10% za testiranje, kot testni pa so skozi vse poskuse uporabljeni vsi (vsakokrat drugi) razpoložljivi primeri. Poseben primer prečnega preverjanja je metoda “izpusti enega” (angl. leave-one-out), pri kateri na množici n primerov opravimo n testov, pri čemer se vsakič učimo na n–1 primerih, preostalega pa uporabimo za testiranje. Zaradi dolgotrajnosti postopka pa ta metoda testiranja pride v poštev predvsem pri manjših množicah. V zvezi s klasifikacijsko točnostjo je v strojnem učenju poznan tudi fenomen možnosti pretiranega prilagajanja (angl. overfitting) modela podatkom, ki pride zlasti do izraza v primeru šumnih podatkov. Zgrajeni model (odločitveno drevo) namreč lahko opiše podrobnosti v učni množici in s tem na njej doseže visoko klasifikacijsko točnost, vendar je njegova sposobnost posploševanja majhna, kar se odraža tako, da je klasifikacijska točnost drevesa na testnih podatkih, na katerih učenje ni potekalo, nizka. To preprečimo tako, da gradnjo drevesa v posameznih vejah zaustavimo še preden delitev učne množice pripelje do “čistih” podmnožic, katerih primeri pripadajo enemu samemu razredu. To dosežemo z ustrezno nastavitvijo parametrov učnega programa. Posledica je manjše odločitveno drevo, ki ima običajno nekoliko nižjo klasifikacijsko točnost na učni množici, na testni pa višjo, kot bi jo imelo originalno drevo, ki bi povsem natančno opisovalo vse učne primere. V programu Weka v ta namen uporabljamo parametra minimalno število primerov v listu drevesa (angl. minimum number of instances in a leaf) in prag zaupanja za rezanje drevesa (angl. confidence threshold for pruning) (Witten in Frank, 2000, str. 282). Prvi ima privzeto vrednost 2, s povečevanjem te vrednosti pa dobimo manjša drevesa. Drugi ima privzeto vrednost 25%, večja vrednost ima za posledico večje drevo, manjša pa manjše drevo. 4. Sinteza odločitvenega postopka za metalurški proizvodni proces Prvi primer sinteze odločitvenega postopka iz podatkov je iz obrata hladne valjarne v jeseniški železarni (Karba, 1994). Pri hladnem valjanju trakov se sprošča veliko toplote, zato v tem proizvodnem postopku velja posebna pozornost hlajenju. Valjalna naprava ima vgrajen hladilni sistem, ki odvaja toploto s stalnim pretokom hladilne tekočine. Kot hladilna tekočina se uporablja oljna emulzija, t.j. zmes vodotopnega olja in vode. Kakovost emulzije je bistvenega pomena za kakovost hladno valjanih trakov, ki morajo imeti čisto površino ustrezne hrapavosti. Zaradi uporabe emulzije namreč ne sme priti do onesnaženja površine trakov, kakovost emulzije pa tudi vpliva na koeficient trenja in silo valjanja, kar odloča o kakovosti polizdelka. Stanje valjalniške emulzije je zato potrebno dnevno nadzirati in v primeru slabe kakovosti izvesti ukrepe za njeno izboljšanje. 9 4.1. Odločitveni problem Z laboratorijsko analizo in meritvami se dnevno spremlja več parametrov valjalniške emulzije, ki so pomembni za kakovost proizvodnega postopka. Med njimi so: • • • • • število omiljenja emulzije, količina železa v emulziji, količina železa v gošči emulzije, koncentracija olja v emulziji in količina neaktivnega olja v emulziji, pomembna pa sta tudi podatka o dnevno dodanih olju in bazi. Vse to vpliva na uvrstitev emulzije v enega od pet kakovostnih razredov, glede na kater je ptrebno izvesti ustrezne ukrepe. Razredi in pripadajoči ukrepi so: 1) ”super” – stanje emulzije je povsem v redu, ni potrebno ukrepati; 2) ”odlično” – preveriti je potrebno filtriranje in kroženje hladilne tekočine, odstopanja parametrov pa popraviti z dodajanjem emulzije ali emulzijskega olja; 3) ”dobro” – odstopanja parametrov prav tako popraviti z dodajanjem emulzije ali emulzijskega olja in povečati pomik magnetnega filtra in odpreti globinsko zračenje; 4) ”sprejemljivo” – na enak način popraviti odstopanja parametrov, dodatno povečati pomik magnetnega filtra in filtrirati tudi v času mirovanja valjalnega ogrodja; 5) ”slabo” – emulzijo je potrebno zamenjati. Odločitveni problem je torej na osnovi vrednosti parametrov emulzije določiti njeno stanje (razred) in nato izvesti ustrezne ukrepe. V vlogi odločevalca je bil vodja valjalne naprave, ki se je v kritičnih primerih posvetoval tudi s strokovnjakom kemikom. Skozi daljše časovno obdobje pa so primere teh odločitvenih situacij tudi evidentirali. Zbrana baza podatkov je nato omogočila avtomatizacijo odločitvenega postopka z uporabo strojnega učenja. 4.2. Učenje odločitvenega postopka na primerih Baza podatkov z okrog dvesto primeri vrednotenja valjalniške v atributnem zapisu je bila analizirana z induktivnim strojnim učenjem. Kot atributi so nastopali parametri emulzije, razred pa je bil kakovost emulzije, iz katere sledijo ukrepi za njeno izboljšanje. V začetni različici je bil za analizo uporabljen učni program Asistent (Cestnik in sod., 1987). Izkazalo se je da z njim dobljeno odločitveno drevo dosega visoko klasifikacijsko točnost, njegovo ustreznost pa je potrdil tudi vodja naprave z dolgoletnimi izkušnjami pri določanju ukrepov za izboljševanje emulzije. Odločitveno drevo oz. njemu enakovredna klasifikacijska pravila so bila nato vgrajena v ekspertni sistem, t.j. računalniški program, ki je prevzel vlogo odločevalca za določanje ukrepov za izbolševanje emulzije v hladni valjarni. Izkazalo se je celo, da je bil s tem uspešno rešen problem odhoda za to nalogo usposobljenega delavca iz delovnega razmerja. S kombiniranjem različnih metod učenja je bila zanesljivost tega sistema naknadno še izboljšana (Karba, 1994). Do zamenjave tehnološkega postopka je bil leta v redni uporabi in je predstavljal enega prvih in po obsegu zelo pomembnih prenosov metodologije strojnega učenja v prakso v Sloveniji. 10 Na sliki 8 vidimo primer odločitvenega drevesa za ta odločitveni problem. Drevo je bilo zgrajeno s programom Weka na podmnožici 108 primerov iz obravnavane baze podatkov, razpoložljivi v eksperimentalne namene. Njegova klasifikacijska točnost na učnih podatkih je 78%, na testnih podatkih pa 74%. Slika 8: Odločitveno drevo za določitev stanja valjalniške emulzije, zgrajeno na podmnožici učnih primerov 5. Izbira najustreznejšega orodja za obdelovalni proces V nadaljevanju predstavljamo razvoj odločitvenega postopka za izbiro orodja v industrijskem obdelovalnem procesu (Filipič in Junkar, 1994, 2000). Študija je bila napravljena za Tovarne industrijskih nožev Železarne Ravne. Odločitveni problem je izbira ustreznega brusa za vsako od operacij, ki jih je potrebno izvesti pri brušenju nožev. Izbrati brus pomeni določiti njegovo trdoto, zrnatost in strukturo. Na izbiro brusa poleg vrste operacije vplivata še kemična sestava materiala obdelovanca in način njegove toplotne obdelave. Prvi korak k posodobitvi proizvodnje v omenjenem obratu je bila izgradnja tehnološke baze podatkov za industrijske nože. V njej so zbrani podatki o obdelovalnih operacijah v proizvodnji nožev, med njimi tudi za brušenje. Njena računalniška izvedba omogoča hitro izdelavo dokumentacije v pripravi proizvodnje, tipiziranje orodij in s tem zmanjševanje njihovih zalog ter hitrejšo pripravo tehnoloških predpisov za nove izdelke. Predpise za izbiro brusov, zbrane v tehnološki bazi podatkov, smo nato analizirali s strojnim učenjem. Iz njih smo tvorili pravila za določitev vsake od treh lastnosti orodja kot tudi celotne specifikacije in 11 pokazali možnost kompaktnejše predstavitve predpisov. Analiza je obenem pokazala nekonsistentnosti v tehnološki bazi podatkov. Ugotovljeno je bilo, da je za izvajanje nekaterih operacij brušenja v uporabi po več različnih predpisov za izbiro orodja. To je posledica dela na različnih strojih ter različne prakse posameznih operaterjev. 5.1. Odločitveni problem Industrijski noži so namenjeni rezanju materialov, kot so papir, pločevina, usnje ipd. Brušenje nožev je zadnja faza v njihovi proizvodnji in je zato posebej pomembno za njihovo kvaliteto. Brušenje noža obsega šest operacij, vezanih na obdelavo posameznih ploskev: brušenje ploščine, naklona, dolžine, širine, rezine in širine rezine. Noži so izdelani iz različnih vrst jekla, ki se razlikujejo po kemični sestavi. Poznani so podatki o vsebnosti naslednjih elementov v njih: ogljik (C), krom (Cr), molibden (Mo), vanadij (V), volfram (W) in silicij (Si). Na lastnosti izdelka vpliva tudi toplotna obdelava materiala. Jeklo za izdelavo nožev je bodisi žarjeno ali kaljeno na enega od dveh načinov: 48–54 HRc (v nadaljevanju kaljenje 1) ali 55–63 HRc (kaljenje 2). Značilnosti brusa, ki vplivajo na kvaliteto obdelane površine, so njegova trdota, zrnatost in struktura. Bruse delimo po trdoti v razrede: • • • • • zelo mehki (oznake E, F, G), mehki (H, I, J, K), srednje trdi (L, M, N, O), trdi (P, R, S) in zelo trdi (T, U, V, Z). Po zrnatosti ločimo: • • • • zelo grobe (oznake 8–16), grobe (20–36), srednje zrnate (40–70) in fine (80–100) bruse. Struktura brusa je lahko: • • • • zaprta (oznake 1–3), srednja (4–6), odprta (7–9) ali močno porozna (10–12). Naloga je za dano operacijo brušenja, kemično sestavo obdelovanca in njegovo toplotno obdelavo določiti ustrezno specifikacijo brusa, njegovo trdoto, zrnatost in strukturo. 5.2. Sinteza odločitvenega postopka s strojnim učenjem Za sintezo odločitvenega postopka za izbiro brusov smo kot učne primere uporabili predpise iz tehnološke baze podatkov. Od skupno 362 predpisov se jih 190 nanaša na izbiro brusov v 12 redni proizvodnji, 172 pa je alternativnih in se uporabljajo v primeru zastojev ali okvar na redni proizvodni liniji. Pri analizi smo upoštevali 190 redno uporabljanih predpisov. Ti za različna jekla in operacije brušenja v obliki diagramov podajajo ustrezne karakteristike brusa v odvisnosti od toplotne obdelave obdelovanca. Za učni program je vsak predpis učni primer, opisan z atributi operacija brušenja, toplotna obdelava in vsebnosti šestih elementov, razred pa karakteristike brusa. Učenje je potekalo na dva načina: prvič ločeno za vsako od treh karakteristik brusa in drugič enotno za popolno specifikacijo brusa. V drugem primeru je bil razred kartezični produkt razredov vseh treh podproblemov. Uporabljeni učni primeri pokrivajo bruse, ki so po trdoti zelo mehki, mehki ali srednje trdi, katerih zrnatost je groba ali srednja, struktura pa srednja, odprta ali močno porozna. Nastopajočih kombinacij teh vrednosti (t.j. specifikacij brusov oz. razredov v primeru učenja celotnih specifikacij) je 13. Podatke o klasifikacijskih točnostih na testnih primerih prikazuje tabela 2. Tako pri odločanju o posamezni karakteristiki brusa kot o popolni specifikaciji je dosežena klasifikacijska točnost zelo nizka, saj je le za spoznanje boljša od zastopanosti večinskega razreda. Pregled dreves in klasifikacije z njimi je pokazal, da je vzrok za to nekonsistentnost predpisov. V velikem številu primerov se za isto operacijo brušenja, vrsto materiala in toplotno obdelavo uporablja po več različnih brusov, razlike pri posameznih karakteristikah pa dosegajo tudi dva kvalitativna razreda. V listih dobljenih odločitvenih dreves zato tipično nastopa po več razredov. Da bi pokazali uporabnost avtomatske sinteze odločitvenega postopka na konsistentnejši množici podatkov, smo iz učne množice izbrali podmnožice primerov, ki ustrezajo predpisom za brušenje na posameznih strojih (BVP-40, BVP-60a, Sielemann) in na njih izvedli gradnjo odločitvenih dreves za specifikacije brusov. V vseh primerih smo dobili zelo visoke klasifikacijske točnosti (glej tabelo 2), kar potrjuje potrebo po uskladitvi predpisov med različnimi operaterji. Tabela 2: Klasifikacijske točnosti pri obravnavanih problemih izbire orodja Odločitveni problem Trdota brusa Zrnatost brusa Struktura brusa Celotna specifikacija brusa Brusi za stroj BVP-40 Brusi za stroj BVP-60a Brusi za stroj Sielemann Klasifikacijska točnost Zastopanost večinskega razreda na testnih primerih [%] [%] 44,2 58,5 52,6 65,2 51,0 57,5 27,4 36,3 32,3 95,3 66,7 96,0 66,7 100,0 V ilustracijo podajamo odločitveno drevo, dobljeno za določanje specifikacij za izbiro orodja za stroj BVP-60a (slika 9). Vsakemu od treh razredov brusov, ki se na stroju uporabljajo, ustreza eno klasifikacijsko pravilo pravilo (slika 10). Dobljena pravila za vse stroje po oceni tehnologov smiselno povzemajo odločitveni postopek in so obenem pregledna predstavitev predpisov iz tehnološke baze. Od predpisov so kompaktnejša, saj v njih kot atribut ne nastopa 13 operacija brušenja, temveč le vsebnost ogljika in toplotna obdelava jekla. Čeprav npr. na stroju BVP-60a izvajajo štiri operacije, t.j. brušenje ploščine, naklona, širine in širine rezine, se je izkazalo, da je izbira brusa po kvalitativnih vrednostih karakteristik neodvisna od operacije. Navedena pravila so enakovredna zamenjava za nekaj strani diagramov v obstoječi tehnološki dokumentaciji. vsebnost_C ≤ 1% >1% SrT-SrZ-SrS topl_obdelava žarjenje ZMe-GrZ-MPo kaljenje1, kaljenje 2 Me-GrZ-MPo Slika 9: Odločitveno drevo za izbiro brusa za stroj BVP-60a 1) IF vsebnost_C ≤ 1% AND toplotna_obdelava = žarjenje THEN brus = ZeloMehak, GroboZrnat, MočnoPorozen 2) IF vsebnost_C ≤ 1% AND toplotna_obdelava = kaljenje1 OR kaljenje2 THEN brus = Mehak, GroboZrnat, MočnoPorozen 3) IF vsebnost_C > 1% THEN brus = SrednjeTrd, SrednjeZrnat, SrednjaStruktura Slika 10: Pravila za izbiro brusa za stroj BVP-60a Pomemben rezultat opravljene analize je bila ugotovitev, da so nedoslednosti v tehnološki bazi podatkov, ki se jih proizvajalec sicer zaveda, zelo kritične s stališča klasifikacijske točnosti. Obstoječe predpise je zato nujno poenotiti. Pri tem sintetizirani odločitveni postopek lahko pomaga z odkrivanjem nekonsistentnosti in s predlogi za njihovo odpravo. 6. Zaključek Analiza podatkov z metodami strojnega učenja oz. odkrivanje novih, potencialno koristnih informacij v podatkovnih bazah postaja zaradi naraščajoče količine računalniško shranjenih podatkov vse bolj aktualna metodologija. Naloge, ki jih obravnava, t.j. modeliranje, klasifikacija, napovedovanje ipd., je moč reševati tudi z drugimi, npr. statističnimi metodami, vendar nova metodologija daje preglednejše rezultate, ki so prikladnejši za interpretacijo in pojasnjevanje, upošteva pa tudi neugodne lastnosti podatkovnih množic, s katerimi se srečujemo v praksi, npr. šumnost podatkov, manjkajoče vrednosti, obsežnost baz podatkov ali njihovo porazdeljenost. 14 Na nekaj primerih odločitvenih problemov iz proizvodnih procesov smo pokazali, kako je moč novo metodologijo uporabiti za avtomatsko sintezo odločitvenih postopkov iz primerov. Videli smo, da rezultati omogočijo nov vpogled v problemsko področje in lahko znantno olajšajo delo odločevalcu, lahko pa tudi pokažejo nedoslednosti v obravnavanih podatkih. Seveda pa je to metodologijo treba vrednotiti kritično. Zavedati se je treba, da lahko z njo dobimo smiselne rezultate le pri pogoju, da je nabor podanih učnih primerov reprezentativen za obravnavani problem. Rezultate je prav tako potrebno obravnavati kot enega od možnih virov informacij, ki so uporabniku v pomoč pri odločanju, končna odgovornost za odločitve pa še naprej ostaja na njegovi strani. Literatura Bratko, I. (1993). Applications of machine learning: Towards knowledge synthesis, New Generation Computing, Vol. 11, No. 3, pp. 343–360. Cestnik, B., Kononenko, I., Bratko, I. (1987). Assitant-86: A knowledge elicitation tool for sophisticated users. In: Bratko, I., Lavrač, N. (Eds.), Progress in Machine Learning, Sigma Press, Wilmslow, UK, pp. 31–45. Filipič, B., Junkar, M. (1994). Od tehnološke baze podatkov do odločitvenega postopka za izbiro orodja v industrijskem obdelovalnem procesu. V Solina, F., Zajc, B., (ur.), Zbornik tretje Elektrotehniške in računalniške konference ERK '94 (Portorož, 1994), Slovenska sekcija IEEE, Ljubljana, zvezek B, str. 163–166. Filipič, B., Junkar, M. (2000). Using inductive machine learning to support decision making in machining processes, Computers in Industry, Vol. 43, No. 1, pp. 31– 41. Karba, N. (1994). Postopki integracije baz znanja ekspertnih sistemov po principu mnogoterega znanja, Doktorska disertacija, Univerza v Mariboru, Fakulteta za organizacijske vede, Kranj. Quinlan, J. R. (1979). Discovering rules by induction from large collections of examples. In: Michie, D. (Ed.), Expert Systems in the Microelectronic Age, Edinburgh University Press, pp. 168–201. Qinlan, J. R. (1986). Induction of decision trees, Machine Learning, Vol. 1, No. 1, pp. 81– 106. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning, Morgan Kaufmann, San Francisco. Mitchell, T. M. (1997). Machine Learning, McGraw Hill, New York. Witten, I. H., Frank, E. (2000). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, San Francisco. 15