Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja
Transcription
Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja
Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja I. Stanimirova, M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 40-006 Katowice http://www.chemometria.us.edu.pl 1. WSTĘP – TECHNIKI UCZENIA Z NADZOREM Techniki uczenia bez nadzoru mają na celu w oparciu o zbiór zmiennych objaśniających X ułatwić zidentyfikowanie grup obiektów o podobnych właściwościach lub ujawnienie próbek znacznie różniących się od pozostałych. Do typowych technik uczenia bez nadzoru należą: analiza czynników głównych (PCA) [1], metoda poszukiwania projekcji (PP) [2], samoorganizujące się mapy Kohonena (SOM) [3,4] czy też techniki grupowania danych [5,6]. Techniki uczenia z nadzorem, zależnie od problemu badawczego, stosuje się do konstrukcji modelu kalibracyjnego, dyskryminacyjnego lub klasyfikacyjnego. Do budowy tychże modeli, w przeciwieństwie do technik uczenia bez nadzoru, używa się zbioru zmiennych objaśniających, X, i macierz zmiennych zależnych Y. Ogólnie, tego typu modele można przedstawić jako: Y[ m,k ] = f (X[ m,n ] ) + E[ m,k ] (1) gdzie, m i n to odpowiednio liczba próbek i zmiennych objaśniających, X, k to liczba zmiennych zależnych, Y, a E jest macierzą reszt, która wyraża błąd jaki popełnia się stosując model wyrażony równaniem 1. Model ten jest jedynie pewną aproksymacją prawdziwej zależności, lecz ta, ze względu na ograniczoną liczbę próbek jak i błąd pomiarowy, nie może być poznana. Pomimo tego, model, który jest wystarczająco precyzyjny, znajduje zastosowanie do przewidywania zmiennej lub zmiennych zależnych. W zależności od celu modelowania danych, tj. rodzaju informacji, jaka zawarta jest w Y, wyróżniamy dwie podstawowe strategie uczenia z nadzorem, a mianowicie, kalibrację i dyskryminację/klasyfikację (Rys. 1). Zadaniem metod kalibracji jest konstrukcja modelu, który pozwoli ilościowo ocenić określoną własność lub własności, bazując na zbiorze zmiennych objaśniających. W chemii, typowym przykładem modeli kalibracyjnych są modele I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 1 pozwalające przewidzieć np. stężenie jednego lub wielu składników w próbkach na podstawie ich widm. Skonstruowany model kalibracyjny umożliwia zastąpienie drogich i czasochłonnych pomiarów zmiennych zależnych, Y, pomiarami tańszymi i szybszymi, X, a następnie w oparciu o X przewidzenie wartości zmiennych zależnych. Jednymi z bardziej popularnych technik kalibracyjnych są regresja wieloraka (MLR), regresja czynników głównych (PCR) i regresja częściowych najmniejszych kwadratów (PLS) [7,8]. n metody uczenia bez nadzoru Eksploracja danych (np. PCA, grupowanie danych) XX m n XX metody uczenia z nadzorem y Kalibracja (np. PCR, PLS) m n XX y Dyskryminacja/klasyfikacja (np. LDA, SIMCA) m Rys. 1 Graficzne przedstawienie różnic pomiędzy metodami uczenia bez nadzoru i z nadzorem. Techniki dyskryminacyjne i klasyfikacyjne tworzą drugą grupę metod uczenia z nadzorem [9]. Ich celem jest opracowanie reguł logicznych, które pozwolą na podstawie zbioru próbek treningowych, należących do a priori znanych grup, przewidzieć przynależność nowych próbek do określonych grup. Do najczęstszych problemów klasyfikacyjnych możemy zaliczyć np. badanie autentyczności produktów spożywczych czy farmaceutycznych na podstawie ich składu chemicznego. Produkty spożywcze dzieli się na grupy ze względu na miejsce ich pochodzenia, warunki klimatyczne uprawy, metodologię produkcji lub też ze względu na inne czynniki, które są czynnikami różnicującymi je, a które można powiązać ze składem chemicznym próbek. Do analizy składu chemicznego próbek można zastosować I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 2 wiele technik analitycznych, a ich wybór przeważnie podyktowany jest względami ekonomicznymi. Do takich technik możemy zaliczyć spektroskopię w bliskiej podczerwieni (NIR), która dostarcza zmiennych objaśniających często stosowanych do budowy modeli kalibracyjnych, dyskryminacyjnych i klasyfikacyjnych. W metodach dyskryminacji/klasyfikacji, macierz Y zawiera informację o przynależności danej próbki do jednej z kilku możliwych grup. Sposób wyrażania przynależności próbki do danej grupy zależy od stosowanej metody uczenia z nadzorem. Dokładniej to zagadnienie zostanie omówione w dalszej części rozdziału. Techniki mające na celu przypisanie próbek do określonych grup można podzielić na dwie kategorie, a mianowicie, metody dyskryminacyjne oraz metody modelowania indywidualnych grup. W metodach dyskryminacyjnych, (z ang. discriminant techniques, hard-modeling techniques) [10], przestrzeń zmiennych eksperymentalnych zostaje podzielona na kilka wykluczających się podprzestrzeni, których liczba jest równa liczbie grup w danych. Ze względu na położenie próbki w przestrzeni zmiennych objaśniających jest ona zawsze przypisana do jednej z grup. Na Rys. 2 zademonstrowano podział przestrzeni dwóch zmiennych objaśniających na cztery grupy oraz przypisano dwie próbki do odpowiednich grup ze względu na wartości mierzonych parametrów próbek. Próbka pierwsza została przypisana do grupy 1, a próbka 2 do grupy 3 (zob. Rys. 2a). W technikach modelowania indywidualnych grup (a ang. soft-modeling techniques, class-modeling techniques) model buduje się dla każdej grupy osobno. Zatem, nowa próbka może należeć do jednej z grup, do kilku z nich albo do żadnej (zob. Rys. 2b). a) b) 1 4 próbka 1 1 4 2 3 próbka 2 przestrzeń zmiennych 3 2 próbka nie należy do żadnej z grup przestrzeń zmiennych Rys. 2 Ilustracja różnić pomiędzy: a) technikami dyskryminacyjnymi, a b) technikami modelowania indywidualnych grup. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 3 Z uwagi na metodę określania przynależności próbek wyróżniamy takie techniki dyskryminacyjne jak np., liniową analizę dyskryminacyjną (LDA) [11], dyskryminacyjną metodę częściowych najmniejszych kwadratów (D-PLS) [7,8], drzewa klasyfikacji i regresji (CART) [12], metodę k najbliższych sąsiadów (KNN), czy maszyny wektorów wspierających (SVM) [13], oraz techniki modelowania indywidualnych grup, np. SIMCA [14], UNEQ [15] i M-CAIMAN [16] Techniki uczenia z nadzorem, możemy podzielić również, ze względu na rodzaj funkcji kosztów, na metody liniowe i nieliniowe. Niektóre z tych technik, jak np. PCR czy PLS, choć oryginalnie zostały zaproponowane by modelować liniowe zależności, mają swoje odpowiedniki stosowane do nieliniowych problemów kalibracyjnych i dyskryminacyjnych [17]. Przykładem bardzo ogólnych technik, jakich używa się do konstrukcji liniowych bądź nieliniowych modeli kalibracyjnych i/lub dyskryminacyjnych, są metody SVM i CART. Inny możliwy podział metod uczenia z nadzorem wynika z ich globalnego lub lokalnego charakteru. Metody globalne mają za zadanie skonstruować jeden model, który jest spełniony w całej domenie wyznaczonej przez zmienne objaśniające. W tym ujęciu metody takie jak MLR, PCR czy PLS są technikami globalnymi. Celem modeli lokalnych jest konstrukcja kilku modeli, które są poprawne w niektórych podprzestrzeniach zmiennych objaśniających. Do takich metod lokalnych możemy zaliczyć np. metodę lokalnie ważonej regresji (LWR) [18], sieci neuronowe z radialnymi funkcjami bazowymi [19] czy metodę częściowych najmniejszych kwadratów z radialnymi funkcjami bazowymi (RBF-PLS) [20]. Konstrukcja jakiegokolwiek modelu wymaga zdefiniowania celu modelowania, zaplanowania eksperymentu, dokonania pomiarów dla zbioru próbek, wyznaczenia parametrów modelu i oszacowania jego dokładności używając właściwą procedurę walidacji. Wiele czynników ma wpływ na jakość skonstruowanych modeli. Ponieważ wybór techniki modelowania zależy od rodzaju danych, dlatego do kolekcji omawianych metod włączyliśmy metody, które pozwalają objąć możliwie najwięcej aspektów modelowania danych. W tym rozdziale skupimy się na przedstawieniu technik modelowania z nadzorem i przedstawimy takie techniki jak MLR, PCR, PLS, LDA, CART i SIMCA. Wszystkie one, oprócz metody CART, należą do liniowych technik modelowania danych z nadzorem. Ich działanie zostanie omówione na przykładach symulowanych i eksperymentalnych danych chemicznych. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 4 2. METODY KALIBRACYJNE Dla przejrzystości prezentacji, zaczniemy od omówienia idei liniowej kalibracji, począwszy od kalibracji jednokrotnej. Następnie, wprowadzimy podstawowe założenia modelowania wielowymiarowych danych, w szczególności kładąc nacisk na metody regresji głównych składowych oraz regresji częściowych najmniejszych kwadratów, gdyż są one najczęściej stosowane w modelowaniu problemów chemicznych [7,8]. 2.1 Regresja jednokrotna, wieloraka i wieloparametrowa Metoda liniowej regresji jednokrotnej prowadzi do konstrukcji najprostszego modelu kalibracyjnego. Można go wyrazić jako: y [ m ,1] = b 0 + b1 x [ m ,1] + e [ m ,1] (2) gdzie, b0 i b1 to tzw. współczynniki regresji (wyraz wolny oraz współczynnik kierunkowy), a e to wektor reszt od modelu. Alternatywnie, równanie 2 można przedstawić w zapisie wektorowo-macierzowym. Aby uwzględnić wyraz wolny, do kolumnowego wektora x po jego lewej stronie dodaje się wektor jedynek, przez co powstaje macierz X i wówczas: y [ m ,1] = X [ m , 2 ]b [T2,1] + e [ m ,1] (3) Taki model stosuje się na przykład, aby wyrazić liniową zależność absorbancji roztworu od stężenia danego składnika roztworu, w którym on występuje, mierzonej przy określonej długości fali. Opisanie tej zależności wymaga, aby sygnał pochodzący od danego komponentu nie nakładał się z sygnałami innych komponentów próbki. Na Rys. 3 przedstawiono zbiór 20 widm UV-VIS roztworów, zarejestrowanych w zakresie 500-618 nm co 2 nm, w których stężenia oznaczanego składnika mieściły się w zakresie 3,82 – 6,13 mg⋅dm-3. Maksimum absorpcji analitu znajduje się przy 528 nm (Rys. 3a). Jak pokazuje Rys. 3b pomiędzy zbiorem stężeń składnika w badanych 20 próbkach, a odpowiadającymi im wartościami absorbancji, które odczytano dla 528 nm, istnieje stosunkowo silna dodatnia korelacja. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 5 a) c) 0.9 0.9 0.8 0.85 0.7 absorbancja absorbancja 0.6 0.5 0.4 0.3 0.8 0.75 0.7 0.2 0.65 0.1 0 500 0.6 520 540 560 580 600 4 4.5 5 długość fali [nm] 5.5 6 stężenie d) b) 0.05 0.9 0.04 0.03 reszty od modelu absorbancja 0.85 0.8 0.75 0.7 0.02 0.01 0 -0.01 0.65 -0.02 0.6 4 4.5 5 5.5 6 -0.03 0 2 4 6 stężenie 8 10 12 14 16 18 20 indeks próbki Rys. 3 a) Dwadzieścia widm UV-VIS roztworów zarejestrowanych w zakresie 500-618 nm co 2 nm, b) wartości stężeń analitu w próbkach względem absorpcji odczytanej dla 528 nm, c) model jednokrotnej regresji oraz d) wartości reszt od modelu regresji. Zależność ta jest liniowa, a jej wyznaczenie sprowadza się do znalezienia takich współczynników regresji, dla których prosta trendu najlepiej opisze punkty na wykresie, co obrazuje Rys. 3c. Jest to możliwe, gdy suma kwadratów różnic, czyli reszt pomiędzy znanymi wartościami stężeń, a tymi przewidzianymi na postawie modelu, będzie minimalna. Ten warunek nazywany jest kryterium najmniejszych kwadratów. Współczynniki regresji oblicza się wedle wzoru: b [ n ,1] = ( X [Tn ,m ] X [ m,n ] ) −1 X [Tn ,m ] y [ m,1] (4) Rys. 3d przedstawia wartości reszt od modelu, wyrażającego zależność stężenia analitów od absorbancji, czyli różnice pomiędzy wartościami obserwowanymi, a przewidzianymi na podstawie modelu. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 6 ei = ( yi − yˆi ) (5) Modele regresji jednokrotnej można przedstawić graficznie na dwa sposoby: rysując stężenia analitów, yi, względem odpowiadających im absorbancji, xi, lub względem wartości stężeń przewidzianych stosując dany model, ŷi. W przypadku modeli, konstruowanych dla wielu zmiennych X, jedynie drugi sposób graficznej prezentacji modelu jest możliwy. O dopasowaniu modelu do danych eksperymentalnych mówią reszty od modelu, a suma ich kwadratów jest minimalna. Najczęściej stosowaną miarą dopasowania modelu do danych eksperymentalnych jest średni błąd kwadratowy zbioru modelowego, RMSEC, (z ang. root mean square error of calibration), wyrażany jako: m RMSEC = 1 / m ⋅ ∑ ( y i − yˆ i ) 2 (6) i =1 Jeśli wybór zmiennej, jaka ma posłużyć do konstrukcji modelu nie jest oczywisty, np. nie istnieje selektywna długość fali, lub jedna zmienna nie wystarcza, aby w granicach akceptowalnego błędu opisać modelowaną własność, wówczas jednokrotny model regresyjny będzie charakteryzował się złym dopasowaniem do danych oraz złym przewidywaniem dla nowych próbek. Z problemem wyboru selektywnej długości fali najczęściej spotykamy się w kalibracji w oparciu o widma z bliskiej podczerwieni. Do ilustracji tego zagadnienia użyjemy zbiór 69 próbek śruty rzepakowej, których widma zarejestrowano w zakresie spektralnym od 1100 do 2500 nm (zob. Rys. 4a), a następnie w tych próbkach, zgodnie z obowiązującymi normami oznaczono całkowitą zawartość tłuszczy metodą referencyjną. Naszym zadaniem będzie konstrukcja modelu kalibracyjnego, który pozwoli opisać całkowitą zawartość tłuszczy w próbkach w oparciu o ich widma NIR. Wiadomo, iż tłuszcze wykazują dużą absorpcję przy 1740 nm oraz 2300 nm (pasmo charakterystyczne dla kwasu stearynowego). Zatem, jak można przypuszczać, powinna istnieć liniowa relacja pomiędzy reflektancją, zmierzoną przy wspomnianych długościach fal, a całkowitym stężeniem tłuszczy w badanych próbkach. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 7 10 x 10 6 c) 10 8 9 7 8 6 7 5 4 3 3 2 1 6 5 4 2 1200 1400 1600 1800 2000 2200 4.5 2400 5 5.5 6 6.5 log(1/R) długość fali [mn] b) 11 9 stężenie log(1/R) a) 7 7.5 8 x 10 6 11 10 9 stężenie 8 7 6 5 4 3 2 2.4 2.6 2.8 3 3.2 3.4 log(1/R) 3.6 3.8 4 4.2 x 10 6 Rys. 4 a) Zbiór widm z bliskiej podczerwieni 69 próbek śruty rzepakowej; zależność całkowitego stężenia tłuszczy w próbkach (wyrażonego w procentach w przeliczeniu na suchą masę próbki) od reflektancji, R, wyrażonej jako log(1/R), zmierzonej przy: b) 1740 nm i c) 2300 nm. Niestety, jak pokazują Rys. 4b i c, takie zależności nie istnieją. Powodem tego jest silne nakładanie się pasm absorpcyjnych w widmach rejestrowanych w obszarze bliskiej podczerwieni. Zdecydowanie lepsze wyniki modelowania dla tego typu danych można uzyskać, jeśli model regresji uwzględnia kilka, odpowiednio wybranych, zmiennych. W tym przypadku do jego konstrukcji stosuje się metodę wielorakiej regresji, MLR (z ang. multiple linear regression) [59], a współczynniki regresji modelu otrzymywane są również metodą najmniejszych kwadratów (zob. równanie 4). Model regresji wielorakiej wyraża równanie 3. Bardziej ogólną metodą niż regresja wieloraka jest metoda regresji, w której modeluje się wiele zmiennych zależnych równocześnie. Wówczas, aby przedstawić ten model, wystarczy w równaniu 3 zastąpić wektor y, macierzą zmiennych zależnych Y, wektor b, macierzą, B, której kolumny tworzą współczynniki regresji dla każdej modelowanej własności (poszczególne kolumny Y), a wektor reszt od modelu, e, macierzą reszt, E. W tym miejscu, powinniśmy rozważyć, kiedy konstrukcja współczynników regresji modelu MLR jest możliwa. Jeśli macierz X tworzy wiele parametrów, to równanie 4 nie zawsze ma I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 8 rozwiązanie. Aby wyznaczyć macierz odwrotną (XTX)-1 koniecznym warunkiem jest, aby parametry macierzy X nie były skorelowane (zależne). Zgodnie z regułami algebry liniowej, macierz odwrotna (XTX)-1 nie istnieje, jeśli liczba parametrów w macierzy jest większa niż liczba próbek, ponieważ wyznacznik tej macierzy jest równy zero [21]. Najczęstszym sposobem przezwyciężenia tego problemu jest użycie do konstrukcji modelu kilku niezależnych zmiennych, których liczba jest mniejsza niż liczba obiektów. Jeśli równanie 4 ma rozwiązanie, tzn. gdy liczba próbek przewyższa liczbę zmiennych, należy pamiętać, że obecność w danych skorelowanych zmiennych znacznie osłabia stabilność współczynników regresji. W konsekwencji, model charakteryzuje się bardzo złymi własnościami predykcyjnymi dla nowych próbek, a doskonałym dopasowaniem do zbioru modelowego. To właśnie ze względu na problem korelacji zmiennych, w chemii, metoda MLR w swym podstawowym wariancie ma bardzo ograniczone zastosowanie, gdyż przeważnie dane chemiczne zawierają wiele skorelowanych zmiennych. Najczęściej stosowanym wariantem metody MLR do danych zawierających skorelowane zmienne jest metoda regresji krokowej [22], gdzie zmienne dobierane są tak, by nie były zależne, a zarazem w najlepszy sposób modelowały daną własność. Powróćmy jednak do modelowania zawartości tłuszczy w śrucie rzepakowej w oparciu o ich widma NIR. Tym razem, założymy, iż model kalibracyjny powinien zawierać więcej niż jedną zmienną. Równocześnie uwzględnimy założenia metody MLR, a zmienne, jakich użyjemy do konstrukcji modelu, nie będą zależne. Bez wnikania w szczegóły procedury wyboru zmiennych, stosując metodę regresji krokowej wybraliśmy pięć zmiennych, które posłużyły do konstrukcji modelu MLR, który przedstawiono na Rys. 5. Dla tych zmiennych wartości reflektancji, R, wyrażonej jako log(1/R), zmierzono odpowiednio przy 1718, 1742, 1700, 2124 oraz 1704 nm. Całkowite stężenie kwasów tłuszczowych w badanych próbkach wyraża ważona suma pięciu reflektancji, co można opisać następującym wzorem: ŷ = b0+b1log(1/r1718)+b2log(1/r1742)+b3log(1/r1700)+b4log(1/r2124)+b5log(1/r1704) (7) gdzie, ŷ to całkowite stężenie tłuszczy w badanych próbkach przewidziane na podstawie modelu MLR. Współczynniki regresji tego modelu wynoszą: b0 = 5,65, b1 = 6,09⋅10-5, b2 = -5,26⋅10-5, b3 = -1,06⋅10-4, b4 = -1,97⋅10-6 i b5 = 9,96⋅10-5. Wartości współczynników regresji mówią o wadze danej zmiennej w konstrukcji modelu, a ich znak o pozytywnym bądź negatywnym charakterze korelacji ze zmienną zależną. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 9 11 10 stężenie przewidziane 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 stężenie obserwowane Rys. 5 Model MLR skonstruowany dla pięciu zmiennych (reflektancje zmierzone przy 1718, 1742, 1700, 2124 oraz 1704 nm) - całkowita przewidziana zawartość tłuszczy (wyrażona w procentach w przeliczeniu na suchą masę próbki) względem obserwowanego całkowitego stężenia tłuszczy w próbkach śruty rzepakowej. 2.2 Metody kalibracyjne oparte na ukrytych zmiennych Jak wspomnieliśmy wcześniej, konieczność pracy z dużą liczbą skorelowanych zmiennych powoduje, iż w chemii, modele MLR mają ograniczone zastosowanie. Głównymi metodami stosowanymi do konstrukcji liniowych modeli kalibracyjnych, które radzą sobie ze skorelowanymi zmiennymi, są metody regresji czynników głównych (PCR, z ang. principal component regression) oraz metoda częściowych najmniejszych kwadratów (PLS, z ang. partial least squares) [7,8]. W tych metodach problem modelowania skorelowanych zmiennych został przezwyciężony poprzez zastąpienie ich kilkoma nowymi zmiennymi, tzw. zmiennymi ukrytymi, które są ortogonalne. Owe nowe zmienne, w zależności od metody regresji są inaczej konstruowane. 2.2.1 Regresja czynników głównych Koncepcyjnie, metoda PCR jest najprostszą spośród innych technik, w których do konstrukcji modelu kalibracyjnego używa się ukrytych zmiennych i dlatego od niej zaczniemy prezentację. W metodzie PCR do budowy modelu zamiast oryginalnych zmiennych używa się czynników głównych. Czynniki główne konstruowane są iteracyjnie poprzez dekompozycję wyjściowej macierzy danych, X, do macierzy wyników, T, oraz macierzy wag, P, i maksymalizują opis I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 10 wariancji danych. Sposób ich konstrukcji dokładnie omówiono w rozdziale „Analiza czynników głównych i inne metody eksploracji danych”. Ogólnie, model PCR o f czynnikach, który pozwala na przewidzenie zmiennych zależnych możemy przedstawić jako: X[ m , n ] = T[ m , f ]P[Tf , n ] + E[ m , n ] (8) Y[ m,k ] = T[ m, f ]Q [Tf ,k ] + G [ m,k ] (9) gdzie współczynniki regresji modelu, Q, wyznacza się metodą najmniejszych kwadratów: ( Q [ f ,k ] = T[Tf , m ] T[ m , f ] ) −1 T[Tf , m ] Y[ m , k ] (10) Porównując równania 4 i 10 możemy zaobserwować, że Q to współczynniki regresji z równania 4, które oblicza się w przestrzeni czynników głównych. Schematycznie, model PCR przedstawiono na Rys. 6. Czynniki główne użyte do konstrukcji modelu PCR są ortogonalne. Ta własność zapewnia, że można wyznaczyć współczynniki regresji metodą najmniejszych kwadratów, gdyż istnieje macierz odwrotna (TTT)-1. Dodatkowo, wybór kilku pierwszych czynników głównych do konstrukcji modelu umożliwia redukcję części błędu eksperymentalnego danych X. Liczba kolumn macierzy T, czyli liczba czynników głównych użytych do konstrukcji modelu, określa jego kompleksowość. Macierze E i G zawierają część wariancji X oraz Y, jaka nie została opisana przez model. Model PCR, wyrażony równaniami 8 i 9, jest stosunkowo trudny w interpretacji, ponieważ poszczególne czynniki główne są liniową kombinacją oryginalnych zmiennych. O wiele bardziej interesująca jest informacja na temat wkładu oryginalnych zmiennych do konstrukcji modelu. Współczynniki regresji Q, mówiące o wkładach poszczególnych czynników głównych, przekształca się tak, aby otrzymać informacje o wadze oryginalnych zmiennych, zgodnie z następującym równaniem: B [ n,k ] = P[ n, f ]Q [ f ,k ] Y[ m,k ] = X[ m,n ] B [ n,k ] + G [ m,k ] (11) I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 11 gdzie G to macierz reszt od modelu. n X tworzenie ortogonalnych zmiennych metodą PCA n f T PT f m k k Y m Ŷ f = k T f Q T m konstrukcja modelu kalibracyjnego używając T Rys. 6 Schematyczne przedstawienie idei konstrukcji modelu PCR. Pomimo swych cennych zalet metoda PCR ma także pewne ograniczenie. Kilka pierwszych czynników głównych, które dobrze modelują wariancję X, nie zawsze wykazują dobrą korelację z Y. Ten problem został rozwiązany przez Wolda i Martensa, którzy zaproponowali metodę częściowych najmniejszych kwadratów, znaną także pod nazwą projekcje na zmienne ukryte (z ang. projections to latent structures) [8]. 2.2.2 Regresja częściowych najmniejszych kwadratów Zadaniem metody PLS, podobnie jak i PCR, jest konstrukcja modelu kalibracyjnego w oparciu o kilka ukrytych zmiennych [7,8]. W PLS ukryte zmienne tworzone są jednak inaczej niż w PCR. W trakcie ich konstrukcji bierze się pod uwagę trzy aspekty, a mianowicie, ukryte zmienne są tak tworzone, aby: 1. dobrze opisywały wariancję X, 2. dobrze opisywały wariancję Y oraz 3. uwzględniały zależność pomiędzy X, a Y. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 12 Innymi słowy, informacja zawarta w Y jest aktywnie używana do konstrukcji ukrytych zmiennych, aby te najlepiej opisywały kowariancję pomiędzy X, a Y. Należy jednak podkreślić, iż ukryte zmienne konstruowane w PLS nie są czynnikami głównymi. Najbardziej ogólnym modelem PLS jest model PLS-2, który wyjaśnia zależność pomiędzy X, a blokiem kilku zmiennych zależnych Y: X [ m ,n ] = T[ m , f ] P[Tf , n ] + E [ m ,n ] (12) Y[ m,k ] = U [ m, f ] H [Tf ,k ] + G [ m,k ] (13) gdzie, E to macierz reszt od modelu, która zawiera nieopisaną informację X przez model o f czynnikach, U i H to odpowiednio macierze wyników i wag bloku zmiennych zależnych, a G to macierz reszt zawierająca nieopisaną część wariancji bloku zmiennych zależnych Y. Schematycznie ideę metody PLS-2 przedstawiono na Rys. 7. Najczęściej stosowany wariant PLS, gdzie modeluje się jedną zmienną zależną (PLS-1) jest szczególnym przypadkiem PLS-2. W trakcie konstrukcji modelu, dla zmiennych macierzy X uzyskuje się macierze wyników, T, wag, P, oraz macierz tak zwanych wag PLS, W. Interpretacja macierzy wyników i wag jest analogiczna jak w PCA. Także w PLS, macierz wag zawiera informację o zależności pomiędzy wynikami, a oryginalnymi zmiennymi macierzy X. Z kolei wagi PLS opisują relację, jaka istnieje pomiędzy Y, a oryginalnymi zmiennymi. Często kolejne wektory wag, p, oraz wag PLS, w, są do siebie bardzo podobne, co oznacza, że dany czynnik jest równie ważny do modelowania X oraz Y. Dla macierzy zmiennych zależnych również otrzymujemy zestaw macierzy wyników, U, oraz wag, H, gdzie wagi H wiążą T i Y. Wkłady poszczególnych zmiennych do modelowania Y określają ich współczynniki regresji, B. W każdej kolumnie macierzy B znajdują się współczynniki regresji dla każdej z k modelowanych własności: ( B [ n,k ] = W[ n, f ] P[Tf ,n ] W[ n, f ] ) Y[ m,k ] = X[ m,n ] B [ n,k ] + F[ m,k ] −1 H [Tf ,k ] (14) I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 13 n X m f f T U k Y m f PT f WT f QT Rys. 7 Zestawy ukrytych zmiennych tworzone w metodzie PLS. Choć zdecydowanie częściej konstruuje się modele PLS-1 to należy również zwrócić uwagę na własności modeli PLS-2. Mianowicie, PLS-2 jest wypadkowym modelem, gdyż objaśnia wszystkie zmienne Y równocześnie. Model PLS-2, zbudowany dla określonej liczby czynników, rzadko pozwala uzyskać optymalne wyniki modelowania dla wszystkich zmiennych zależnych. Nic nie stoi na przeszkodzie, aby skonstruować indywidualne modele PLS-1 dla każdej zmiennej zależnej osobno, co często prowadzi do dużo lepszych modeli. Można również konstruować model PLS-2 z różną liczbą czynników dla każdej zmiennej zależnej. Wyraźne korzyści stosowania modelu PLS-2 można zaobserwować jedynie, gdy pomiędzy zmiennymi Y istnieje stosunkowo silna korelacja. 2.3 Wstępne przygotowanie danych przed konstrukcją modeli kalibracyjnych Dane używane do konstrukcji modelu kalibracyjnego często wymagają wstępnego przygotowania. Ponieważ większość technik wstępnego przygotowania danych już została omówiona w rozdziale „Analiza czynników głównych i inne metody eksploracji danych”, dlatego teraz jedynie wymienimy te najczęściej stosowane w kalibracji. Wybór danej techniki nie jest oczywisty i zależy od rodzaju danych. Zazwyczaj, stosuje się różne techniki wstępnego przygotowania danych, a odpowiedź na pytanie czy daną technikę należy użyć można uzyskać dopiero po walidacji skonstruowanego modelu. Wśród wielu metod wstępnego przygotowania danych znajdują się techniki pozwalające na polepszenie stosunku sygnału do szumu [23], specyficzne transformacje danych (np. SNV I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 14 [24]), których zadaniem jest eliminacja niekorzystnych efektów fizycznych, jakie obserwuje się podczas pomiaru widm (np. rozpraszanie promieniowania elektromagnetycznego) oraz metody filtrowania danych, np. [25,26]. 2.4 Kolejne etapy konstrukcji modeli kalibracyjnych 2.4.1 Wybór próbek do zbioru modelowego Do konstrukcji modelu kalibracyjnego konieczny jest odpowiednio liczny zbiór próbek. Zbiór ten będziemy nazywali zbiorem modelowym. Aby zapewnić dobre zdolności predykcyjne modelu, zbiór modelowy powinien zawierać próbki, reprezentujące wszystkie możliwe źródła wariancji. Innymi słowy, należy mieć pewność, iż próbki zbioru modelowego dokładnie pokrywają całą domenę kalibracyjną. Jeśli reprezentatywność zbioru modelowego nie jest zapewniona to powstaje ryzyko ekstrapolacji lub interpolacji modelu, co nie jest wskazane. Reprezentatywność zbioru modelowego można zapewnić na ogół na dwa sposoby. Pierwszy sposób polega na odpowiednim zaplanowaniu eksperymentu, co wiąże się z przygotowaniem serii próbek o określonej charakterystyce. W tym celu można posłużyć się technikami planowania eksperymentu [27]. W niektórych sytuacjach, np. wówczas, gdy obiektem badań są próbki naturalne lub środowiskowe, użycie technik planowania eksperymentu jest niemożliwe. Jako drugie podejście pozostaje wybór reprezentatywnych próbek z zestawu tych dostępnych. Wybór ten ułatwiają algorytmy Kennarda i Stona [28] oraz jego modyfikacje [29,30]. Próbki wybrane do zbioru modelowego mają w przestrzeni eksperymentalnej rozkład zbliżony do rozkładu równomiernego, co zapewnia możliwie najlepszą reprezentatywność zbioru modelowego. Metody wyboru próbek są używane, gdy ich ilość jest odpowiednio duża, ponieważ zbiór modelowy powinien zawierać zdecydowanie więcej próbek niż zbiór testowy. Zazwyczaj przyjmuje się, iż zbiór modelowy powinno tworzyć pomiędzy 70%, a 75% całkowitej liczby dostępnych próbek. Algorytm Kennarda i Stona i algorytm „duplex” W celu zilustrowania działania algorytmu Kennarda i Stona oraz algorytmu „duplex” posłużymy się symulowanym zbiorem 20 próbek w dwuwymiarowej przestrzeni. W obu algorytmach, jako miarę podobieństwa pomiędzy próbkami przyjmuje się odległość I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 15 euklidesową. Najpierw, do zbioru modelowego ({) jako pierwszą wybiera się najbardziej reprezentatywną próbkę. Jest to próbka nr 1, położona najbliżej arytmetycznego środka danych (zob. Rys. 8a). Numery na Rys. 8a to kolejność, w której próbki były włączane do zbioru modelowego. Kolejną próbką dodaną do zbioru modelowego jest próbka, która znajduje się najdalej od pierwszej (próbka nr 2). Jako trzecią próbkę, do zbioru modelowego włącza się próbkę położoną najdalej od tych już wybranych (próbka nr 3). W tym celu oblicza się odległości euklidesowe pomiędzy m-k próbkami, a każdą próbką zbioru modelowego i wyznacza minimalne odległości. Następnie, na podstawie tych odległości wybiera się próbkę najbardziej odległą od próbek zbioru modelowego i włącza się ją do zbioru modelowego. Wybór kolejnych próbek do zbioru modelowego jest kontynuowany do momentu, gdy wybierzemy ich określoną liczbę. Na Rys. 8a możemy zauważyć, iż wybrane próbki do zbioru modelowego reprezentują możliwie wszystkie źródła wariancji i są równomiernie rozłożone w przestrzeni pomiarowej. W omawianym przykładzie do zbioru modelowego wybrano 14 próbek, co stanowiło 70% całkowitej ich ilości. Pozostałe próbki utworzyły zbiór testowy oznaczony na Rys. 8 jako (∆). W odróżnieniu od algorytmu Kennarda i Stona, algorytm „duplex” ma na celu zapewnić reprezentatywność zbioru modelowego i testowego. Na początku, znajduje się dwie próbki najbardziej od siebie oddalone i włącza je do zbioru modelowego. Są to próbki 1 i 2 (zob. Rys. 8b). W kolejnym kroku poszukuje się innej pary próbek, które są od siebie najbardziej oddalone (próbki 3 i 4) i dodaje się je do zbioru testowego. Następnie, na przemian, wybiera się próbki do zbioru modelowego i testowego, poszukując próbek najbardziej odległych w stosunku do próbek zbioru modelowego i testowego stosując takie samo kryterium wyboru jak w algorytmie Kennarda i Stona. Na przykład, próbki 5 i 6 są kolejnymi włączonymi odpowiednio do zbioru modelowego i testowego. Procedurę kontynuuje się, aż określona liczba próbek znajdzie się w zbiorze testowym. Pozostałe próbki, jakich nie wybrano, są dodane do zbioru modelowego. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 16 a) 7 2 3 12 2.5 6 2.5 10 14 2 3 11 13 6 1.5 11 5 3 1 zmienna 2 8 zmienna 2 b) 4 3 4 9 12 1.5 9 5 1 8 1 2 0.6 0.8 1 1.2 1.4 1.6 7 10 2 1.8 2 2.2 2.4 2.6 zmienna 1 1 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 zmienna 1 Rys. 8 Kolejność wyboru próbek do zbioru modelowego ({) i testowego (∆) stosując: a) algorytm Kennarda i Stona oraz b) algorytm „duplex”. 2.4.2 Wybór metody kalibracyjnej Oprócz omawianych metod istnieje wiele innych liniowych technik kalibracji [31]. Jednakże, ze względu na silną korelację zmiennych, w zdecydowanej większości problemów chemicznych, stosuje się metody PCR i PLS. Niewątpliwie przewagą PLS nad PCR jest uwzględnienie na etapie konstrukcji ukrytych zmiennych korelacji pomiędzy zbiorem zmiennych X, a Y. To powoduje, że modele PLS zazwyczaj pozwalają osiągnąć mniejsze błędy przewidywania dla nowych próbek w porównaniu do modeli PCR [32] i/lub modele są bardziej stabilne ze względu na mniejszą liczbę czynników użytych do ich konstrukcji. Modelowanie kilku zmiennych zależnych wymaga rozważenia dwóch opcji: 1. konstrukcja indywidualnych modeli dla każdej zmiennej zależnej lub 2. konstrukcja modelu dla wszystkich zmiennych zależnych równocześnie. Jeżeli pomiędzy zmiennymi zależnymi istnieje stosunkowo silna korelacja, wówczas model PLS-2 może dać lepsze wyniki niż PLS-1. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 17 2.4.3 Wybór kompleksowości modeli kalibracyjnych Kolejnym ważnym etapem konstrukcji modelu kalibracyjnego jest wybór odpowiedniej liczby czynników do jego budowy. Modele zbudowane w oparciu o zbyt mało czynników są źle dopasowane do danych, co wyraża się dużymi resztami od modelu dla próbek zbioru modelowego. Z drugiej strony, modele o zbyt dużej liczbie czynników, charakteryzują się małym błędem dla obiektów zbioru modelowego, lecz jeśli model użyty jest w celach predykcyjnych dla nowych próbek, wówczas błąd przewidywania jest bardzo duży. Takie modele nazywa się przeuczonymi. W skrajnym przypadku, jeśli do konstrukcji modelu zostanie użyta maksymalna liczba czynników, to jego błąd dopasowania będzie równy zero, a jego moc predykcyjna będzie fatalna. Z tego właśnie powodu, wybór liczby czynników do budowy modelu nie może opierać się na analizie RMSEC jako funkcji liczby czynników, a musi uwzględniać zdolności predykcyjne modelu. Wybór optymalnej liczby czynników do konstrukcji modelu pozwala na osiągnięcie kompromisu pomiędzy zadowalającym dopasowaniem modelu do danych, a dobrymi własnościami predykcyjnymi. Typowe wykresy błędów dopasowania modelu do danych oraz błędu przewidywania dla próbek zbioru testowego w zależności od ilości czynników w modelu przedstawia Rys. 9. błąd dopasowania i przewidywania modelu 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 liczba czynników w modelu Rys. 9 Przykładowy wykres przedstawiający zależności pomiędzy błędem dopasowania modelu do zbioru modelowego (-{-), a błędem przewidywania dla próbek zbioru testowego (- -) dla modeli o coraz większej liczbie czynników. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 18 W zależności od ilości dostępnych próbek, istnieją dwa sposoby wyboru optymalnej liczby czynników do konstrukcji modelu i oceny jego zdolności predykcyjnych. Pierwszy sposób polega na podzieleniu zbioru dostępnych próbek na trzy zbiory: 1. zbiór modelowy (służący do konstrukcji modelu), 2. zbiór monitoringowy (służący do wyboru optymalnej kompleksowości modelu) oraz 3. zbiór testowy (służący do końcowej oceny mocy predykcyjnej modelu z optymalną liczbą czynników). Jednakże ten sposób, z uwagi na zazwyczaj ograniczoną liczbę dostępnych próbek, jest rzadko stosowany. Inną możliwością wyboru optymalnej liczby czynników do konstrukcji modelu jak i jego późniejszej walidacji jest podział dostępnych próbek na dwa zbiory: modelowy i testowy. W celu wyboru optymalnej liczby czynników do konstrukcji modelu stosuje się techniki kroswalidacji [7,8]. W metodach kroswalidacji, iteracyjnie dzieli się zbiór modelowy na zbiór służący do konstrukcji modelu i tzw. zbiór walidacyjny. Ze względu na sposób tworzenia grup walidacyjnych wyróżniamy kroswalidację typu „wyrzuć k próbek” oraz kroswalidację Monte-Carlo [33]. W wariancie kroswalidacji „wyrzuć k próbek”, tworzy się p zbiorów walidacyjnych, z których każdy zawiera k próbek. Próbki te wybierane są z macierzy X losowo bez powtórzeń. Dla tychże próbek określa się zdolności predykcyjne modeli, zbudowanych dla m-k próbek, o coraz większej liczbie czynników, aby wybrać ich optymalną liczbę do konstrukcji końcowego modelu. Najprostszym wariantem tego typu kroswalidacji jest kroswalidacja „wyrzuć jeden obiekt” (z ang. leave-one-out crossvalidation), której idee schematycznie przedstawiono na Rys. 10. W kroswalidacji Monte-Carlo, p razy losowo dzieli się zbiór próbek na dwa, włączając za każdym razem do zbioru walidacyjnego k próbek, których liczba najczęściej mieści się w przedziale pomiędzy 30%, a 50% całkowitej liczby próbek w danych. Bez względu na wariant użytej kroswalidacji, dla próbek zbioru walidacyjnego gromadzi się ich reszty od każdego modelu o danej liczbie czynników. Następnie, na ich podstawie oblicza się średni błąd kwadratowy kroswalidacji, RMSECV (z ang. root mean square error of cross validation): I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 19 RMSECV ( f ) = 1 n 2 ⋅ ∑ ( y i − yˆ i ( f ) ) pn i =1 (15) gdzie yˆ i ( f ) to wartości zmiennej zależnej przewidziane na podstawie modelu o f czynnikach dla i-tej próbki, a p to liczba grup walidacyjnych lub liczba iteracji w kroswalidacji MonteCarlo. 1 x1 Xmodel ... = ŷ1 e1 e2 ef b1, 2,... , f 2 x2 Xmodel . . . = e1 e2 ... ... ef e1 e2 ... ... ef ŷ2 b1, 2,... , f n Xmodel m xm = ŷm ... ... ... b1, 2,... , f Rys. 10 Ilustracja koncepcji metody kroswalidacji typu „wyrzuć jeden obiekt”. Ze wszystkich wariantów kroswalidacji, najczęściej stosuje się kroswalidację typu „wyrzuć jeden obiekt”. Wybór liczby czynników do konstrukcji modeli w oparciu o kroswalidację typu „wyrzuć n obiektów” lub Monte-Carlo zmniejsza ryzyko przeuczenia modeli, ale obie techniki wymagają więcej próbek. W skrajnym przypadku, gdy liczba próbek jest bardzo mała, metody kroswalidacji wykorzystuje się zarówno do wyznaczenia kompleksowości modeli jak i do oszacowania błędu przewidywania. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 20 Wybór optymalnej kompleksowości modelu nie jest prostym zadaniem. Oprócz wspomnianych sposobów oceny kompleksowości modelu istnieją także inne, a samo zagadnienie do dnia dzisiejszego nie zostało definitywnie rozwiązane [34,35,36]. 2.4.4 Testowanie modeli kalibracyjnych Poprzez walidację modelu kalibracyjnego rozumie się ocenę jego zdolności predykcyjnych dla zbioru próbek, który nie był użyty do jego konstrukcji. Zazwyczaj, zbiór testowy powstaje w wyniku wyboru próbek do zbioru modelowego i testowego np. metodą Kennarda i Stona [28] lub algorytmem „duplex” [29]. Choć algorytm „duplex” wydaje się być najtrafniejszym wyborem, to, jeśli w danych występują obiekty odległe, wówczas powinniśmy stosować algorytm Kennarda i Stona, który zapewni, iż do zbioru modelowego zostaną wybrane wszystkie obiekty odległe. Wtedy, stosując stabilne metody regresji [37,38,39] możliwa jest konstrukcja modelu kalibracyjnego, opisującego poprawnie większość danych i skuteczna diagnostyka obiektów odległych. Błąd przewidywania dla próbek zbioru modelowego określa średni błąd kwadratowy, RMSEP: RMSEP( f ) = 1 w 2 ⋅ ∑ ( y i − yˆ i ( f ) ) w i =1 (16) gdzie, w to liczba próbek w zbiorze testowym. 2.5 Kiedy model kalibracyjny jest dobry, a kiedy zły? Poprawnie skonstruowany model kalibracyjny powinien charakteryzować się porównywalnymi błędami dopasowania, kroswalidacji oraz przewidywania dla próbek zbioru testowego. Duże różnice pomiędzy tymi wartościami wskazują na potencjalne problemy w modelowaniu i wymagają odnalezienia przyczyn takiego stanu rzeczy. Wymieńmy kilka oznak świadczących o tym, że zbudowany model może nie być odpowiedni: 1. duży błąd dopasowania modelu do zbioru modelowego, powyżej limitu I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 21 akceptowanego dla danego problemu kalibracyjnego, 2. duże wartości reszt od modeli o coraz większej liczbie czynników, 3. duży błąd przewidywania dla próbek zbioru testowego. Do najczęstszych czynników, jakie mogą mieć znaczący wpływ na model kalibracyjny możemy zaliczyć: 1. obecność tzw. złych obiektów odległych, 2. brak reprezentatywności zbioru modelowego, 3. niejednorodność struktury danych (grupy obiektów), 4. niewłaściwa walidacja modelu, 5. niewłaściwe przygotowanie danych przed konstrukcją modelu kalibracyjnego, 6. duże błędy systematyczne w X i/lub Y, 7. niewłaściwe przygotowanie próbek podczas eksperymentu, 8. nieoptymalna kompleksowość modelu, 9. niewystarczająca informacja w X, aby wymodelować Y, 10. brak liniowej zależności, pomiędzy X, a Y. 2.6 Konstrukcja modeli kalibracyjnych PLS-1 w praktyce Modele PLS-1 są najczęściej stosowane do modelowania danych chemicznych i dlatego skupimy się na ich. Główne etapy ich konstrukcji przedstawimy na przykładzie dwóch zestawów eksperymentalnych danych. 2.6.1 Zbiory danych użyte do konstrukcji modeli PLS-1 Dane 1 tworzy 69 widm z bliskiej podczerwieni, jakie zarejestrowano dla próbek śruty rzepakowej w zakresie 1100 - 2500 nm. Dla każdej z próbek oznaczono całkowitą zawartość kwasów tłuszczowych, którą wyrażono w procentach w przeliczeniu na suchą masę próbki. Dokładny opis danych jak i eksperymentu przedstawiono w [40]. Dane 2 tworzy zbiór 97 widm z bliskiej podczerwieni próbek wątroby wieprzowej. W próbkach oznaczono całkowitą zawartość tłuszczy, którą wyrażono w procentach w przeliczeniu na suchą masę próbki. Widma zarejestrowano w zakresie 1100 nm do 1950 nm. Próbki wątroby pobrano od zwierząt, które hodowano stosując trzy rodzaje pasz [41]. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 22 2.6.2 Krok 1 - wstępna eksploracja danych Przed przystąpieniem do kalibracji należy dokładnie poznać strukturę danych. Ocenie poddaje się obiekty macierzy X oraz jej zmienne. Jeśli dane tworzą sygnały instrumentalne, wizualnie analizuje się poziom szumu i linii bazowej w sygnałach. Przed przystąpieniem do konstrukcji modelu kalibracyjnego, w zależności od rodzaju modelowanych danych mogą one wymagać odmiennego przygotowania. Specyficzną grupę technik wstępnego przygotowania danych stanowią techniki stosowane do przygotowania sygnałów instrumentalnych, np. widm z bliskiej podczerwieni. W przypadku danych, których zmienne w macierzy X to różne pomiary, wówczas bierze się pod uwagę procedurę autoskalowania lub, jeśli to konieczne transformację logarytmiczną. Na Rys. 11 przedstawiono widma NIR danych 1 i 2 wraz z odpowiadającymi histogramami ich zmiennych zależnych. Analizując oryginalne widma próbek danych 1 możemy zaobserwować cztery próbki, których widma znacznie różnią się od pozostałych. Ponadto, dość duży rozrzut widm w stosunku do siebie może być spowodowany niekorzystnymi zmianami intensywności odbitego promieniowania elektromagnetycznego z zakresu bliskiej podczerwieni na skutek jego rozpraszania na powierzchni badanych próbek. Z tego powodu uzyskane widma są mniej lub bardziej intensywne, ale nie ma to bezpośredniego związku z zawartością analitu w próbce. Na efekty rozpraszania wiązki promieniowania elektromagnetycznego mają głównie wpływ rozdrobienie próbki jak i jej powierzchnia. Najczęściej ten efekt można zniwelować transformując widma metodą SNV [24]. Na Rys. 11b i c oraz 11e i f, odpowiednio dla danych 1 i 2 pokazano widma NIR przed i po transformacji SNV. Dla omawianych zestawów danych możemy uznać, że transformacja SNV jest konieczna, gdyż po niej wariancja widm zdecydowanie zmniejsza się. Oryginalne widma charakteryzują się prawie niezauważalnym poziomem szumu, dlatego nie ma potrzeby jego redukcji. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 23 a) d) 30 25 25 20 ilość zliczeń ilość zliczeń 20 15 15 10 10 5 5 0 2 3 4 5 6 7 8 9 10 0 0.2 11 0.4 0.6 całkowita zawartość tłuszczy b) x 10 0.8 1 1.2 1.4 całkowita zawartość tłuszczy 6 e) 9 x 10 6 3 8 2.5 6 log(1/R) log(1/R) 7 5 2 1.5 4 3 1 2 1200 1400 1600 1800 2000 2200 1100 2400 1200 1300 c) 1400 1500 1600 1700 1800 1900 1700 1800 1900 długość fali [mn] długość fali [mn] f) 2 2 1.5 1.5 log(1/R) po SNV log(1/R) po SNV 1 1 0.5 0 0.5 0 -0.5 -1 -0.5 -1.5 -1 1200 1400 1600 1800 2000 długość fali [mn] 2200 2400 -2 1100 1200 1300 1400 1500 1600 długość fali [mn] Rys. 11 a) Histogram wartości zmiennej zależnej danych 1 (całkowita zawartość tłuszczy w próbkach wyrażona w procentach w przeliczeniu na suchą masę próbki), b) zbiór widm 69 próbek śruty rzepakowej zarejestrowanych w zakresie spektralnym od 1100 nm do 2500 nm z krokiem 2 nm, c) zbiór tych widm do transformacji SNV, d) histogram wartości zmiennej zależnej danych 2 (całkowita zawartość tłuszczy w próbkach wyrażona w procentach w przeliczeniu na suchą masę próbki), e) zbiór widm 97 próbek wątroby wieprzowej zarejestrowanych w zakresie spektralnym od 1100 nm do 1950 nm z krokiem 2 nm oraz f) zbiór widm próbek wątroby wieprzowej po transformacji SNV. Następnie, stosując metodę PCA zwizualizujemy strukturę danych X, w celu oceny stopnia ich jednorodności. Dla pierwszego zestawu danych, płaszczyzna zdefiniowana przez pierwsze dwa czynniki główne pozwala na uwidocznienie ponad 92% całkowitej wariancji danych (zob. Rys. 12a). I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 24 a) b) 0.8 9 0.6 0.4 0.3 0.4 0.2 0.2 PC 3 - 4,73% PC 1 - 9,46% 11 0 -0.2 0.1 0 -0.4 -0.1 -0.6 -0.2 -0.8 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 PC 1 - 83,82% 2.5 3 -1.5 -1 -0.5 0 0.5 1 1.5 PC 1 - 85,80% Rys. 12 Projekcja próbek na przestrzeń zdefiniowaną przez dwa pierwsze czynniki główne dla: a) danych 1 oraz b) danych 2 (każdą grupę próbek oznaczono innym symbolem, ze względu na rodzaj podawanej zwierzętom paszy). Dane 1 nie mają jednorodnej struktury. Wzdłuż pierwszego czynnika głównego dwie próbki nr 9 i 11 są wyraźnie daleko od pozostałych. Dla próbki nr 9 całkowita zawartość tłuszczy jest najmniejsza, a próbka ta jest także daleko w przestrzeni X. Próbka 11 ma wartość zmiennej zależnej bliską wartości średniej stężeń i jest ona jedynie odległa w przestrzeni X. Ze względu na swoją odmienność od pozostałych próbek w przestrzeni X oraz y próbka 9 może być uznana jako obiekt odległy. Dopóki nie sprawdzimy, jaki wywiera ona wpływ na model, dopóty nie możemy odpowiedzieć na pytanie czy jest dobrym czy złym obiektem odległym. Złe obiekty odległe bardzo silnie wpływają na model, całkowicie zmieniając jego dopasowanie do danych i zdolności predykcyjne. Natomiast tzw. dobre obiekty odległe poszerzają zakres kalibracyjny oraz dodatkowo stabilizują model i dlatego ich usunięcie ze zbioru modelowego nie jest pożądane. Istnieją dwa rodzaje podejść do modelowania danych zawierających obiekty odległe. Pierwszy zakłada ich detekcje i eliminację, a następnie konstrukcję modelu stosując klasyczne techniki kalibracji. Alternatywą jest użycie tzw. stabilnych metod kalibracyjnych, które pozwalają na konstrukcję poprawnych modeli, dobrze opisujących większości danych nawet, gdy zbiór modelowy zawiera obiekty odległe [37]. Do tej pory, w literaturze zaproponowano kilka wersji stabilnych modeli PCR i PLS [42,43,44], z czego metoda zaproponowana w [45] wydaje się być najbardziej efektywna. Jeśli skupimy się jedynie na klasycznej metodzie PLS to ustalenie czy próbka 9 jest dobrym obiektem odległym wymaga zbudowania dwóch modeli kalibracyjnych - dla zbioru modelowego z tą próbką i bez niej. Jeśli jej obecność w zbiorze I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 25 modelowym nie wpływa znacznie na błąd dopasowania modelu, wówczas powinniśmy ją uwzględnić w jego budowie i traktować jako dobry obiekt odległy. Diagnostyka obiektów odległych jest możliwa jedynie na podstawie reszt od stabilnego modelu kalibracyjnego [43]. Wówczas reszty dla takich próbek od stabilnego modelu będą bardzo duże, co pozwoli na ich odróżnienie od pozostałych próbek. Dla klasycznych modeli, złe obiekty odległe na tyle silnie zmieniają model, iż głównie opisuje on obiekty odległe, a co za tym idzie dla takich próbek reszty od modelu są bardzo małe, a dla pozostałych duże. W dalszej części rozdziału powrócimy do dyskusji tego zagadnienia i jednoznacznie odpowiemy czy próbki 9 i 11 są dobrymi czy złymi obiektami odległymi. Na etapie eksploracji zbioru danych mamy jedynie przypuszczenie, iż ewentualnie złe dopasowanie modelu do danych może być wynikiem obecności obiektów odległych w przestrzeni X i/lub y. Dane o niejednorodnej strukturze, np. dane zawierające wyraźne grupy próbek, mogą sprawiać trudności w trakcie konstrukcji modelu. Wówczas, jeden globalny model kalibracyjny nie pozwoli na efektywne modelowanie danych i dlatego należy rozważyć konieczność konstrukcji lokalnych modeli (dla każdej grupy próbek osobno). Właśnie z taką sytuacją możemy mieć do czynienia modelując dane 2, gdyż na projekcji próbek na przestrzeń pierwszego i trzeciego czynnika głównego widoczne są trzy grupy próbek (zob. Rys. 12b). Ich obecność można wytłumaczyć zmianami w profilu stężeniowym tłuszczy w wątrobie wieprzowej na skutek stosowania różnych pasz. Próbki z każdej grupy zostały oznaczone innym symbolem. Po wstępnej eksploracji danych możemy przystąpić do kolejnych etapów konstrukcji modelu. 2.6.3 Krok 2 - wybór próbek do zbioru modelowego i wybór liczby czynników do modelu W większości przypadków wybór próbek do zbioru modelowego przeprowadzamy mając na uwadze, że powinny one równomiernie wypełniać domenę kalibracyjną. Ten etap kalibracji jest bardzo ważny, gdyż reprezentatywność próbek zbioru modelowego determinuje zakres stosowalności skonstruowanego modelu. Jeśli to tylko możliwe, to powinniśmy planować eksperyment, co w pełni zapewni reprezentatywność zbioru modelowego. Jednakże nie zawsze jest to możliwe, np. pracując z próbkami biologicznymi czy naturalnymi nie ma możliwości kontrolowania ich źródeł wariancji. Wówczas wybieramy do zbioru modelowego próbki zakładając ich możliwie równomierny rozkład, co zapewnia użycie algorytmu Kennarda i Stona oraz algorytmu „duplex”. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 26 Przeważnie, do konstrukcji modelu kalibracyjnego używa się ok. 70-75% wszystkich próbek, a pozostałe tworzą zbiór testowy, stosowany do oceny własności predykcyjnych modelu. Jeśli dane wymagają wstępnego przygotowania, to próbki do zbioru modelowego wybiera się z danych po transformacji. Teraz, zilustrujemy jak wybór próbek wpływa na własności predykcyjne modeli, wybierając próbki losowo (ok. 75% całkowitej liczby próbek), a potem algorytmem Kennarda i Stona. Wyniki modelowania porównamy w oparciu o krzywe błędów kroswalidacji typu „wyrzuć jeden obiekt” dla modeli skonstruowanych w oparciu o zbiory modelowe utworzone dwoma w/w sposobami. Jak pokazują krzywe błędów kroswalidacji typu „wyrzuć jeden obiekt”, wybór obiektów do zbioru modelowego wywiera wpływ na własności predykcyjne modeli (zob. Rys. 13). Równocześnie, jeśli próbki do zbioru modelowego wybrano tak, aby równomiernie wypełniały domenę kalibracyjną, oszacowanie kompleksowości modeli na podstawie krzywych kroswalidacyjnych wydaje się być łatwiejsze. W przypadku danych 1, krzywa pozwala stwierdzić, iż model powinien zawierać 4 czynniki, a dla danych 2, 5 czynników (zob. Rys. 13b i e). Kroswalidacja typu „wyrzuć jeden obiekt” może prowadzić do wyboru zbyt wielu czynników do konstrukcji modelu, czyniąc go przeuczonym. Innymi wariantami kroswalidacji są kroswalidacja typu „wyrzuć więcej obiektów” lub kroswalidacja MonteCarlo. Na Rys. 13c i f przedstawiono krzywe kroswalidacyjne uzyskane dla danych 1 i 2. Dla danych 1, w każdym kroku kroswalidacji zbiór modelowy zawierał 32 próbki, a zbiór walidacyjny losowo wybrane 16 próbek. Prezentowane wartości RMSECV są średnią z 500 powtórzeń. Dla danych 2, w każdym kroku kroswalidacji do zbioru modelowego losowo wybrano 73 próbki, a do zbioru walidacyjnego 30 próbek. Wyniki RMSECV są średnią z 500 powtórzeń. Uzyskane krzywe błędów kroswalidacji typu „wyrzuć jeden obiekt” i metody Monte-Carlo dla omawianych danych pozwalają wyciągnąć te same wnioski co do optymalnej liczby czynników w modelu. Do konstrukcji końcowego modelu PLS-1 dla danych 1 użyto cztery czynniki, a dla danych 2, pięć. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 27 a) d) 0.65 0.2 0.6 0.55 0.18 RMSECV RMSECV 0.5 0.45 0.4 0.35 0.16 0.14 0.3 0.12 0.25 0.2 0.15 0.1 1 2 3 4 5 6 7 8 9 10 1 2 3 liczba czynników w modelu b) e) 1.4 RMSECV RMSECV 6 7 8 9 10 8 9 10 8 9 10 0.2 0.16 1 0.8 0.6 0.14 0.12 0.4 0.1 0.2 1 2 3 4 5 6 7 8 9 0.08 10 1 2 3 4 5 6 7 liczba czynników w modelu liczba czynników w modelu f) 1.4 0.2 0.18 1.2 0.16 RMSECV 1 RMSECV 5 0.18 1.2 c) 4 liczba czynników w modelu 0.8 0.6 0.14 0.12 0.1 0.4 0.08 0.2 1 2 3 4 5 6 7 liczba czynników w modelu 8 9 10 0.06 1 2 3 4 5 6 7 liczba czynników w modelu Rys. 13 Krzywe kroswalidacyjne typu „wyrzuć jeden obiekt” dla zbioru modelowego danych 1, który zawierał 52 próbki wybrane z 69 próbek: a) losowo, b) stosując algorytm Kennarda i Stona; c) krzywa kroswalidacyjna Monte-Carlo (do zbioru walidacyjnego wybierano 500 razy losowo 16 z 52 próbek zbioru modelowego). Krzywe kroswalidacyjne typu „wyrzuć jeden obiekt” dla zbioru modelowego danych 2, który zawierał 73 próbki wybrane z 97 próbek: d) losowo, e) stosując algorytm Kennarda i Stona; f) krzywa kroswalidacyjna Monte-Carlo (do zbioru walidacyjnego wybierano 500 razy losowo 30 z 73 próbek zbioru modelowego). 2.6.4 Krok 3 – ocena skonstruowanych modeli kalibracyjnych Do najczęściej stosowanych sposobów wizualnej oceny modeli służą wykresy wartości przewidzianej zmiennej zależnej, ŷ, względem y eksperymentalnego oraz prezentowane w różnej formie wykresy reszt od modelu. Na Rys. 14a oraz d przedstawiono zależność ŷ przewidzianego na podstawie modeli PLS od y obserwowanego odpowiednio dla danych 1 i 2. Próbki zbioru modelowego oznaczono jako ({), a próbki zbioru testowego jako (¼). W przypadku dobrych modeli kalibracyjnych, zarówno próbki zbioru modelowego jak i testowego powinny być rozmieszczone symetrycznie wzdłuż prostej o jednostkowym nachyleniu. Prosta obrazuje idealną zależność, dla której różnice pomiędzy obserwowanymi I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 28 wartościami zmiennej zależnej, a tymi przewidzianymi na podstawie modelu wynoszą zero. Jednocześnie oczekuje się, iż wartości reszt dla próbek zbioru modelowego jak i testowego będą porównywalne, co gwarantuje zbliżone wartości błędów RMSEC i RMSEP modelu. Rozkład reszt od modelu, dla obu zbiorów próbek powinien być zbliżony do normalnego. a) d) 11 1.4 zawartość tłuszczy przewidziana zawartość tłuszczy przewidziana 10 9 8 7 6 5 4 1.2 1 0.8 0.6 0.4 3 0.2 2 2 3 4 5 6 7 8 9 10 0.2 11 0.4 b) e) 0.4 wartości reszt od modelu 0.1 0 -0.1 -0.2 1.4 0.1 0.05 0 -0.05 -0.1 -0.15 -0.2 -0.5 -0.25 0 5 10 15 20 25 30 35 40 45 50 0 10 20 indeks próbki 30 40 50 60 70 50 60 70 indeks próbki f) 0.4 0.25 0.2 0.3 0.15 0.2 wartości reszt od modelu wartości reszt od modelu 1.2 0.25 -0.4 0.1 0 -0.1 -0.2 -0.3 0.1 0.05 0 -0.05 -0.1 -0.15 -0.4 -0.5 1 0.15 0.2 -0.3 c) 0.8 0.2 0.3 wartości reszt od modelu 0.6 zawartość tłuszczy obserwowana zawartość tłuszczy obserwowana -0.2 0 5 10 15 20 25 30 kolejne próbki 35 40 45 50 -0.25 0 10 20 30 40 kolejne próbki Rys. 14 a) Model PLS-1, przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach śruty rzepakowej (dane 1), wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej zawartość tłuszczy w próbkach, b) wykres słupkowy reszt od tego modelu oraz c) wykres słupkowy reszt próbek od tego modelu, na którym uszeregowano je względem rosnącej zawartości tłuszczy w próbkach; d) model PLS-1 przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach wątroby wieprzowej (dane 2), wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej zawartość tłuszczy w próbkach, e) wykres słupkowy reszt tego modelu oraz f) wykres słupkowy reszt próbek od modelu, na którym uszeregowano je względem rosnącej zawartości tłuszczy w próbkach. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 29 Jeśli dla próbek, których wartości zmiennej zależnej są małe i reszty od modelu są również małe, a dla próbek, których zmienna zależna ma duże wartości, a reszty od modelu też są duże, możemy przypuszczać, iż mamy do czynienia z błędem proporcjonalnym do mierzonego sygnału, lub stężenia danego składnika w próbce. W takim przypadku należy rozważyć logarytmiczną transformację danych. Natomiast, jeśli reszty próbek od modelu, uszeregowane od najmniejszej do największej wartości zmiennej zależnej, wykazują nieliniowy trend wówczas zależność pomiędzy X, a y jest nieliniowa. W przypadku modelowanych danych 1 i 2 żaden z wymienionych problemów nie ma miejsca, co potwierdza analiza Rys. 14b i c oraz 14e i f. Na Rys. 14b widzimy, że model charakteryzuje się stosunkowo małymi wartościami reszt od modelu, dla obu zbiorów próbek. Błędy, jakie uzyskano dla modelu o czterech czynnikach wynoszą dla zbioru modelowego 0,2032, a dla testowego, 0,1988, co stanowi odpowiednio 2,41% i 2,36% zakresu zmiennej zależnej zbioru modelowego. W górnej części wykresu widzimy dwie próbki, dla których wartości y są relatywnie duże (zob. Rys. 14a). Są to wcześniej wspomniane próbki 9 i 11. Jednakże nie wywierają one znacznego wpływu na model, gdyż wartości błędów dopasowania i przewidywania modelu są porównywalne z błędami modelu skonstruowanego dla zbioru modelowego bez tych próbek. Próbki 9 i 11 możemy uważać za dobre obiekty odległe, które poszerzają zakres stosowalności modelu i pozwalają przewidywać całkowitą zawartość tłuszczy w próbkach w zakresie od 2% do około 10,5%. W przypadku modelu zbudowanego w oparciu o widma NIR próbek wątroby wieprzowej (dane 2), model jest gorszy, niż model dla danych 1. W porównaniu do zakresu pomiarowego y rozrzut reszt od modelu próbek zbiorów modelowego i testowego jest stosunkowo duży. Należy jednak podkreślić, iż rozrzut ten jest wciąż symetryczny. Uzyskane błędy dla zbiorów modelowego i testowego wynoszą odpowiednio 0,0906 i 0,0980 (8,71% i 9,42% zakresu zmiennej zależnej zbioru modelowego). Konstrukcja modeli dla indywidualnych grup próbek niestety nie prowadzi do polepszenia wyników modelowania. Porównując skonstruowane modele na podstawie ich błędów odniesionych do zakresu zmienności y zbioru modelowego możemy stwierdzić, że model PLS dla danych 1 charakteryzuje się lepszym dopasowaniem do danych jak i umożliwia lepsze przewidywanie zmiennej zależnej dla nowych próbek. Stosunkowo pomocne w wykryciu próbek, które mają duży wpływ na model, są tzw. mapy przedstawiające kwadraty wartości reszt od modeli z różną liczbą czynników dla próbek zbioru modelowego (zob. Rys. 15). I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 30 28.197 26.875 25.553 24.232 22.91 21.588 20.266 18.945 17.623 16.301 14.98 13.658 12.336 11.014 9.693 8.371 7.049 5.727 4.406 3.084 1.762 0.441 5 10 indeks próbki 15 20 25 30 35 40 45 50 1 2 3 4 5 6 7 liczba czynników w modelu 8 9 10 b) 0.424 0.404 0.384 0.364 0.344 0.325 0.305 0.285 0.265 0.245 0.225 0.205 0.185 0.166 0.146 0.126 0.106 0.086 0.066 0.046 0.027 0.007 10 20 indeks próbki a) 30 40 50 60 70 1 2 3 4 5 6 7 8 9 10 liczba czynników w modelu Rys. 15 Mapy przedstawiające kwadraty reszt od modeli PLS-1 uzyskane stosując procedurę kroswalidacji „wyrzuć jeden obiekt” dla próbek zbioru modelowego: a) danych 1 i b) danych 2. Mapy te skonstruowano dla dwóch zbiorów modelowych omawianych danych. Wartości reszt uzyskuje się na drodze kroswalidacji np. typu „wyrzuć jeden obiekt”. Wyraźną tendencją, którą obserwuje się włączając kolejne czynniki do budowy modelu, jest zmniejszanie się wartości reszt od modelu, co widzimy na mapach dla konstruowanych modeli prezentowanych na Rys. 15. Na ogół, ze wzrostem kompleksowości modelu całkowity procent opisanej wariancji danych przez kolejne czynniki modelu, zarówno w X jak i w y, sukcesywnie rośnie (zob. Rys. 16). Modele PLS-1 z optymalną liczbą czynników pozwoliły opisać ponad 95% całkowitej wariancji danych w X oraz ponad 95% zmienności y dla danych 1, a w przypadku danych 2, za pomocą pięcioczynnikowego modelu opisano ponad 95% całkowitej wariancji w X i prawie 80% całkowitej zmienności y. Choć dla modeli o bardzo małej liczbie czynników z łatwością można wyróżnić obiekty o dużych wartościach kwadratów reszt, to dla modeli o optymalnej liczbie czynników te wartości są porównywalne z innymi. Każde dane eksperymentalne są obarczone błędem pomiarowym, którego natura jest inna dla pomiarów w X, jak i Y. Jeśli macierz X tworzą np. widma odbiciowe NIR, to na ich jakość mają bezpośredni wpływ takie czynniki jak sposób pobierania próbek, ich przechowywanie, upakowanie próbki w kuwecie, stopień rozdrobienia próbki, temperatura w trakcie prowadzenia pomiaru, itp. Wszystkie one są możliwymi źródłami wariancji. W przypadku modelowania kilku zmiennych zależnych równocześnie, każdą z nich uzyskuje się zazwyczaj poprzez indywidualne pomiary stosując różne techniki referencyjne, obarczone własnym I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 31 błędem pomiarowym. Niestety, wiedza o błędzie metod referencyjnych nie zawsze jest dostępna. Jeśli jednak dysponujemy tą informacją, należy pamiętać, iż model kalibracyjny nie powinien charakteryzować się błędem mniejszym od błędu metody referencyjnej. c) 100 90 procent wyjaśnionej wariancji w X procent wyjaśnionej wariancji w X a) 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 1 2 3 4 5 6 7 8 9 0 10 1 2 3 liczba czynników w modelu b) d) 100 procent wyjaśnionej wariancji w y procent wyjaśnionej wariancji w y 90 80 70 60 50 40 30 20 10 0 4 5 6 7 8 9 10 8 9 10 liczba czynników w modelu 100 90 80 70 60 50 40 30 20 10 1 2 3 4 5 6 7 liczba czynników w modelu 8 9 10 0 1 2 3 4 5 6 7 liczba czynników w modelu Rys. 16 Kumulacyjne procenty wariancji dla X i y, opisane przez modele PLS-1 o różnej kompleksowości, skonstruowane dla: a-b) danych 1 oraz c-d) danych 2. 2.6.5 Krok 4 – ewentualne polepszenie modeli kalibracyjnych W tym momencie moglibyśmy już zakończyć proces modelowania omawianych danych. Jednak dość często modele kalibracyjne próbuje się polepszyć. Owo polepszenie ma zazwyczaj na celu uprościć model, a przez to ułatwić jego interpretację. Stosuje się do tego dwa rodzaje podejść. Pierwszy rodzaj metod to metody wyboru zmiennych. Do tejże grupy należy wiele technik, od bardzo prostych [46] po złożone metody optymalizacyjne takie jak np. algorytm genetyczny [47,48]. Z arsenału metod wyboru zmiennych stosunkowo często stosuje się metody, w których o wadze zmiennej mówi stabilność jej współczynnika regresji. Jedną z najbardziej znanych metod tego typu jest UVE-PLS (z ang. uninformative variable elimination-partial least squares) [49]. Choć w konstrukcji modelu PLS uwzględnia się kowariancję pomiędzy X, a y to jednak w skutecznym modelowaniu przeszkadzają zmienne o I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 32 dużej wariancji, a małej korelacji z y. Takie zmienne można zidentyfikować stosując, np. UVE-PLS czy metody, w których oszacowanie stabilności współczynników regresji bazuje na podejściach „jackknifingu” lub „bootstrappingu” [50]. Poznanie stabilności współczynników regresji prowadzi do identyfikacji istotnych z punktu modelowania zmiennych, którym następnie można próbować nadać chemiczną interpretację. Jednakże należy pamiętać o konieczności walidacji wybranych zmiennych [51]. Kolejną grupę metod stanowią techniki, których zadaniem jest usunięcie z danych informacji jaka nic nie wnosi do modelowania zmiennej zależnej [52]. Jej reprezentantem jest ortogonalna metoda częściowych najmniejszych kwadratów (z ang. orthogonal partial least squares) [26]. 2.7 Podsumowanie Istnieje wiele metod kalibracji. W chemii, z uwagi na konieczność konstrukcji modeli kalibracyjnych dla dużej liczby skorelowanych zmiennych, dominują zastosowania PLS i PCR. Wśród tych dwóch, PLS jest najczęściej używaną metodą kalibracji w chemometrii. Modele PLS można konstruować używając różne algorytmy [53,54,55], których rozwój był głównie podyktowany próbą podniesienia wydajności obliczeniowej dla zbiorów danych o dużej liczbie próbek i/lub zmiennych. Wśród wielu pozycji literaturowych na temat kalibracji wielowymiarowych danych na szczególną uwagę zasługują [7,8,32]. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 33 3. METODY DYSKRYMINACJI I KLASYFIKACJI 3.1 Drzewa klasyfikacji i regresji Drzewa klasyfikacji i regresji, CART, (z ang. classification and regression trees) [56] to technika modelowania danych z nadzorem, która w zależności od typu modelowanej zmiennej y (ciągła lub dyskretna) pozwala na konstrukcję modeli kalibracyjnych lub klasyfikacyjnych. Choć metoda CART wydaje się być bardzo ogólną techniką modelowania danych to jednak najlepsze wyniki otrzymuje się, jeśli jest używana do problemów dyskryminacyjnych. Z tego właśnie powodu omawiamy ją w tej części rozdziału razem z innymi wybranymi technikami dyskryminacji i klasyfikacji. Celem metody CART jest utworzenie w przestrzeni zmiennych X wzajemnie wykluczających się regionów, które zawierają możliwie najwięcej próbek z jednej grupy. Regiony te tworzone są poprzez binarne podziały indywidualnych zmiennych, zwane regułami logicznymi. Z tego względu model CART to drzewo decyzyjne. Drzewo decyzyjne budują węzły, które symbolizują podgrupy próbek. Tworzenie drzew decyzyjnych odbywa się poprzez kolejne podziały zbioru modelowego na podzbiory próbek, aż do uzyskania jednorodnych grup próbek lub, gdy ilość próbek w terminalnych węzłach osiągnie ustaloną liczbę. Jakość każdego z podziałów oceniana jest ilościowo stosując tzw. funkcję redukcji zanieczyszczenia, ∆I, która w czasie konstrukcji modelu jest maksymalizowana: ∆I(t ) = I(t ) − p L I(t L ) − p R I(t R ) (17) gdzie I(t) to zanieczyszczenie węzła „rodzica” t, a pL i pR to proporcja obiektów z i-tej grupy jakie są w lewym i prawym węźle „dziecku”. Najczęściej stosowaną miarą zanieczyszczenia węzła t jest entropia, którą definiuje się jako: k I (t ) = −∑ pi (t ) ln( pi (t )) (18) i =1 gdzie k to liczba grup próbek, pi to proporcja próbek z i-tej grupy w węźle t. Model CART konstruuje się w dwóch krokach: I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 34 1. budowa drzewa decyzyjnego o maksymalnej liczbie węzłów, 2. wybór optymalnej ilości węzłów terminalnych w drzewie. Tworzenie drzewa decyzyjnego zakłada konstrukcje drzewa o maksymalnej liczbie węzłów. Jednakże ze względu na dużą liczbę węzłów, taki model jest przeuczony. Efekt przeuczenia modelu niweluje się poprzez odpowiednie usuniecie węzłów (z ang. tree pruning). Wybór optymalnej kompleksowości modelu prowadzi się zazwyczaj w oparciu o procedurę kroswalidacji. Na każdym jej etapie dostępny zbiór próbek dzieli się na np. 10 zestawów, w których każda grupa powinna być reprezentowana możliwie równolicznie. Dla 9 z 10 zestawów próbek konstruuje się model CART, a jednego zbioru używa się do testowania modelu. Po procedurze kroswalidacji błędy klasyfikacji (tj. procent źle zaklasyfikowanych próbek) uśrednia się biorąc pod uwagę błędy dla modeli z tą samą liczbą terminalnych węzłów. Optymalną kompleksowość modelu ustala się w oparciu o wyniki błędów uzyskane na drodze kroswalidacji, przedstawione jako zależność RMSECV od liczby węzłów terminalnych w drzewie decyzyjnym. Na Rys. 17, schematycznie przedstawiono główne etapy tworzenia drzewa decyzyjnego dla dwuwymiarowych symulowanych danych, które zawierają trzy grupy próbek po 30 w każdej. Podział obiektów na podgrupy determinuje reguła logiczna, która maksymalizuje funkcję redukcji zanieczyszczenia węzłów. Jest ona konstruowana tak, aby na każdym etapie próbki były podzielone na dwie grupy możliwie najbardziej czyste. W tym celu rozważa się wszystkie zmienne i wszystkie możliwe podziały, wybierając tą zmienną do konstrukcji reguły logicznej, która zapewnia optymalny podział próbek. Dla prezentowanego przykładu, pierwsza reguła logiczna (x1≥2,1) pozwala odróżnić grupę próbek oznaczonych na Rys. 17b jako (¼) od pozostałych. Wszystkie próbki o wartościach zmiennej 1 większych lub równych 2,1 będą przypisane do grupy (¼). Aby oddzielić grupę próbek (+) od ({), konieczne jest skonstruowanie nowej reguły logicznej. Najlepsza do tego celu jest zmienna 2, która pozwala rozróżnić te dwie grupy na poziomie 3,54. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 35 a) 5 4.5 zmienna 2 4 ¼ 30 { 30 + 30 3.5 3 2.5 wszystkie dane 2 0 0.5 1 1.5 2 2.5 3 3.5 4 zmienna 1 b) 5 x1≥2,1 x1<2,1 4.5 zmienna 2 4 Konstrukcja reguły logicznej 1 3.5 { 30 + 30 3 x1≥2,1 2.5 2 0 0.5 1 1.5 2 2.5 3 3.5 ¼ 30 4 zmienna 1 c) 5 x1<2,1 i x2≥3,54 4.5 zmienna 2 x1≥2,1 x1<2,1 4 Konstrukcja reguły logicznej 2 x2≥3,54 3.5 ¼ 30 3 x1≥2,1 2.5 2 x1<2,1 i x2<3,54 0 0.5 1 1.5 2 2.5 3 3.5 4 zmienna 1 { 28 {2 + 30 Rys. 17 a-c) Kolejne etapy konstrukcji drzewa decyzyjnego dla symulowanych dwuwymiarowych danych, które zawierają trzy grupy próbek po 30 w każdej (x1 – zmienna 1, x2 – zmienna 2). 3.2 Liniowa analiza dyskryminacyjna Liniowa analiza dyskryminacyjna jest chyba najczęściej stosowaną techniką dyskryminacji w chemometrii. Została zaproponowana po raz pierwszy przez Fishera [11]. Jak nazwa metody sugeruje, jej zadaniem jest konstrukcja liniowych funkcji dyskryminacyjnych. Tworzy się je dla próbek zbioru modelowego, które należą do określonych grup. Następnie, skonstruowane funkcje dyskryminacyjne są wykorzystane do klasyfikacji nowych próbek do jednej z rozpatrywanych grup. Rozważmy teraz przypadek dwóch grup próbek, oznaczonych jako A i B, których dane zebrano odpowiednio w macierzy XA o wymiarach (mA×n) i XB (mB×n), gdzie mA i mB to liczba próbek odpowiednio w grupie A i B, a n to liczba zmiennych. Obie grupy zaprezentowano na Rys. 18, na którym znajduje się 40 próbek w dwuwymiarowej przestrzeni eksperymentalnej (po 20 w każdej grupie). I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 36 zmienna 2 DF 6 5 grupa A 4 3 grupa B 2 σA 1 1 2 3 4 5 6 7 zmienna 1 (x A − x B ) σB Rys. 18 Ilustracja tworzenia funkcji dyskryminacyjnej (DF) metodą liniowej analizy dyskryminacyjnej dla symulowanych danych, które zawierają dwie grupy próbek w dwuwymiarowej przestrzeni eksperymentalnej, po 20 próbek w każdej. Analizując Rys. 18 można zauważyć, że dwie grupy próbek będą najlepiej od siebie oddalone, jeśli ich środki x A i x B , będą jak najdalej od siebie, a odchylenia standardowe próbek w grupach, σA i σB, jak najmniejsze. Innymi słowy, jesteśmy zainteresowani konstrukcją takiego kierunku w przestrzeni zmiennych, który maksymalizuje wariancję pomiędzy grupami, a minimalizuje wariancję wewnątrz grup. To kryterium jest znane jako kryterium Fishera. Współrzędne obiektów na tym kierunku będziemy nazywać wynikami. Właściwe stosowanie metody LDA wymaga spełnienia kilku założeń, a mianowicie: 1. rozkład obiektów w każdej grupie próbek powinien być zbliżony do rozkładu normalnego, 2. grupy próbek powinny być liniowo separowalne, 3. macierze wariancji-kowariancji każdej grupy próbek powinny być porównywalne, a 4. całkowita liczba obiektów musi być większa niż liczba zmiennych przynajmniej trzykrotnie [57]. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 37 Dwugrupowy problem dyskryminacyjny wymaga konstrukcji jednej funkcji dyskryminacyjnej, co w zupełności pozwala odróżnić od siebie dwie liniowo separowalne grupy próbek: DF = b0 + b1x1 + b2x2 + … + bnxn (19) gdzie, b0, b1, ..., bn to współczynniki funkcji dyskryminacyjnej, otrzymywane następująco: b [1,n ] = (x A − x B ) T C[−n1,n ] (20) 1 b 0 = − (x A − x B ) T C[−n1,n ] (x A − x B ) 2 (21) gdzie C to macierz wariancji-kowariancji: C[ n , n ] = ( XTA X A + X TB X B ) (mA + mB − 2) (22) W równaniu 22 macierze XA i XB są centrowane średnimi odpowiednich grup. Dla danych autoskalowanych, b0 = 0. Ponieważ macierze wariancji-kowariancji są porównywalne (podobna objętość elipsoid wariancji-kowariancji oraz zbliżona orientacja w przestrzeni) można zastąpić je ich średnią. W celu porównania macierzy wariancji-kowariancji można posłużyć się testem statystycznym Boxa [58]. W przypadku mniejszej liczby próbek w grupie niż liczba opisujących ją zmiennych nie można wyznaczyć macierzy odwrotnej macierzy wariancji-kowariancji z tych samych przyczyn, dla których nie można wyznaczyć współczynników regresji w metodzie MLR [59]. Sposobem rozwiązania tego problemu jest zastąpienie oryginalnych zmiennych, kilkoma ortogonalnymi zmiennymi, np. czynnikami głównymi. Alternatywnym sposobem jest użycie krokowego wariantu metody LDA [59] lub regularyzowanej wersji LDA [60]. Równanie 19 definiuje regułę logiczną LDA. Jeśli dla nowych próbek funkcja dyskryminacyjna będzie przyjmowała wartości dodatnie, to te zostaną przypisane do pierwszej grupy, a jeśli ujemne, to do drugiej grupy. Dla danych przedstawionych na Rys. 19, rozwiązując równania 19-22 otrzymujemy funkcję dyskryminacyjną w postaci: I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 38 DF = 15,3 – 16,5x1 + 14,7x2 (23) Na Rys. 19a przedstawiono prostą dyskryminacyjną dla takich x1 i x2, dla których funkcja dyskryminacyjna wynosi zero. W przypadku danych trójwymiarowych będzie to płaszczyzna dyskryminacyjna, a dla n wymiarowych danych, hiperpłaszczyzna dyskryminacyjna. Przypuśćmy, że naszym zadaniem jest sklasyfikowanie nowej próbki do jednej z dwóch grup na podstawie wartości parametrów, jakie opisują próbkę. Zgodnie z równaniem 23, dla wartości x1 = 3,0 i x2 = 5,0, DF = 39,3. Ponieważ wartość DF jest dodatnia, dlatego nowa próbka powinna należeć do grupy A, co widoczne jest także na Rys. 19b. a) b) 6 DF>0 =0 DF A 4 nowa próbka 3 2 DF<0 1 2 3 4 5 4 3 2 B 1 A 5 zmienna 2 zmienna 2 5 6 6 B 1 1 2 zmienna 1 3 4 zmienna 1 5 6 Rys. 19 Idea liniowej analizy dyskryminacyjnej zademonstrowana na przykładzie dwuwymiarowych symulowanych danych: a) konstrukcja prostej dyskryminacyjnej i b) przewidywanie przynależności nowej próbki (U) do jednej z dwóch grup. Zgodnie z założeniem technik dyskryminacyjnych, w omawianym przypadku, nowa próbka zawsze będzie przypisana do jednej z dwóch grup. Metoda LDA może być także stosowana do dyskryminacji K grup próbek. Wówczas, konstruuje się K-1 funkcji dyskryminacyjnych, a ich współczynniki stanowią K-1 pierwszych wartości własnych macierzy (Sw-1Sb). Sw to macierz wariancji wewnątrz grup, a Sb to macierz wariancji pomiędzy grupami: I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 39 K S w = ∑ ( X k − 1x k ) T ( X k − 1x k ) (24) k =1 K S b = ∑ mk (x k − x)(x k − x) T (25) k =1 gdzie x to średnia wszystkich próbek, a 1 to kolumnowy wektor jedynek, a mk to liczba próbek w k-tej grupie. Omówimy teraz na przykładzie symulowanych danych konstrukcje modelu LDA dla trzech grup próbek. Każdą grupę tworzy 30 próbek opisanych pięcioma parametrami. Rozkład próbek w grupach jest zbliżony do normalnego, a różnice pomiędzy grupami wynikają z ich różnej lokalizacji w przestrzeni eksperymentalnej. Ze względu na obecność w danych trzech grup, zadaniem będzie konstrukcja modelu LDA, który umożliwi wyznaczenie liniowych granic pomiędzy grupami. Na Rys. 20 przedstawiono projekcję próbek na płaszczyznę zdefiniowaną przez pierwsze dwie funkcje dyskryminacyjne i granice pomiędzy grupami próbek. b) 5.5 5.5 5 5 4.5 4.5 funkcja dyskryminacyjna 2 funkcja dyskryminacyjna 2 a) 4 3.5 3 2.5 2 3 2.5 2 1.5 1.5 1 -4.5 4 3.5 -4 -3.5 -3 -2.5 -2 funkcja dyskryminacyjna 1 -1.5 -1 1 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 funkcja dyskryminacyjna 1 Rys. 20 Projekcja próbek symulowanych danych, które zawierają trzy grupy próbek w pięciowymiarowej przestrzeni eksperymentalnej, na przestrzeń zdefiniowaną przez: a) pierwszą i drugą funkcję dyskryminacyjną, które skonstruowano stosując metodę liniowej analizy dyskryminacyjnej i b) pierwszą i drugą funkcję dyskryminacyjną, które skonstruowano stosując metodę kwadratowej analizy dyskryminacyjnej. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 40 Choć na Rys. 20a wszystkie trzy grupy próbek są idealnie od siebie odseparowane, jednakże założenie o równości macierzy wariancji-kowariancji każdej z grup nie jest całkowicie spełnione. Obrazują to elipsy wariancji-kowariancji każdej grupy, które wyznaczają obszary 95% pewności przynależności obiektów do danej grupy. Dla próbek grupy ({) elipsa jest znacznie większa niż elipsy pozostałych grup. Kiedy macierze wariancji-kowariancji bardzo się od siebie różnią, wówczas należy brać pod uwagę metodę QDA (z ang. quadratic discriminant analysis) [61]. Jednakże w porównaniu z LDA, metoda QDA wymaga znacznie większej liczby próbek w zbiorze modelowym [62]. Na Rys. 20 pokazano różnice pomiędzy metodami LDA i QDA, w celu ukazania różnic w sposobie konstrukcji funkcji dyskryminacyjnych. W przypadku metody QDA granice pomiędzy grupami są nieliniowe (zob. Rys. 20b). Powracając do omawianego przykładu, dwie liniowe funkcje dyskryminacyjne LDA mają postać: DF1 = - 0,46x1 + 0,09x2 + 0,12x3 + 0,11x4 - 0,34x5 (26) DF2 = 0,58x1 - 0,18x2 + 0,69x3 + 0,28x4 - 0,63x5 (27) Statystyczną istotność skonstruowanych funkcji dyskryminacyjnych można ocenić używając test lambda Wilka [59], który opiera się na porównaniu stosunku wariancji pomiędzy grupami do wariancji wewnątrz grup. W metodzie LDA, aby zobrazować podział próbek na trzy grupy, skonstruowano trzy półproste w przestrzeni dwóch funkcji dyskryminacyjnych, które mają początek w arytmetycznym środku danych i przechodzą przez punkty w połowie odległości pomiędzy środkami każdej pary grup (zob. Rys. 20a). Przewidywanie przynależności nowych próbek do grup prowadzi się tak samo, jak dla omawianego przypadku dwóch grup próbek, a mianowicie, znajdując wartości funkcji dyskryminacyjnych w oparciu o równania 26 i 27. Podobnie jak współczynniki regresji czy wagi w PCA, tak i współczynniki funkcji dyskryminacyjnych informują o wadze danej zmiennej w ich konstrukcji. Duże absolutne wartości współczynników dla określonych zmiennych mówią o ich relatywnie dużej roli w konstrukcji funkcji dyskryminacyjnej, jak np. ma to miejsce dla parametrów x1 i x5 (zob. równania 26 i 27). Jednakże, jeśli zmienne nie zostały uprzednio standardyzowane, wówczas odpowiadające im współczynniki nie w pełni mówią o ich wadze. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 41 3.3 Dyskryminacyjny wariant PLS (D-PLS) Metody wieloparametrowej regresji, takie jak PCR czy PLS, również mogą posłużyć do konstrukcji modeli dyskryminacyjnych. Dla dwugrupowego problemu dyskryminacyjnego modeluje się zmienną zależną y, która określa przynależność próbek do dwóch grup. Zmienna ta może mieć postać binarną, czyli jej elementy przyjmują wartości 0 lub 1 (0 – grupa 1, 1 – grupa 2), albo może być zmienną bipolarną, o elementach -1 lub 1 (-1 – grupa 1, 1 – grupa 2). Oba sposoby kodowania przynależności próbek do grup są alternatywne. Gdy problem dyskryminacji dotyczy większej liczby grup próbek, np. k grup, wówczas możliwe są dwa podejścia: 1. konstrukcja serii modeli dyskryminacyjnych, gdzie każdy model różnicuje daną grupę od pozostałych oraz 2. konstrukcja jednego modelu dyskryminacyjnego dla wszystkich grup próbek równocześnie. W drugim wariancie dyskryminacji, modeluje się macierz Y o wymiarach (m×k-1), której kolumny tworzą wektory opisujące fakt przynależności każdej próbki do określonej grupy (0 – nie należy do k-tej grupy, 1 – należy). Przypuśćmy, że naszym zadaniem jest budowa dyskryminacyjnego modelu dla dwóch grup próbek. W tym celu możemy posłużyć się metodą PLS-1. Przyjmiemy, że próbki należące do grupy 1 oznaczymy w wektorze y jako 0, a próbki z grupy 2 jako 1. Po ustaleniu optymalnej liczby czynników do konstrukcji modelu PLS (np. używając procedurę kroswalidacji) możemy na jego postawie przewidzieć przynależność próbek do jednej z dwóch grup. Próbki, dla których wartości przewidzianej na podstawie modelu zmiennej y są mniejsze niż 0,5 będą należały do pierwszej grupy, a próbki o przewidzianych wartościach y większych lub równych 0,5 do drugiej grupy. Jak pokazano w [63,64], metoda D-PLS jest równoważna metodzie LDA, gdyż w D-PLS ukryte zmienne konstruuje się poprzez maksymalizację kryterium Fishera. 3.4 Metoda modelowania indywidualnych grup - SIMCA Omówione do tej pory metody reprezentują techniki dyskryminacyjne. Inną kategorię technik tworzą metody klasyfikacyjne, których przedstawicielem jest metoda SIMCA [14]. W odróżnieniu od tych poprzednich, w metodach klasyfikacyjnych modeluje się indywidualne I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 42 grupy próbek. Takie podejście zakłada, że nowa próbka może być przypisana do jednej grupy, do kilku równocześnie lub do żadnej. Aby zrozumieć różnice między tymi dwiema grupami technik, możemy rozważyć klasyfikację pacjentów ze względu na jeden z trzech typów nowotworów. W przypadku konstrukcji modelu dyskryminacyjnego, każdy pacjent, bez względu na to czy jest chory czy nie, zostanie zdiagnozowany jako cierpiący na jeden z trzech nowotworów. Jeśli do celów diagnostycznych użyjemy model SIMCA, wówczas pacjenci zdrowi nie zostaną sklasyfikowani jako cierpiący na żaden z trzech nowotworów. Jednakże, nie oznacza to, że nie są chorzy na inny rodzaj nowotworu. W metodzie SIMCA reguły klasyfikacji konstruuje się w oparciu o indywidualne modele PCA dla każdej grupy próbek. W celu przewidzenia przynależności nowych próbek do grup dokonuje się ich projekcji do przestrzeni zdefiniowanej przez czynniki główne każdej z grup i przypisuje do grupy, do której ich dopasowanie jest najlepsze. Model PCA dla k-tej grupy możemy zapisać jako: k X [ m ,n ] = k T[ m , f ] ⋅ k P[Tf ,m ] + E[ m ,n ] (28) gdzie, kX to centrowana macierz danych k-tej grupy, macierz kT zawiera w kolumnach f wektorów wyników dla k-tej grupy, macierz kP zawiera w kolumnach f wektorów wag dla ktej grupy, a kE to macierz reszt od modelu PCA. W celu wyznaczenia optymalnej kompleksowości modelu PCA zazwyczaj stosuje się kroswalidację typu „wyrzuć jeden obiekt”. Po ustaleniu optymalnej kompleksowości każdego z modeli definiuje się wartości progowe, które pozwolą na sklasyfikowanie próbek, testując ich przynależność do każdej grupy indywidualnie. Wyznaczenie wartości progowych dla k-tej grupy próbek można dokonać na dwa równoważne sposoby: sk = m n ∑∑ eij2 /(r − f )(m − f − 1) = i =1 j =1 m r ∑ ∑t i =1 j = f +1 2 ij /( r − f )(m − f − 1) (29) W powyższym równaniu, tij to element macierzy T, a r to rząd macierzy kX. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 43 Aby zapewnić dobre własności predykcyjne modelu SIMCA do obliczenia wartości progowych w równaniu 29 powinno się uwzględnić wartości wyników uzyskane na drodze kroswalidacji [65]. Ważnym założeniem metody SIMCA jest założenie o rozkładzie normalnym reszt od modelu PCA, gdyż pozwala ono zastosować test F do wyznaczenia wartości progowej reszt. W teście F przyjmuje się (r-f)/(r-f)(m-f-1) stopni swobody oraz założony poziom istotności [66]: skryt = Fkryt sk (30) W przypadku stosowania modelu SIMCA do klasyfikacji nowych próbek, obliczone dla nich reszty od k-tego modelu PCA o określonej liczbie czynników głównych są porównane z wartością progową dla k-tej grupy. Próbki, dla których reszty od k-tego modelu PCA o f czynnikach są mniejsze niż wartość progowa k-tej grupy należą do tej grupy. Przypuśćmy, że zbiór danych ma trzynaście próbek, opisanych trzema zmiennymi, a model PCA dla tych danych ma tylko jeden czynnik główny. Na Rys. 21 przedstawiono próbki w przestrzeni trzech zmiennych. Próbki te rozmieszczone są wzdłuż pierwszego czynnika głównego (PC 1), wokół którego można utworzyć cylinder o promieniu równym wartości progowej reszt, który będzie zawierał próbki zbioru modelowego k-tej grupy. Następnie reszty od modelu k-tej grupy dla każdej próbki, ei, porównane są z wartością progową. Te obiekty, które znajdą się wewnątrz cylindra, który reprezentuje model k-tej grupy, będą do niej należały. zmienna 2 skryt ei PC 1 zmienna 3 zmienna 1 Rys. 21 Ilustracja modelu SIMCA z jednym czynnikiem głównym dla symulowanych trójwymiarowych danych zawierających 13 próbek. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 44 Dla nowej próbki jej wartości wyników oraz reszty od modelu PCA o f czynnikach głównych oblicza się jak pokazano na Rys. 22. 3 1 1 PCA X 3 3 pT E + = 13 13 macierz reszt 13 t 1 1 3 xn 3 = tn p wynik dla nowej próbki e = Σ(xn – tnpT)2 suma kwadratów reszt dla nowej próbki Rys. 22 Graficzna prezentacja modelu PCA z jednym czynnikiem głównym dla danych X (13×3) i jego użycie do przewidywania wartości reszt nowe próbki, xn, opisanej trzema zmiennymi. Następnie, wartości reszt nowej próbki od modelu PCA dla k-tej grupy porównuje się z odpowiednią wartością krytyczną (zob. równanie 30). Dodatkowo, regułę klasyfikacyjną stosowaną w metodzie SIMCA możemy rozszerzyć uwzględniając odległość próbki od środka k-tej grupy w przestrzeni k czynników głównych. W tym celu dla każdej próbki oblicza się odległość Mahalanobisa w przestrzeni modelu PCA o f czynnikach, skonstruowanego dla próbek modelowych k-tej grupy, kX: MD = −1 T k T[ m, f ] ⋅ k V[ f, f ] ⋅ k T[ f,m ] (31) gdzie, kV to diagonalna macierz, która na diagonali zawiera f wartości własnych jakie otrzymuje się na drodze dekompozycji kX. Ze względu na wartości reszt od modelu i odległości Mahalanobisa i-tej próbki (zob. Rys. 23), próbka: I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 45 1. (y) należy do k-tej grupy, jeśli wartości reszt od modelu i odległości Mahalanobisa są poniżej odpowiednich wartości progowych (zob. Rys. 23), lub 2. ( ) nie należy do k-tej grupy z powodu zbyt dużej wartości reszt od modelu, lub 3. (U) nie należy do k-tej grupy ze względu na zbyt duże odległości Mahalanobisa, lub 4. ({) nie należy do k-tej grupy z powodu zbyt duże wartości reszt od modelu i zbyt duże odległości Mahalanobisa. Wartości progowe dla reszt od modelu i odległości Mahalanobisa można stosunkowo łatwo wyznaczyć używając ich z-transformowane wartości (zob. rozdział „Analiza czynników głównych i inne metody eksploracji danych”). Dla wartości progowych na poziomie równym trzy, zakładamy, iż dla 99,9% obiektów, ich z-transformowane wartości reszt i odległości Mahalanobisa będą poniżej wartości progowych. Wyniki klasyfikacji używając metodę SIMCA można przedstawić dla każdej grupy indywidualnie w formie tzw. diagramu odległości, gdzie wartości z-transformowanych reszt od modelu rysuje się względem z-transformowane reszty od modelu z-transformowanych odległości Mahalanobisa, jak pokazano na Rys. 23. 2 3 4 1 3 3 z-transformowane odległości Mahalanobisa Rys. 23 Diagram odległości skonstruowany dla próbek k-tej grupy na podstawie modelu PCA z f czynnikami głównymi. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 46 3.5 Walidacja modeli dyskryminacyjnych i klasyfikacyjnych Podobnie jak w przypadku modeli kalibracyjnych, również modele dyskryminacyjne i klasyfikacyjne musza być odpowiednio zwalidowane, aby ilościowo ocenić moc predykcyjną skonstruowanych reguł logicznych. W tym celu, zazwyczaj dzieli się dostępny zbiór próbek na modelowy i testowy biorąc pod uwagę podzbiory próbek z każdej grupy osobno. Przeważnie do zbioru modelowego wybiera się ok. 70-75% całkowitej liczby próbek z każdej grupy, a do zbioru testowego włącza pozostałe próbki. Aby zapewnić reprezentatywność zbioru modelowego możemy posłużyć się algorytmem Kennarda i Stona [28] oraz algorytmem „duplex” [29]. Zbiór modelowy służy konstrukcji reguł logicznych, a użycie zbioru testowego ma na celu oszacowanie zdolności predykcyjnych modelu. Zarówno dla zbioru modelowego jak i testowego oblicza się procent poprawnie sklasyfikowanych próbek. Mały procent poprawnie sklasyfikowanych próbek dla zbioru testowego może świadczyć o np. braku reprezentatywności zbioru modelowego lub przeuczeniu modelu. W przypadku małej liczby dostępnych próbek innym sposobem walidacji modeli jest użycie technik kroswalidacji, w których oszacowuje się procent niepoprawnie sklasyfikowanych próbek. Często, oprócz podania procentu poprawnie sklasyfikowanych próbek podaje się takie wielkości jak czułość i specyficzność modelu. Rozważmy przypadek dwóch grup próbek, oznaczonych jako A i B. Czułość modelu dla grupy A określa procent obiektów grupy A, które na podstawie modelu dla grupy A poprawnie zaklasyfikowano do tej grupy. Specyficzność dla grupy A to procent próbek grupy B, które na postawie modelu dla grupy A nie zostały błędnie przypisane do grupy A. Idealny model charakteryzuje się czułością i specyficznością równą 100%. 3.6 Przykłady konstrukcji modeli CART, LDA, D-PLS i SIMCA W tej części przedstawimy konstrukcję wybranych modeli dyskryminacyjnych i klasyfikacyjnych dla zbioru danych eksperymentalnych. Zbiór ten tworzy 178 próbek należących do trzech grup włoskich win (Barolo – 59 próbek, Grignolino – 71 próbek oraz Barbera – 48 próbek). Każdą próbkę opisuje trzynaście parametrów fizyko-chemicznych takich jak: 1- zawartość alkoholu, 2- zawartość kwasu jabłkowego, 3- ilość popiołu, 4zasadowość popiołu, 5- zawartość magnezu, 6- całkowita zawartość fenoli, 7- zawartość flawonoidów, 8- zawartość nieflawonoidowych fenoli, 9- zawartość związków proantycyjaninowych, 10- intensywność koloru próbek, 11- barwa próbek, 12- stosunek I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 47 transmitancji mierzonych dla rozcieńczonych próbek win przy 280 i 315 nm i 13- zawartość proliny [67]. Dane są dostępne z [68]. Głównym celem będzie zbadanie czy istnieje możliwość różnienia trzech gatunków win na podstawie ich składu chemicznego, a następnie wskazanie, które z parametrów fizykochemicznych najbardziej różnicują poszczególne grupy win. Aby ocenić zdolności predykcyjne konstruowanych modeli, dostępne próbki podzielono na dwa zbiory: modelowy i testowy. Do tego celu użyto algorytm „duplex” [29], który zapewnia możliwie równomierny wybór próbek do obu zbiorów. Jeśli istnieje konieczność przygotowania danych przed konstrukcją modeli, wówczas wybór próbek do zbiorów modelowego i testowego powinien być przeprowadzony używając dane po transformacji, gdyż na wartości odległości euklidesowych mają wpływ zmiany wariancji parametrów. Przygotowanie danych do dalszej analizy powinno być prowadzone dla każdej grupy próbek osobno. Wyniki niektórych z metod, np. metody CART i LDA, nie są uzależnione od wstępnego przygotowania danych. W metodzie D-PLS, centrowanie danych jest obligatoryjne, a zbiór testowy centruje się średnią zbioru modelowego. Jeśli zachodzi taka potrzeba, dodatkowo zmienne można poddać standaryzacji, pamiętając, że zmienne w zbiorze testowym trzeba standardyzować używając odpowiadających odchyleń standardowych zmiennych zbioru modelowego. Ze względu na różne jednostki, w których zmierzono parametry oraz ich różną wariancję, omawiane dane poddano autoskalowaniu. Aby zapewnić tą samą liczebność próbek w każdej z grup, do zbioru modelowego włączono po 36 próbek win z każdej grupy, co stanowiło 75% całkowitej liczby próbek w najmniej licznej grupie. W Tabeli 1 przedstawiono liczbę próbek w zbiorach modelowych i testowych uwzględniając każdą grupę próbek win osobno. Tabela 1 Liczba próbek w każdej grupie próbek win w zbiorach modelowym i testowym. Liczba próbek Liczba próbek w zbiorze modelowym w zbiorze testowym Barolo 36 23 Grignolino 36 35 Barbera 36 12 Całkowita liczba próbek 108 70 Grupa próbek win I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 48 Całkowita liczba próbek w zbiorze modelowym wynosiła 108, a w zbiorze testowym 70. 3.6.1 Model CART Na początku przedstawimy zastosowanie metody CART ze względu na jej atrakcyjne własności wizualizacyjne, możliwość nadania chemicznej interpretacji wybranym zmiennym oraz koncepcyjną prostotę. Na podstawie procedury kroswalidacji ustalono, że optymalna kompleksowość modelu CART wynosi pięć (zob. Rys. 24a). Stosując cztery reguły logiczne (zob. Rys. 24b), uzyskuje się błąd kroswalidacji na poziomie 8,3%, który wskazuje na stosunkowo dobre zdolności predykcyjne modelu. Kolejne podziały próbek dokonane zostały dla zmiennych nr 13, 7, 6 oraz 10, które odpowiadają zawartości proliny, całkowitej zawartości flawonoidów i fenoli oraz intensywności koloru próbek. Zmienna określająca zawartość proliny w próbkach stosunkowo skutecznie pozwala odróżnić próbki win Barolo od pozostałych. Na podstawie skonstruowanych reguł logicznych, możemy powiedzieć, iż wina Barolo charakteryzują się zawartością proliny powyżej 755 oraz zawartością fenoli powyżej 2,13. Aby odróżnić wina Grignolino od Barbera, konieczne było użycie dodatkowej reguły logicznej, skonstruowanej dla zmiennej opisującej całkowitą zawartość flawonoidów w próbkach. W winach Grignolino, zawartość proliny jest niższa niż 755, a całkowita zawartość flawonoidów powyżej 3,37, w przeciwieństwie do win Barbera, w których całkowita zawartość flawonoidów jest poniżej 3,37. a) b) 0.8 0.7 x13<755 0.6 RMSECV 0.5 x7≥1,4 x7<1,4 x13 ≥755 x6<2,13 x6 ≥2,13 0.4 0.3 x10<3,73 x10 ≥ 3,73 {0 31 U1 0.2 0.1 0 1 2 3 4 5 liczba węzłów terminalnych 6 7 {0 4 U0 {0 0 U4 {36 1 U0 {0 0 U 31 Rys. 24 a) Krzywa kroswalidacji i b) drzewo klasyfikacji skonstruowane dla zbioru modelowego trzech grup próbek włoskich win: Barolo ({), Grignolino ( ) i Barbera (U) z pięcioma węzłami terminalnymi. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 49 Przewidywanie przynależności nowych próbek do grup polega na rozważeniu dla każdej próbki wszystkich reguł logicznych równocześnie. Na ich podstawie próbki zostają przydzielone do odpowiednich węzłów terminalnych, a następnie do tej grupy, którą reprezentuje najwięcej próbek w danym węźle. Pięć próbek zbioru testowego zostało źle sklasyfikowanych (2 z 23 próbek win Barolo oraz 3 z 35 próbek win Grignolino), a efektywność modelu CART jest na poziomie 92,9%. Wartości specyficzności i czułości modelu CART dla każdej z grup przedstawiono w Tabeli 2. Metoda CART w wielu przypadkach pozwala na konstrukcję zadowalających modeli oraz umożliwia identyfikację zmiennych, które mają największy wkład do różnicowania grup próbek. Jeśli skuteczne rozdzielenie grup obiektów wymaga uwzględnienia liniowych kombinacji oryginalnych zmiennych wówczas należy oczekiwać, że wyniki CART będą gorsze niż te uzyskane takimi metodami jak np. LDA, D-PLS czy SIMCA. W celu sprawdzenia czy liniowe kombinacje zmiennych pozwalają uzyskać lepsze modele niż model CART skonstruowano modele LDA, D-PLS i SIMCA. Tabela 2 Efektywności modeli CART, LDA, D-PLS i SIMCA wyrażone w procentach otrzymane dla danych zawierających trzy grupy próbek włoskich win. Typ modelu CART LDA D-PLS SIMCA 92,9 100,0 Barolo względem pozostałych grup 95,7 95,5 Grignolino względem pozostałych grup 94,3 84,0 Barbera względem pozostałych grup 100,0 97,2 3.6.2 Model LDA Model dyskryminacyjny skonstruowany techniką LDA charakteryzuje efektywność wynosząca 100%. Na Rys. 25a przedstawiono projekcję próbek zbioru modelowego na funkcje dyskryminacyjne 1 i 2 oraz trzy półproste dyskryminacyjne. Pomimo, że założenie o równości macierzy wariancji-kowariacji każdej grupy próbek nie jest całkowicie spełnione (zob. Rys. 25a), to wszystkie próbki zbioru modelowego zostały poprawnie sklasyfikowane. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 50 Skonstruowany model LDA ma znakomitą moc predykcyjną, gdyż pozwala poprawnie sklasyfikować wszystkie próbki zbioru testowego (zob. Rys. 25b), a jego specyficzność i selektywność wynoszą 100% (zob. Tabela 2). Z Rys. 25c i d, na którym pokazano odpowiednio wartości współczynników pierwszej i drugiej funkcji dyskryminacyjnej, możemy wnioskować, iż największe wkłady do tworzenia pierwszej funkcji dyskryminacyjne mają zmienne 7, 12 i 13 (zawartość flawonoidów, stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 280 i 315 nm i zawartość proliny), natomiast do tworzenia drugiej funkcji dyskryminacyjnej, zmienne 1, 3 oraz 10 (zawartość alkoholu, popiołu oraz intensywność koloru próbek). Te same zmienne zidentyfikowano jako dyskryminacyjne używając metodę CART. Należy podkreślić, iż identyfikacja kluczowych zmiennych dyskryminacyjnych w oparciu o współczynniki funkcji dyskryminacyjnej w przypadku omawianych danych jest możliwa, gdyż zmienne zostały standardyzowane. c) -3 współczynnik funkcji dyskryminacyjnej 1 a) funkcja dyskryminacyjna 2 -3.5 -4 -4.5 -5 -5.5 -6 -6.5 -7 -7.5 1.5 2 2.5 3 3.5 4 4.5 5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 5.5 1 2 3 4 funkcja dyskryminacyjna 1 d) -3 funkcja dyskryminacyjna 2 -3.5 -4 -4.5 -5 -5.5 -6 -6.5 -7 -7.5 1.5 2 2.5 3 3.5 4 funkcja dyskryminacyjna 1 6 7 8 9 10 11 12 13 9 10 11 12 13 indeks zmiennej współczynnik funkcji dyskryminacyjnej 2 b) 5 4.5 5 5.5 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 1 2 3 4 5 6 7 8 indeks zmiennej Rys. 25 a) Projekcja próbek win (Barolo ({), Grignolino ( ) i Barbera (U)) zbioru a) modelowego i b) testowego na pierwsze dwie funkcje dyskryminacyjne skonstruowane metodą LDA, c) współczynniki pierwszej funkcji dyskryminacyjnej i d) współczynniki drugiej funkcji dyskryminacyjnej. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 51 3.6.3 Model D-PLS Dyskryminację próbek win, stosując metodę D-PLS, przeprowadzono używając trzy niezależne modele PLS-1, których celem była dyskryminacja określonej grupy próbek od pozostałych. Do wyboru liczby czynników w indywidualnych modelach posłużono się kroswalidacją typu „wyrzuć jeden obiekt”. Pierwszy model, skonstruowany by odróżnić próbki win Barolo od pozostałych, uwzględniał siedem czynników. Wartości błędów kroswalidacji, dopasowania modelu oraz przewidywania dla próbek testowych wynosiły odpowiednio 0,36, 0,32 i 0,44. W przypadku modelu dla grupy win Grignolino, do konstrukcji modelu użyto trzech czynników, co pozwoliło uzyskać błędy kroswalidacji, dopasowania modelu oraz przewidywania dla próbek testowych na poziomie odpowiednio 0,59, 0,56 i 0,62. Dla odróżnienia próbek win Barbera od pozostałych użyto modelu z pięcioma czynnikami. Błędy kroswalidacji, dopasowania modelu oraz przewidywania dla próbek testowych wynosiły odpowiednio 0,38, 0,35 i 0,32. Wartości czułości D-PLS są zbliżone do tych uzyskanych metodą CART. Natomiast w porównaniu do modelu LDA są nieznacznie gorsze (zob. Tabela 2). 3.6.4 Model SIMCA Jako ostatni przykład, przedstawimy wyniki klasyfikacji próbek win uzyskane techniką SIMCA. W tej metodzie każda grupa próbek modelowana jest osobno, konstruując dla każdej z grup model PCA. Dla wszystkich grup do budowy modelu PCA użyto dwanaście czynników głównych. Wartości efektywności, czułości i specyficzności modeli SIMCA przedstawiono w Tabelach 2 i 3. Przed konstrukcją modeli, dane zostały autoskalowane – każda grupa próbek osobno. Dodatkowo, na Rys. 26 dla każdej grupy próbek przedstawiono wyniki klasyfikacji techniką SIMCA w formie diagramów odległości. W porównaniu z metodą CART, model SIMCA dla próbek win Barolo pozwolił na nieznaczne polepszenie czułości i specyficzności. Dla pozostałych grup zaobserwowano nieznaczne pogorszenie w odniesieniu do wyników uzyskanych metodami CART, LDA i D-PLS. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 52 12 c) zbiór modelowy,'Barolo' zbiór testowy,'Barolo' próbki z innych grup 10 z-transformowane reszty od modelu z-transformowane reszty od modelu a) 8 6 4 2 0 0 5 10 15 20 35 25 20 15 10 5 0 25 zbiór modelowy,'Barbera' zbiór testowy,'Barbera' próbki z innych grup 30 0 z-transformowane odległości Mahalanobisa z-transformowane reszty od modelu b) 5 10 15 20 25 30 z-transformowane odległości Mahalanobisa 15 zbiór modelowy,'Grignolino' zbiór testowy,'Grignolino' próbki z innych grup 10 5 0 0 2 4 6 8 10 12 14 16 z-transformowane odległości Mahalanobisa Rys. 26 Diagramy odległości dla modeli SIMCA z 12 czynnikami głównymi dla poszczególnych grup włoskich win: a) Barolo, b) Grignolino i c) Barbera. 3.6.5 Podsumowanie wyników dyskryminacji i klasyfikacji dla próbek win Ogólnie można powiedzieć, iż wyniki uzyskane różnymi technikami dyskryminacyjnymi i klasyfikacyjnymi dla analizowanych danych wzajemnie się potwierdzają (zob. Tabele 2 i 3). Najlepsze wyniki pod względem czułości i specyficzności dla wszystkich grup win wykazuje model LDA. Pozostałe modele charakteryzowały się na ogół mniejszą czułością niż specyficznością. Wyniki dyskryminacji próbek win potwierdzają użyteczność skonstruowanych modeli. Model CART, jest jedynym wśród omawianych, który bezpośrednio pozwala na wybór parametrów mających największa moc dyskryminacyjną. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 53 Tabela 3 Czułości i specyficzności modeli CART, LDA, D-PLS oraz SIMCA skonstruowanych dla trzech grup próbek win włoskich. Typ modelu CART LDA D-PLS SIMCA 91,3 93,6 100,0 100,0 91,3 97,9 93,3 95,8 Grignolino względem pozostałych grup czułość (%) specyficzność (%) 91,4 94,3 100,0 100,0 91,4 97,1 88,6 85,9 Barbera względem pozostałych grup czułość (%) specyficzność (%) 100,0 91,4 100,0 100,0 100,0 100,0 75,0 100,0 Barolo względem pozostałych grup czułość (%) specyficzność (%) Ta własność umożliwia bezpośrednią interpretację wyników, z drugiej zaś strony, metody, w których uwzględnia się wszystkie zmienne, choć nie mają tak prostej interpretacji jak CART, to często pozwalają polepszyć wyniki. Dodatkowo, w metodach takich jak LDA, D-PLS czy SIMCA można zastosować techniki wyboru zmiennych, co ułatwia ich interpretację [69]. 3.7 Podsumowanie W tej części rozdziału zaprezentowaliśmy podstawowe strategie dyskryminacji i klasyfikacji. Ich zalety jak i możliwe ograniczenia zilustrowaliśmy na przykładach danych eksperymentalnych i symulowanych. Nasze rozważania ograniczyliśmy jedynie do liniowych technik, jednak na uwagę zasługują także techniki nieliniowej dyskryminacji. Wśród nich są SVM [13], RBP-PLS [70] czy SOM-PLS [71]. Często, aby polepszyć modele klasyfikacyjne i dyskryminacyjne stosuje się różnego rodzaju techniki wyboru zmiennych, które dodatkowo otwierają możliwość łatwiejszej interpretacji modeli. Na przykład, do wyboru zmiennych w LDA można zastosować test lambda Wilka, kryterium Fishera, algorytm genetyczny [72], lub krokowy wariant LDA. W metodzie SIMCA dyskryminujące zmienne można zidentyfikować oceniając ich moc dyskryminacyjną I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 54 [59]. W metodach dyskryminacyjnych takich jak, np. D-PLS czy D-PCR, wybór zmiennych ułatwiają techniki bazujące na stabilności współczynników regresji konstruowanych modeli [69,73]. Innym bardzo ważnym aspektem jest konstrukcja stabilnych modeli klasyfikacyjnych lub dyskryminacyjnych dla danych, które zawierają obiekty odległe i/lub brakujące elementy. Efektywna metodologia konstrukcji modelu SIMCA dla takich danych została opisana w [74,75,76]. 4. LITERATURA [1] H. Hotelling, Analysis of a complex of statistical variables into principals components, Journal of Educational Psychology, 24 (1933) 417. [2] J.H. Friedman, W. Stuetzle, Projection pursuit regression, Journal of the American Statistical Association, 76 (1981) 817-823. [3] T. Kohonen, Self-organisation and associative memory, the 3rd Edition, Springer-Verlag, Berlin, 1990. [4] W.J. Melssen, J.R.M. Smits, L.M.C Buydens, G. Kateman; Tutorial, Using artificial neural networks for solving chemical problems, Part II. Kohonen self-organizing feature maps and Hopfield networks, Chemometrics and Intelligent Laboratory Systems, 23 (1994) 267291. [5] N. Bratchell, Cluster analysis, Chemometrics and Intelligent Laboratory Systems, 6 (1989) 105-125. [6] D.L. Massart, L. Kaufman, The interpretation of analytical data by the use of cluster analysis, Robert E. Krieger Publishing Company, Malabar, Florida, 1989. [7] T. Næs, T. Isaksson, T. Fearn, T. Davies, Multivariate Calibration and Classification, NIR Publications, Chichester, 2002. [8] H. Martens, T. Næs, Mutivariate Calibration, John Wiley & Sons, Chichester, UK, 1989. [9] D.H. Coomans, O.Y. de Vel, Pattern analysis and classification, in J. Einax (Ed.), Chemometrics in environmental chemistry, Part 2, Springer-Verlag, Berlin, 1995. [10] J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wydawnictwa NaukowoTechniczne, Warszawa, 2005. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 55 [11] R. Fisher, The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7 (1936) 179-188. [12] L. Breiman, J.H. Friedman, R.A. Olshen, C.G. Stone, Classification and regression trees, Wadsworth International Group, Belmont, 1984. [13] A.I. Belousov, S.A. Verzakov, J. von Frese, Applicational aspects of support vector machines, Journal of Chemometrics, 16 (2002) 482-489. [14] S. Wold, Pattern recognition by means of disjoint principal components models, Pattern Recognition, 8 (1976) 127-139. [15] M.P. Derde, D.L. Massart, UNEQ: a disjoint modelling technique for pattern recognition based on normal distribution, Analytica Chimica Acta, 184 (1986) 33-51. [16] R. Todeschini, D. Ballabio, V. Consonni, A. Mauri, M. Pavan, CAIMAN (Classification And Influence Matrix Analysis): a new approach to the classification based on leveragescaled functions, Chemometrics and Intelligent Laboratory Systems, 87 (2007) 3-17. [17] T. Czekaj, W. Wu, B. Walczak, About kernel latent variable approaches and SVM, Journal of Chemometrics, 19 (2005) 341-354. [18] T. Næs, T. Isaksson, B. Kowalski, Locally weighted regression in NIR analysis, Analytical Chemistry, 2 (1990) 664-673. [19] S. Chen, C.F.N. Cowan; P.M. Grant, Orthogonal least squares learning algorithm for radial basis function networks, IEEE Transactions on Neural Networks, 2 (1991) 302–309. [20] B. Walczak, D. L. Massart, The Radial Basis Functions - Partial Least Squares approach as a flexible non-linear regression techniques, Analytica Chimica Acta, 331 (1996) 177-185. [21] S. Białas, Macierze, wybrane problemy, Uczelniane Wydawnictwa NaukowoDydaktyczne, Kraków, 2006. [22] N. Draper, H. Smith, Applied regression analysis, the 2nd Edition, John Wiley & Sons, New York, 1981. [23] B. Walczak, Wavelets in chemistry, Elsevier, Amsterdam, 2000. [24] R.J. Barnes, M.S. Dhanoa, S.J. Lister, Standard normal variate transformation and detrending of near-infrared diffuse reflectance spectra, Applied Spectroscopy, 43 (1989) 772777. [25] S. Wold, H. Antti, F. Lindgren, J. Öhman, Orthogonal signal correction of near-infrared spectra, Chemometrics and Intelligent Laboratory Systems, 44 (1998) 175-185. [26] J. Trygg, S. Wold, Orthogonal projections to latent structures (O-PLS), Journal of Chemometrics, 16 (2002) 119-128. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 56 [27] L. Eriksson, E. Johansson, C. Wikström, Mixture design - design generation, PLS analysis, and model usage, Chemometrics and Intelligent Laboratory Systems, 43 (1998) 124. [28] R.W. Kennard, L.A. Stone, Computer aided design of experiments, Technometrics, 11 (1969) 137-148. [29] R.D. Snee, Validation of regression models: methods and examples, Technometrics, 19 (1977) 415-428. [30] M. Daszykowski, B. Walczak, D.L. Massart, Representative subset selection, Analytica Chimica Acta, 468 (2002) 91-103. [31] I.E. Frank, J.H. Friedman, A statistical view of some chemometrics regression tools, Technometrics, 35 (1993) 109-148. [32] K. Esbensen, Multivariate analysis in practice, Wennbergs Trykkeri AS, Trondheim, 1994. [33] Q-S. Xu, Y.-Z. Liang, Monte Carlo cross validation, Chemometrics and Intelligent Laboratory Systems, 56 (2001) 1-11. [34] N.M. Faber, R. Rajkó, An evergreen problem in multivariate calibration, Spectroscopy Europe, 18 (2006) 24-28. [35] S. Wiklund, D. Nilsson, L. Eriksson, M. Sjöström, S. Wold, K. Faber, A randomization test for PLS component selection, Journal of Chemometrics, 21 (2007) 427-439. [36] X. Capron, B. Walczak, O.E. de Noord, D.L. Massart, A modification of ICOMP criterion for estimation of PCR model complexity, Journal of Chemometrics, 19 (2005) 308316. [37] S. Frosch Møller, J. von Frese, R. Bro, Robust methods for multivariate data analysis, Journal of Chemometrics, 19 (2005) 549-563. [38] M. Daszykowski, Y. Vander Heyden, B. Walczak, Robust partial least squares model for prediction of green tea antioxidant capacity from chromatograms, Journal of Chromatography A, 1176 (2007) 12-18. [39] Y. Mallet, D.H. Coomans, O.Y. de Vel, Robust and non-parametric methods in multiple regression of environmental data, in J. Einax (Ed.), Chemometrics in Environmental chemistry, Part 2, Springer-Verlag, Berlin, 1995. [40] M. Daszykowski, M.I. Wróbel, H. Czarnik-Matusewicz, B. Walczak, Near-infrared reflectance spectroscopy and multivariate calibration techniques applied to model the protein, fiber and fat contents in rapeseed meal, The Analyst, w druku. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 57 [41] M. Daszykowski, M.I. Wróbel, H. Czarnik-Matusewicz, B. Walczak, Identifying the type of feed used for raising pigs on the basis of the near-infrared reflectance spectra of liver samples – a pilot study, Analytica Chimica Acta, artykuł skierowany druku. [42] J.A. Gil, R. Romera, On robust partial least squares methods, Journal of Chemometrics, 12 (1998) 365-378. [43] B. Walczak, Outlier detection in bilinear calibration, Chemometrics and Intelligent Laboratory Systems, 29 (1995) 63-73. [44] B. Walczak, D.L. Massart, Robust principal components regression as a detection tool for outliers, Chemometrics and Intelligent Laboratory Systems, 27 (1995) 41-54. [45] S. Serneels, C. Croux, P. Filzmoser, P.J. Van Espen, Partial robust M-regression, Chemometrics and Intelligent Laboratory Systems, 79 (2005) 55-64. [46] M. Forina, S. Lanteri, M.C.C. Oliveros, C.P. Millan, Selection of useful predictors in multivariate calibration, Analytical and Bioanalytical Chemistry, 380 (2004) 397-418. [47] R. Leardi, A. Lupiáñez, Genetic algorithms applied to feature selection in PLS regression: how and when to use them, Chemometrics and Intelligent Laboratory Systems, 41 (1998) 195-207. [48] R. Leardi, Application of genetic algorithm-PLS for feature selection in spectral data sets Journal of Chemometrics, 14 (2000) 643-655. [49] V. Centner, D.L. Massart, O.E. de Noord, S. de Jong, B. Vandeginste, C. Sterna, Elimination of uninformative variables for multivariate calibration, Analytical Chemistry, 68 (1996) 3851-3858. [50] R. Wehrens, H. Putter, L.M.C. Buydens, The bootstrap: a tutorial, Chemometrics and Intelligent Laboratory Systems, 54 (2000) 35-52. [51] E. Anderssen, K. Dyrstad, F. Westad, H. Martens, Reducing over-optimism in variable selection by cross-model validation, Chemometrics and Intelligent Laboratory Systems, 84 (2006) 69-74. [52] O. Svensson, T. Kourti, J.F. MacGregor, An investigation of orthogonal signal correction algorithms and their characteristics, Journal of Chemometrics, 16 (2002) 176-188. [53] B.S. Dayal, J.F. MacGregor, Improved PLS algorithms, Journal of Chemometrics, 11 (1997) 73-85. [54] A.J. Burnham, R. Viveros, J.F. MacGregor, Frameworks for latent variable multivariate regression, Journal of Chemometrics, 10 (1996) 31-45. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 58 [55] S. de Jong, SIMPLS: an alternative approach to partial least squares regression, Chemometrics and Intelligent Laboratory Systems, 18 (1993) 251-263. [56] L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, Classification and Regression Trees, Wadsworth and Brooks/Cole Advanced Books and Software, Monterey, 1984. [57] G. McLachlan, Discriminant analysis and statistical pattern recognition, Wiley, New York, 1992. [58] G.E.P. Box, Non-normality tests on variances, Biometrika, 40 (1953) 318-335. [59] B.G.M. Vandeginste, D.L. Massart, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. SmeyersVerbeke, Handbook of chemometrics and qualimetrics: part B, Elsevier, Amsterdam, 1998. [60] J.H. Friedman, Regularized dyscriminant analysis, Journal of Statistical American Association, 84 (1989) 165-175. [61] T. Næs, U. Indahl, A unified description of classical classification methods for multicollinear data, Journal of Chemometrics, 12 (1998) 205-220. [62] W. Wu, Y. Mallet, B. Walczak, W. Penninckx, D.L. Massart, S. Heuerding, F. Erni, Comparison of regularized discriminant analysis, linear discriminant analysis and quadratic discriminant analysis, applied to NIR data, Analytica Chimica Acta, 326 (1996) 257-265. [63] E.K. Kimsley, Discriminant analysis of high-dimensional data: a comparison of principal components analysis and partial least squares data reduction methods, Chemometrics and Intelligent Laboratory Systems, 33 (1996) 47-61. [64] M. Barker, W. Rayens, Partial least squares for discrimination, Journal of Chemometrics, 17 (2003) 166-173. [65] R. De Maesschalck, A. Candolfi, D.L. Massart, S. Heuerding, Decision criteria for soft independent modelling of class analogy applied to near infrared data, Chemometrics and Intelligent Laboratory Systems, 47 (1999) 65-77. [66] M.P. Derde, D.L. Massart, Comparison of the performance of the class modelling techniques UNEQ, SIMCA, and PRIMA, Chemometrics and Intelligent Laboratory Systems, 4 (1988) 65-93. [67] M. Forina, C. Armanino, M. Castino, M. Ubigli, Multivariate data analysis as a discriminating method of the origin of wines, Vitis, 25 (1986) 189-201. [68] http://michem.disat.unimib.it/chm/download/webdatasets/Wines.txt [69] I. Stanimirova, A. Kubik, B. Walczak, J.W. Einax, Discrimination of biofilm samples using pattern recognition techniques, Analytical and Bioanalytical Chemistry, 390 (2008) 1273-1282. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 59 [70] B. Walczak, D.L. Massart, Application of Radial Basis Functions - Partial Least Squares to non-linear pattern recognition problems: diagnosis of process faults, Analytica Chimica Acta, 331 (1996) 187-193. [71] W. Melssen, B. Üstün, L. Buydens, SOMPLS: a supervised self-organising map-partial least squares algorithm for multivariate regression problems, Chemometrics and Intelligent Laboratory Systems, 86 (2007) 102-120. [72] R. Leardi (Ed.), Nature-inspired methods in chemometrics: genetic algorithms and artificial neural networks, in Data Handling in Science and Technology series, vol. 23, Elsevier, Amsterdam, 2003. [73] V. Centner, D.L. Massart, O.E. de Noord, S. de Jong, B. Vandeginste, C. Sterna, Elimination of uninformative variables for multivariate calibration, Analytical Chemistry, 68 (1996) 3851-3858. [74] I. Stanimirova, M. Daszykowski, B. Walczak, Dealing with missing values and outliers in principal component analysis, Talanta, 72 (2007) 172-178. [75] M. Daszykowski, K. Kaczmarek, I. Stanimirova, Y. Vander Heyden, B. Walczak, Robust SIMCA - bounding influence of outliers, Chemometrics and Intelligent Laboratory Systems, 87 (2007) 121-129. [76] I. Stanimirova, B. Walczak, Classification of data with missing elements and outliers, Talanta, 76 (2008) 602-609. I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008 60
Similar documents
Analiza czynników głównych i inne metody eksploracji danych
Każde dane analityczne obarczone są błędem pomiarowym, dlatego macierz danych możemy przedstawić jako sumę dwóch komponentów, co pokazano na Rys. 1b. Często zamiast słowa próbki używa się terminu o...
More information