Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja

Transcription

Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja
Metody uczenia z nadzorem – kalibracja, dyskryminacja i klasyfikacja
I. Stanimirova, M. Daszykowski i B. Walczak
Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 40-006 Katowice
http://www.chemometria.us.edu.pl
1. WSTĘP – TECHNIKI UCZENIA Z NADZOREM
Techniki uczenia bez nadzoru mają na celu w oparciu o zbiór zmiennych objaśniających X
ułatwić zidentyfikowanie grup obiektów o podobnych właściwościach lub ujawnienie próbek
znacznie różniących się od pozostałych. Do typowych technik uczenia bez nadzoru należą:
analiza czynników głównych (PCA) [1], metoda poszukiwania projekcji (PP) [2],
samoorganizujące się mapy Kohonena (SOM) [3,4] czy też techniki grupowania danych [5,6].
Techniki uczenia z nadzorem, zależnie od problemu badawczego, stosuje się do konstrukcji
modelu kalibracyjnego, dyskryminacyjnego lub klasyfikacyjnego. Do budowy tychże modeli,
w przeciwieństwie do technik uczenia bez nadzoru, używa się zbioru zmiennych
objaśniających, X, i macierz zmiennych zależnych Y. Ogólnie, tego typu modele można
przedstawić jako:
Y[ m,k ] = f (X[ m,n ] ) + E[ m,k ]
(1)
gdzie, m i n to odpowiednio liczba próbek i zmiennych objaśniających, X, k to liczba
zmiennych zależnych, Y, a E jest macierzą reszt, która wyraża błąd jaki popełnia się stosując
model wyrażony równaniem 1.
Model ten jest jedynie pewną aproksymacją prawdziwej zależności, lecz ta, ze względu na
ograniczoną liczbę próbek jak i błąd pomiarowy, nie może być poznana. Pomimo tego,
model, który jest wystarczająco precyzyjny, znajduje zastosowanie do przewidywania
zmiennej lub zmiennych zależnych.
W zależności od celu modelowania danych, tj. rodzaju informacji, jaka zawarta jest w Y,
wyróżniamy dwie podstawowe strategie uczenia z nadzorem, a mianowicie, kalibrację i
dyskryminację/klasyfikację (Rys. 1). Zadaniem metod kalibracji jest konstrukcja modelu,
który pozwoli ilościowo ocenić określoną własność lub własności, bazując na zbiorze
zmiennych objaśniających. W chemii, typowym przykładem modeli kalibracyjnych są modele
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
1
pozwalające przewidzieć np. stężenie jednego lub wielu składników w próbkach na podstawie
ich
widm.
Skonstruowany
model
kalibracyjny
umożliwia
zastąpienie
drogich
i
czasochłonnych pomiarów zmiennych zależnych, Y, pomiarami tańszymi i szybszymi, X, a
następnie w oparciu o X przewidzenie wartości zmiennych zależnych. Jednymi z bardziej
popularnych technik kalibracyjnych są regresja wieloraka (MLR), regresja czynników
głównych (PCR) i regresja częściowych najmniejszych kwadratów (PLS) [7,8].
n
metody uczenia
bez nadzoru
Eksploracja danych
(np. PCA, grupowanie danych)
XX
m
n
XX
metody uczenia
z nadzorem
y
Kalibracja
(np. PCR, PLS)
m
n
XX
y
Dyskryminacja/klasyfikacja
(np. LDA, SIMCA)
m
Rys. 1 Graficzne przedstawienie różnic pomiędzy metodami uczenia bez nadzoru i z nadzorem.
Techniki dyskryminacyjne i klasyfikacyjne tworzą drugą grupę metod uczenia z nadzorem
[9]. Ich celem jest opracowanie reguł logicznych, które pozwolą na podstawie zbioru próbek
treningowych, należących do a priori znanych grup, przewidzieć przynależność nowych
próbek do określonych grup. Do najczęstszych problemów klasyfikacyjnych możemy
zaliczyć np. badanie autentyczności produktów spożywczych czy farmaceutycznych na
podstawie ich składu chemicznego. Produkty spożywcze dzieli się na grupy ze względu na
miejsce ich pochodzenia, warunki klimatyczne uprawy, metodologię produkcji lub też ze
względu na inne czynniki, które są czynnikami różnicującymi je, a które można powiązać ze
składem chemicznym próbek. Do analizy składu chemicznego próbek można zastosować
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
2
wiele technik analitycznych, a ich wybór przeważnie podyktowany jest względami
ekonomicznymi. Do takich technik możemy zaliczyć spektroskopię w bliskiej podczerwieni
(NIR), która dostarcza zmiennych objaśniających często stosowanych do budowy modeli
kalibracyjnych, dyskryminacyjnych i klasyfikacyjnych.
W metodach dyskryminacji/klasyfikacji, macierz Y zawiera informację o przynależności
danej próbki do jednej z kilku możliwych grup. Sposób wyrażania przynależności próbki do
danej grupy zależy od stosowanej metody uczenia z nadzorem. Dokładniej to zagadnienie
zostanie omówione w dalszej części rozdziału.
Techniki mające na celu przypisanie próbek do określonych grup można podzielić na dwie
kategorie, a mianowicie, metody dyskryminacyjne oraz metody modelowania indywidualnych
grup. W metodach dyskryminacyjnych, (z ang. discriminant techniques, hard-modeling
techniques) [10], przestrzeń zmiennych eksperymentalnych zostaje podzielona na kilka
wykluczających się podprzestrzeni, których liczba jest równa liczbie grup w danych. Ze
względu na położenie próbki w przestrzeni zmiennych objaśniających jest ona zawsze
przypisana do jednej z grup. Na Rys. 2 zademonstrowano podział przestrzeni dwóch
zmiennych objaśniających na cztery grupy oraz przypisano dwie próbki do odpowiednich
grup ze względu na wartości mierzonych parametrów próbek. Próbka pierwsza została
przypisana do grupy 1, a próbka 2 do grupy 3 (zob. Rys. 2a). W technikach modelowania
indywidualnych grup (a ang. soft-modeling techniques, class-modeling techniques) model
buduje się dla każdej grupy osobno. Zatem, nowa próbka może należeć do jednej z grup, do
kilku z nich albo do żadnej (zob. Rys. 2b).
a)
b)
1
4
próbka 1
1
4
2
3
próbka 2
przestrzeń zmiennych
3
2
próbka nie
należy do żadnej
z grup
przestrzeń zmiennych
Rys. 2 Ilustracja różnić pomiędzy: a) technikami dyskryminacyjnymi, a b) technikami modelowania
indywidualnych grup.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
3
Z uwagi na metodę określania przynależności próbek wyróżniamy takie techniki
dyskryminacyjne jak np., liniową analizę dyskryminacyjną (LDA) [11], dyskryminacyjną
metodę częściowych najmniejszych kwadratów (D-PLS) [7,8], drzewa klasyfikacji i regresji
(CART) [12], metodę k najbliższych sąsiadów (KNN), czy maszyny wektorów wspierających
(SVM) [13], oraz techniki modelowania indywidualnych grup, np. SIMCA [14], UNEQ [15] i
M-CAIMAN [16]
Techniki uczenia z nadzorem, możemy podzielić również, ze względu na rodzaj funkcji
kosztów, na metody liniowe i nieliniowe. Niektóre z tych technik, jak np. PCR czy PLS, choć
oryginalnie zostały zaproponowane by modelować liniowe zależności, mają swoje
odpowiedniki stosowane do nieliniowych problemów kalibracyjnych i dyskryminacyjnych
[17]. Przykładem bardzo ogólnych technik, jakich używa się do konstrukcji liniowych bądź
nieliniowych modeli kalibracyjnych i/lub dyskryminacyjnych, są metody SVM i CART.
Inny możliwy podział metod uczenia z nadzorem wynika z ich globalnego lub lokalnego
charakteru. Metody globalne mają za zadanie skonstruować jeden model, który jest spełniony
w całej domenie wyznaczonej przez zmienne objaśniające. W tym ujęciu metody takie jak
MLR, PCR czy PLS są technikami globalnymi.
Celem modeli lokalnych jest konstrukcja kilku modeli, które są poprawne w niektórych
podprzestrzeniach zmiennych objaśniających. Do takich metod lokalnych możemy zaliczyć
np. metodę lokalnie ważonej regresji (LWR) [18], sieci neuronowe z radialnymi funkcjami
bazowymi [19] czy metodę częściowych najmniejszych kwadratów z radialnymi funkcjami
bazowymi (RBF-PLS) [20].
Konstrukcja jakiegokolwiek modelu wymaga zdefiniowania celu modelowania, zaplanowania
eksperymentu, dokonania pomiarów dla zbioru próbek, wyznaczenia parametrów modelu i
oszacowania jego dokładności używając właściwą procedurę walidacji. Wiele czynników ma
wpływ na jakość skonstruowanych modeli. Ponieważ wybór techniki modelowania zależy od
rodzaju danych, dlatego do kolekcji omawianych metod włączyliśmy metody, które
pozwalają objąć możliwie najwięcej aspektów modelowania danych. W tym rozdziale
skupimy się na przedstawieniu technik modelowania z nadzorem i przedstawimy takie
techniki jak MLR, PCR, PLS, LDA, CART i SIMCA. Wszystkie one, oprócz metody CART,
należą do liniowych technik modelowania danych z nadzorem. Ich działanie zostanie
omówione na przykładach symulowanych i eksperymentalnych danych chemicznych.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
4
2. METODY KALIBRACYJNE
Dla przejrzystości prezentacji, zaczniemy od omówienia idei liniowej kalibracji, począwszy
od kalibracji jednokrotnej. Następnie, wprowadzimy podstawowe założenia modelowania
wielowymiarowych danych, w szczególności kładąc nacisk na metody regresji głównych
składowych oraz regresji częściowych najmniejszych kwadratów, gdyż są one najczęściej
stosowane w modelowaniu problemów chemicznych [7,8].
2.1 Regresja jednokrotna, wieloraka i wieloparametrowa
Metoda liniowej regresji jednokrotnej prowadzi do konstrukcji najprostszego modelu
kalibracyjnego. Można go wyrazić jako:
y [ m ,1] = b 0 + b1 x [ m ,1] + e [ m ,1]
(2)
gdzie, b0 i b1 to tzw. współczynniki regresji (wyraz wolny oraz współczynnik kierunkowy), a
e to wektor reszt od modelu.
Alternatywnie, równanie 2 można przedstawić w zapisie wektorowo-macierzowym. Aby
uwzględnić wyraz wolny, do kolumnowego wektora x po jego lewej stronie dodaje się wektor
jedynek, przez co powstaje macierz X i wówczas:
y [ m ,1] = X [ m , 2 ]b [T2,1] + e [ m ,1]
(3)
Taki model stosuje się na przykład, aby wyrazić liniową zależność absorbancji roztworu od
stężenia danego składnika roztworu, w którym on występuje, mierzonej przy określonej
długości fali. Opisanie tej zależności wymaga, aby sygnał pochodzący od danego komponentu
nie nakładał się z sygnałami innych komponentów próbki.
Na Rys. 3 przedstawiono zbiór 20 widm UV-VIS roztworów, zarejestrowanych w zakresie
500-618 nm co 2 nm, w których stężenia oznaczanego składnika mieściły się w zakresie 3,82
– 6,13 mg⋅dm-3. Maksimum absorpcji analitu znajduje się przy 528 nm (Rys. 3a). Jak
pokazuje Rys. 3b pomiędzy zbiorem stężeń składnika w badanych 20 próbkach, a
odpowiadającymi im wartościami absorbancji, które odczytano dla 528 nm, istnieje
stosunkowo silna dodatnia korelacja.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
5
a)
c)
0.9
0.9
0.8
0.85
0.7
absorbancja
absorbancja
0.6
0.5
0.4
0.3
0.8
0.75
0.7
0.2
0.65
0.1
0
500
0.6
520
540
560
580
600
4
4.5
5
długość fali [nm]
5.5
6
stężenie
d)
b)
0.05
0.9
0.04
0.03
reszty od modelu
absorbancja
0.85
0.8
0.75
0.7
0.02
0.01
0
-0.01
0.65
-0.02
0.6
4
4.5
5
5.5
6
-0.03
0
2
4
6
stężenie
8
10
12
14
16
18
20
indeks próbki
Rys. 3 a) Dwadzieścia widm UV-VIS roztworów zarejestrowanych w zakresie 500-618 nm co 2 nm, b) wartości
stężeń analitu w próbkach względem absorpcji odczytanej dla 528 nm, c) model jednokrotnej regresji oraz d)
wartości reszt od modelu regresji.
Zależność ta jest liniowa, a jej wyznaczenie sprowadza się do znalezienia takich
współczynników regresji, dla których prosta trendu najlepiej opisze punkty na wykresie, co
obrazuje Rys. 3c. Jest to możliwe, gdy suma kwadratów różnic, czyli reszt pomiędzy znanymi
wartościami stężeń, a tymi przewidzianymi na postawie modelu, będzie minimalna. Ten
warunek nazywany jest kryterium najmniejszych kwadratów. Współczynniki regresji oblicza
się wedle wzoru:
b [ n ,1] = ( X [Tn ,m ] X [ m,n ] ) −1 X [Tn ,m ] y [ m,1]
(4)
Rys. 3d przedstawia wartości reszt od modelu, wyrażającego zależność stężenia analitów od
absorbancji, czyli różnice pomiędzy wartościami obserwowanymi, a przewidzianymi na
podstawie modelu.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
6
ei = ( yi − yˆi )
(5)
Modele regresji jednokrotnej można przedstawić graficznie na dwa sposoby: rysując stężenia
analitów, yi, względem odpowiadających im absorbancji, xi, lub względem wartości stężeń
przewidzianych stosując dany model, ŷi. W przypadku modeli, konstruowanych dla wielu
zmiennych X, jedynie drugi sposób graficznej prezentacji modelu jest możliwy.
O dopasowaniu modelu do danych eksperymentalnych mówią reszty od modelu, a suma ich
kwadratów jest minimalna. Najczęściej stosowaną miarą dopasowania modelu do danych
eksperymentalnych jest średni błąd kwadratowy zbioru modelowego, RMSEC, (z ang. root
mean square error of calibration), wyrażany jako:
m
RMSEC = 1 / m ⋅ ∑ ( y i − yˆ i )
2
(6)
i =1
Jeśli wybór zmiennej, jaka ma posłużyć do konstrukcji modelu nie jest oczywisty, np. nie
istnieje selektywna długość fali, lub jedna zmienna nie wystarcza, aby w granicach
akceptowalnego błędu opisać modelowaną własność, wówczas jednokrotny model regresyjny
będzie charakteryzował się złym dopasowaniem do danych oraz złym przewidywaniem dla
nowych próbek.
Z problemem wyboru selektywnej długości fali najczęściej spotykamy się w kalibracji w
oparciu o widma z bliskiej podczerwieni. Do ilustracji tego zagadnienia użyjemy zbiór 69
próbek śruty rzepakowej, których widma zarejestrowano w zakresie spektralnym od 1100 do
2500 nm (zob. Rys. 4a), a następnie w tych próbkach, zgodnie z obowiązującymi normami
oznaczono całkowitą zawartość tłuszczy metodą referencyjną. Naszym zadaniem będzie
konstrukcja modelu kalibracyjnego, który pozwoli opisać całkowitą zawartość tłuszczy w
próbkach w oparciu o ich widma NIR.
Wiadomo, iż tłuszcze wykazują dużą absorpcję przy 1740 nm oraz 2300 nm (pasmo
charakterystyczne dla kwasu stearynowego). Zatem, jak można przypuszczać, powinna istnieć
liniowa relacja pomiędzy reflektancją, zmierzoną przy wspomnianych długościach fal, a
całkowitym stężeniem tłuszczy w badanych próbkach.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
7
10
x 10
6
c)
10
8
9
7
8
6
7
5
4
3
3
2
1
6
5
4
2
1200
1400
1600
1800
2000
2200
4.5
2400
5
5.5
6
6.5
log(1/R)
długość fali [mn]
b)
11
9
stężenie
log(1/R)
a)
7
7.5
8
x 10
6
11
10
9
stężenie
8
7
6
5
4
3
2
2.4
2.6
2.8
3
3.2
3.4
log(1/R)
3.6
3.8
4
4.2
x 10
6
Rys. 4 a) Zbiór widm z bliskiej podczerwieni 69 próbek śruty rzepakowej; zależność całkowitego stężenia
tłuszczy w próbkach (wyrażonego w procentach w przeliczeniu na suchą masę próbki) od reflektancji, R,
wyrażonej jako log(1/R), zmierzonej przy: b) 1740 nm i c) 2300 nm.
Niestety, jak pokazują Rys. 4b i c, takie zależności nie istnieją. Powodem tego jest silne
nakładanie się pasm absorpcyjnych w widmach rejestrowanych w obszarze bliskiej
podczerwieni.
Zdecydowanie lepsze wyniki modelowania dla tego typu danych można uzyskać, jeśli model
regresji uwzględnia kilka, odpowiednio wybranych, zmiennych. W tym przypadku do jego
konstrukcji stosuje się metodę wielorakiej regresji, MLR (z ang. multiple linear regression)
[59], a współczynniki regresji modelu otrzymywane są również metodą najmniejszych
kwadratów (zob. równanie 4). Model regresji wielorakiej wyraża równanie 3. Bardziej ogólną
metodą niż regresja wieloraka jest metoda regresji, w której modeluje się wiele zmiennych
zależnych równocześnie. Wówczas, aby przedstawić ten model, wystarczy w równaniu 3
zastąpić wektor y, macierzą zmiennych zależnych Y, wektor b, macierzą, B, której kolumny
tworzą współczynniki regresji dla każdej modelowanej własności (poszczególne kolumny Y),
a wektor reszt od modelu, e, macierzą reszt, E.
W tym miejscu, powinniśmy rozważyć, kiedy konstrukcja współczynników regresji modelu
MLR jest możliwa. Jeśli macierz X tworzy wiele parametrów, to równanie 4 nie zawsze ma
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
8
rozwiązanie. Aby wyznaczyć macierz odwrotną (XTX)-1 koniecznym warunkiem jest, aby
parametry macierzy X nie były skorelowane (zależne). Zgodnie z regułami algebry liniowej,
macierz odwrotna (XTX)-1 nie istnieje, jeśli liczba parametrów w macierzy jest większa niż
liczba próbek, ponieważ wyznacznik tej macierzy jest równy zero [21]. Najczęstszym
sposobem przezwyciężenia tego problemu jest użycie do konstrukcji modelu kilku
niezależnych zmiennych, których liczba jest mniejsza niż liczba obiektów. Jeśli równanie 4
ma rozwiązanie, tzn. gdy liczba próbek przewyższa liczbę zmiennych, należy pamiętać, że
obecność w danych skorelowanych zmiennych znacznie osłabia stabilność współczynników
regresji. W konsekwencji,
model charakteryzuje się bardzo złymi własnościami
predykcyjnymi dla nowych próbek, a doskonałym dopasowaniem do zbioru modelowego. To
właśnie ze względu na problem korelacji zmiennych, w chemii, metoda MLR w swym
podstawowym wariancie ma bardzo ograniczone zastosowanie, gdyż przeważnie dane
chemiczne zawierają wiele skorelowanych zmiennych. Najczęściej stosowanym wariantem
metody MLR do danych zawierających skorelowane zmienne jest metoda regresji krokowej
[22], gdzie zmienne dobierane są tak, by nie były zależne, a zarazem w najlepszy sposób
modelowały daną własność.
Powróćmy jednak do modelowania zawartości tłuszczy w śrucie rzepakowej w oparciu o ich
widma NIR. Tym razem, założymy, iż model kalibracyjny powinien zawierać więcej niż
jedną zmienną. Równocześnie uwzględnimy założenia metody MLR, a zmienne, jakich
użyjemy do konstrukcji modelu, nie będą zależne. Bez wnikania w szczegóły procedury
wyboru zmiennych, stosując metodę regresji krokowej wybraliśmy pięć zmiennych, które
posłużyły do konstrukcji modelu MLR, który przedstawiono na Rys. 5. Dla tych zmiennych
wartości reflektancji, R, wyrażonej jako log(1/R), zmierzono odpowiednio przy 1718, 1742,
1700, 2124 oraz 1704 nm. Całkowite stężenie kwasów tłuszczowych w badanych próbkach
wyraża ważona suma pięciu reflektancji, co można opisać następującym wzorem:
ŷ = b0+b1log(1/r1718)+b2log(1/r1742)+b3log(1/r1700)+b4log(1/r2124)+b5log(1/r1704) (7)
gdzie, ŷ to całkowite stężenie tłuszczy w badanych próbkach przewidziane na podstawie
modelu MLR.
Współczynniki
regresji
tego
modelu
wynoszą:
b0
=
5,65,
b1
=
6,09⋅10-5,
b2 = -5,26⋅10-5, b3 = -1,06⋅10-4, b4 = -1,97⋅10-6 i b5 = 9,96⋅10-5. Wartości współczynników
regresji mówią o wadze danej zmiennej w konstrukcji modelu, a ich znak o pozytywnym bądź
negatywnym charakterze korelacji ze zmienną zależną.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
9
11
10
stężenie przewidziane
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
10
11
stężenie obserwowane
Rys. 5 Model MLR skonstruowany dla pięciu zmiennych (reflektancje zmierzone przy 1718, 1742, 1700, 2124
oraz 1704 nm) - całkowita przewidziana zawartość tłuszczy (wyrażona w procentach w przeliczeniu na suchą
masę próbki) względem obserwowanego całkowitego stężenia tłuszczy w próbkach śruty rzepakowej.
2.2 Metody kalibracyjne oparte na ukrytych zmiennych
Jak wspomnieliśmy wcześniej, konieczność pracy z dużą liczbą skorelowanych zmiennych
powoduje, iż w chemii, modele MLR mają ograniczone zastosowanie. Głównymi metodami
stosowanymi do konstrukcji liniowych modeli kalibracyjnych, które radzą sobie ze
skorelowanymi zmiennymi, są metody regresji czynników głównych (PCR, z ang. principal
component regression) oraz metoda częściowych najmniejszych kwadratów (PLS, z ang.
partial least squares) [7,8]. W tych metodach problem modelowania skorelowanych
zmiennych został przezwyciężony poprzez zastąpienie ich kilkoma nowymi zmiennymi, tzw.
zmiennymi ukrytymi, które są ortogonalne. Owe nowe zmienne, w zależności od metody
regresji są inaczej konstruowane.
2.2.1 Regresja czynników głównych
Koncepcyjnie, metoda PCR jest najprostszą spośród innych technik, w których do konstrukcji
modelu kalibracyjnego używa się ukrytych zmiennych i dlatego od niej zaczniemy
prezentację.
W metodzie PCR do budowy modelu zamiast oryginalnych zmiennych używa się czynników
głównych. Czynniki główne konstruowane są iteracyjnie poprzez dekompozycję wyjściowej
macierzy danych, X, do macierzy wyników, T, oraz macierzy wag, P, i maksymalizują opis
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
10
wariancji danych. Sposób ich konstrukcji dokładnie omówiono w rozdziale „Analiza
czynników głównych i inne metody eksploracji danych”.
Ogólnie, model PCR o f czynnikach, który pozwala na przewidzenie zmiennych zależnych
możemy przedstawić jako:
X[ m , n ] = T[ m , f ]P[Tf , n ] + E[ m , n ]
(8)
Y[ m,k ] = T[ m, f ]Q [Tf ,k ] + G [ m,k ]
(9)
gdzie współczynniki regresji modelu, Q, wyznacza się metodą najmniejszych kwadratów:
(
Q [ f ,k ] = T[Tf , m ] T[ m , f ]
)
−1
T[Tf , m ] Y[ m , k ]
(10)
Porównując równania 4 i 10 możemy zaobserwować, że Q to współczynniki regresji z
równania 4, które oblicza się w przestrzeni czynników głównych. Schematycznie, model PCR
przedstawiono na Rys. 6.
Czynniki główne użyte do konstrukcji modelu PCR są ortogonalne. Ta własność zapewnia, że
można wyznaczyć współczynniki regresji metodą najmniejszych kwadratów, gdyż istnieje
macierz odwrotna (TTT)-1. Dodatkowo, wybór kilku pierwszych czynników głównych do
konstrukcji modelu umożliwia redukcję części błędu eksperymentalnego danych X. Liczba
kolumn macierzy T, czyli liczba czynników głównych użytych do konstrukcji modelu,
określa jego kompleksowość. Macierze E i G zawierają część wariancji X oraz Y, jaka nie
została opisana przez model.
Model PCR, wyrażony równaniami 8 i 9, jest stosunkowo trudny w interpretacji, ponieważ
poszczególne czynniki główne są liniową kombinacją oryginalnych zmiennych. O wiele
bardziej interesująca jest informacja na temat wkładu oryginalnych zmiennych do konstrukcji
modelu. Współczynniki regresji Q, mówiące o wkładach poszczególnych czynników
głównych, przekształca się tak, aby otrzymać informacje o wadze oryginalnych zmiennych,
zgodnie z następującym równaniem:
B [ n,k ] = P[ n, f ]Q [ f ,k ]
Y[ m,k ] = X[ m,n ] B [ n,k ] + G [ m,k ]
(11)
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
11
gdzie G to macierz reszt od modelu.
n
X
tworzenie
ortogonalnych
zmiennych
metodą PCA
n
f
T
PT
f
m
k
k
Y
m
Ŷ
f
=
k
T
f Q
T
m
konstrukcja modelu kalibracyjnego używając T
Rys. 6 Schematyczne przedstawienie idei konstrukcji modelu PCR.
Pomimo swych cennych zalet metoda PCR ma także pewne ograniczenie. Kilka pierwszych
czynników głównych, które dobrze modelują wariancję X, nie zawsze wykazują dobrą
korelację z Y. Ten problem został rozwiązany przez Wolda i Martensa, którzy zaproponowali
metodę częściowych najmniejszych kwadratów, znaną także pod nazwą projekcje na zmienne
ukryte (z ang. projections to latent structures) [8].
2.2.2 Regresja częściowych najmniejszych kwadratów
Zadaniem metody PLS, podobnie jak i PCR, jest konstrukcja modelu kalibracyjnego w
oparciu o kilka ukrytych zmiennych [7,8]. W PLS ukryte zmienne tworzone są jednak inaczej
niż w PCR. W trakcie ich konstrukcji bierze się pod uwagę trzy aspekty, a mianowicie, ukryte
zmienne są tak tworzone, aby:
1. dobrze opisywały wariancję X,
2. dobrze opisywały wariancję Y oraz
3. uwzględniały zależność pomiędzy X, a Y.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
12
Innymi słowy, informacja zawarta w Y jest aktywnie używana do konstrukcji ukrytych
zmiennych, aby te najlepiej opisywały kowariancję pomiędzy X, a Y. Należy jednak
podkreślić, iż ukryte zmienne konstruowane w PLS nie są czynnikami głównymi.
Najbardziej ogólnym modelem PLS jest model PLS-2, który wyjaśnia zależność pomiędzy X,
a blokiem kilku zmiennych zależnych Y:
X [ m ,n ] = T[ m , f ] P[Tf , n ] + E [ m ,n ]
(12)
Y[ m,k ] = U [ m, f ] H [Tf ,k ] + G [ m,k ]
(13)
gdzie, E to macierz reszt od modelu, która zawiera nieopisaną informację X przez model o f
czynnikach, U i H to odpowiednio macierze wyników i wag bloku zmiennych zależnych, a G
to macierz reszt zawierająca nieopisaną część wariancji bloku zmiennych zależnych Y.
Schematycznie ideę metody PLS-2 przedstawiono na Rys. 7. Najczęściej stosowany wariant
PLS, gdzie modeluje się jedną zmienną zależną (PLS-1) jest szczególnym przypadkiem
PLS-2. W trakcie konstrukcji modelu, dla zmiennych macierzy X uzyskuje się macierze
wyników, T, wag, P, oraz macierz tak zwanych wag PLS, W. Interpretacja macierzy
wyników i wag jest analogiczna jak w PCA. Także w PLS, macierz wag zawiera informację o
zależności pomiędzy wynikami, a oryginalnymi zmiennymi macierzy X. Z kolei wagi PLS
opisują relację, jaka istnieje pomiędzy Y, a oryginalnymi zmiennymi. Często kolejne wektory
wag, p, oraz wag PLS, w, są do siebie bardzo podobne, co oznacza, że dany czynnik jest
równie ważny do modelowania X oraz Y. Dla macierzy zmiennych zależnych również
otrzymujemy zestaw macierzy wyników, U, oraz wag, H, gdzie wagi H wiążą T i Y. Wkłady
poszczególnych zmiennych do modelowania Y określają ich współczynniki regresji, B. W
każdej kolumnie macierzy B znajdują się współczynniki regresji dla każdej z k
modelowanych własności:
(
B [ n,k ] = W[ n, f ] P[Tf ,n ] W[ n, f ]
)
Y[ m,k ] = X[ m,n ] B [ n,k ] + F[ m,k ]
−1
H [Tf ,k ]
(14)
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
13
n
X
m
f
f
T
U
k
Y
m
f
PT
f
WT
f
QT
Rys. 7 Zestawy ukrytych zmiennych tworzone w metodzie PLS.
Choć zdecydowanie częściej konstruuje się modele PLS-1 to należy również zwrócić uwagę
na własności modeli PLS-2. Mianowicie, PLS-2 jest wypadkowym modelem, gdyż objaśnia
wszystkie zmienne Y równocześnie. Model PLS-2, zbudowany dla określonej liczby
czynników, rzadko pozwala uzyskać optymalne wyniki modelowania dla wszystkich
zmiennych zależnych. Nic nie stoi na przeszkodzie, aby skonstruować indywidualne modele
PLS-1 dla każdej zmiennej zależnej osobno, co często prowadzi do dużo lepszych modeli.
Można również konstruować model PLS-2 z różną liczbą czynników dla każdej zmiennej
zależnej. Wyraźne korzyści stosowania modelu PLS-2 można zaobserwować jedynie, gdy
pomiędzy zmiennymi Y istnieje stosunkowo silna korelacja.
2.3 Wstępne przygotowanie danych przed konstrukcją modeli kalibracyjnych
Dane używane do konstrukcji modelu kalibracyjnego często wymagają wstępnego
przygotowania. Ponieważ większość technik wstępnego przygotowania danych już została
omówiona w rozdziale „Analiza czynników głównych i inne metody eksploracji danych”,
dlatego teraz jedynie wymienimy te najczęściej stosowane w kalibracji. Wybór danej techniki
nie jest oczywisty i zależy od rodzaju danych. Zazwyczaj, stosuje się różne techniki
wstępnego przygotowania danych, a odpowiedź na pytanie czy daną technikę należy użyć
można uzyskać dopiero po walidacji skonstruowanego modelu.
Wśród wielu metod wstępnego przygotowania danych znajdują się techniki pozwalające na
polepszenie stosunku sygnału do szumu [23], specyficzne transformacje danych (np. SNV
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
14
[24]), których zadaniem jest eliminacja niekorzystnych efektów fizycznych, jakie obserwuje
się podczas pomiaru widm (np. rozpraszanie promieniowania elektromagnetycznego) oraz
metody filtrowania danych, np. [25,26].
2.4 Kolejne etapy konstrukcji modeli kalibracyjnych
2.4.1 Wybór próbek do zbioru modelowego
Do konstrukcji modelu kalibracyjnego konieczny jest odpowiednio liczny zbiór próbek. Zbiór
ten będziemy nazywali zbiorem modelowym. Aby zapewnić dobre zdolności predykcyjne
modelu, zbiór modelowy powinien zawierać próbki, reprezentujące wszystkie możliwe źródła
wariancji. Innymi słowy, należy mieć pewność, iż próbki zbioru modelowego dokładnie
pokrywają całą domenę kalibracyjną. Jeśli reprezentatywność zbioru modelowego nie jest
zapewniona to powstaje ryzyko ekstrapolacji lub interpolacji modelu, co nie jest wskazane.
Reprezentatywność zbioru modelowego można zapewnić na ogół na dwa sposoby. Pierwszy
sposób polega na odpowiednim zaplanowaniu eksperymentu, co wiąże się z przygotowaniem
serii próbek o określonej charakterystyce. W tym celu można posłużyć się technikami
planowania eksperymentu [27]. W niektórych sytuacjach, np. wówczas, gdy obiektem badań
są próbki naturalne lub środowiskowe, użycie technik planowania eksperymentu jest
niemożliwe. Jako drugie podejście pozostaje wybór reprezentatywnych próbek z zestawu tych
dostępnych. Wybór ten ułatwiają algorytmy Kennarda i Stona [28] oraz jego modyfikacje
[29,30]. Próbki wybrane do zbioru modelowego mają w przestrzeni eksperymentalnej rozkład
zbliżony do rozkładu równomiernego, co zapewnia możliwie najlepszą reprezentatywność
zbioru modelowego.
Metody wyboru próbek są używane, gdy ich ilość jest odpowiednio duża, ponieważ zbiór
modelowy powinien zawierać zdecydowanie więcej próbek niż zbiór testowy. Zazwyczaj
przyjmuje się, iż zbiór modelowy powinno tworzyć pomiędzy 70%, a 75% całkowitej liczby
dostępnych próbek.
Algorytm Kennarda i Stona i algorytm „duplex”
W celu zilustrowania działania algorytmu Kennarda i Stona oraz algorytmu „duplex”
posłużymy się symulowanym zbiorem 20 próbek w dwuwymiarowej przestrzeni. W obu
algorytmach, jako miarę podobieństwa pomiędzy próbkami przyjmuje się odległość
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
15
euklidesową. Najpierw, do zbioru modelowego ({) jako pierwszą wybiera się najbardziej
reprezentatywną próbkę. Jest to próbka nr 1, położona najbliżej arytmetycznego środka
danych (zob. Rys. 8a). Numery na Rys. 8a to kolejność, w której próbki były włączane do
zbioru modelowego. Kolejną próbką dodaną do zbioru modelowego jest próbka, która
znajduje się najdalej od pierwszej (próbka nr 2). Jako trzecią próbkę, do zbioru modelowego
włącza się próbkę położoną najdalej od tych już wybranych (próbka nr 3). W tym celu oblicza
się odległości euklidesowe pomiędzy m-k próbkami, a każdą próbką zbioru modelowego i
wyznacza minimalne odległości. Następnie, na podstawie tych odległości wybiera się próbkę
najbardziej odległą od próbek zbioru modelowego i włącza się ją do zbioru modelowego.
Wybór kolejnych próbek do zbioru modelowego jest kontynuowany do momentu, gdy
wybierzemy ich określoną liczbę. Na Rys. 8a możemy zauważyć, iż wybrane próbki do
zbioru modelowego reprezentują możliwie wszystkie źródła wariancji i są równomiernie
rozłożone w przestrzeni pomiarowej. W omawianym przykładzie do zbioru modelowego
wybrano 14 próbek, co stanowiło 70% całkowitej ich ilości. Pozostałe próbki utworzyły zbiór
testowy oznaczony na Rys. 8 jako (∆).
W odróżnieniu od algorytmu Kennarda i Stona, algorytm „duplex” ma na celu zapewnić
reprezentatywność zbioru modelowego i testowego. Na początku, znajduje się dwie próbki
najbardziej od siebie oddalone i włącza je do zbioru modelowego. Są to próbki 1 i 2 (zob.
Rys. 8b). W kolejnym kroku poszukuje się innej pary próbek, które są od siebie najbardziej
oddalone (próbki 3 i 4) i dodaje się je do zbioru testowego. Następnie, na przemian, wybiera
się próbki do zbioru modelowego i testowego, poszukując próbek najbardziej odległych w
stosunku do próbek zbioru modelowego i testowego stosując takie samo kryterium wyboru
jak w algorytmie Kennarda i Stona. Na przykład, próbki 5 i 6 są kolejnymi włączonymi
odpowiednio do zbioru modelowego i testowego. Procedurę kontynuuje się, aż określona
liczba próbek znajdzie się w zbiorze testowym. Pozostałe próbki, jakich nie wybrano, są
dodane do zbioru modelowego.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
16
a)
7
2
3
12
2.5
6
2.5
10
14
2
3
11
13
6
1.5
11
5
3
1
zmienna 2
8
zmienna 2
b)
4
3
4
9
12
1.5
9
5
1
8
1
2
0.6
0.8
1
1.2
1.4
1.6
7
10
2
1.8
2
2.2
2.4
2.6
zmienna 1
1
0.6
0.8
1
1.2
1.4
1.6
1.8
2
2.2
2.4
2.6
zmienna 1
Rys. 8 Kolejność wyboru próbek do zbioru modelowego ({) i testowego (∆) stosując:
a) algorytm Kennarda i Stona oraz b) algorytm „duplex”.
2.4.2 Wybór metody kalibracyjnej
Oprócz omawianych metod istnieje wiele innych liniowych technik kalibracji [31]. Jednakże,
ze względu na silną korelację zmiennych, w zdecydowanej większości problemów
chemicznych, stosuje się metody PCR i PLS.
Niewątpliwie przewagą PLS nad PCR jest uwzględnienie na etapie konstrukcji ukrytych
zmiennych korelacji pomiędzy zbiorem zmiennych X, a Y. To powoduje, że modele PLS
zazwyczaj pozwalają osiągnąć mniejsze błędy przewidywania dla nowych próbek w
porównaniu do modeli PCR [32] i/lub modele są bardziej stabilne ze względu na mniejszą
liczbę czynników użytych do ich konstrukcji. Modelowanie kilku zmiennych zależnych
wymaga rozważenia dwóch opcji:
1. konstrukcja indywidualnych modeli dla każdej zmiennej zależnej lub
2. konstrukcja modelu dla wszystkich zmiennych zależnych równocześnie.
Jeżeli pomiędzy zmiennymi zależnymi istnieje stosunkowo silna korelacja, wówczas model
PLS-2 może dać lepsze wyniki niż PLS-1.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
17
2.4.3 Wybór kompleksowości modeli kalibracyjnych
Kolejnym ważnym etapem konstrukcji modelu kalibracyjnego jest wybór odpowiedniej liczby
czynników do jego budowy. Modele zbudowane w oparciu o zbyt mało czynników są źle
dopasowane do danych, co wyraża się dużymi resztami od modelu dla próbek zbioru
modelowego. Z drugiej strony, modele o zbyt dużej liczbie czynników, charakteryzują się
małym błędem dla obiektów zbioru modelowego, lecz jeśli model użyty jest w celach
predykcyjnych dla nowych próbek, wówczas błąd przewidywania jest bardzo duży. Takie
modele nazywa się przeuczonymi. W skrajnym przypadku, jeśli do konstrukcji modelu
zostanie użyta maksymalna liczba czynników, to jego błąd dopasowania będzie równy zero, a
jego moc predykcyjna będzie fatalna. Z tego właśnie powodu, wybór liczby czynników do
budowy modelu nie może opierać się na analizie RMSEC jako funkcji liczby czynników, a
musi uwzględniać zdolności predykcyjne modelu. Wybór optymalnej liczby czynników do
konstrukcji modelu pozwala na osiągnięcie kompromisu pomiędzy zadowalającym
dopasowaniem modelu do danych, a dobrymi własnościami predykcyjnymi. Typowe wykresy
błędów dopasowania modelu do danych oraz błędu przewidywania dla próbek zbioru
testowego w zależności od ilości czynników w modelu przedstawia Rys. 9.
błąd dopasowania i przewidywania modelu
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
liczba czynników w modelu
Rys. 9 Przykładowy wykres przedstawiający zależności pomiędzy błędem dopasowania modelu do zbioru
modelowego (-{-), a błędem przewidywania dla próbek zbioru testowego (-…-) dla modeli o coraz większej
liczbie czynników.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
18
W zależności od ilości dostępnych próbek, istnieją dwa sposoby wyboru optymalnej liczby
czynników do konstrukcji modelu i oceny jego zdolności predykcyjnych. Pierwszy sposób
polega na podzieleniu zbioru dostępnych próbek na trzy zbiory:
1. zbiór modelowy (służący do konstrukcji modelu),
2. zbiór monitoringowy (służący do wyboru optymalnej kompleksowości modelu) oraz
3. zbiór testowy (służący do końcowej oceny mocy predykcyjnej modelu z optymalną
liczbą czynników).
Jednakże ten sposób, z uwagi na zazwyczaj ograniczoną liczbę dostępnych próbek, jest
rzadko stosowany.
Inną możliwością wyboru optymalnej liczby czynników do konstrukcji modelu jak i jego
późniejszej walidacji jest podział dostępnych próbek na dwa zbiory: modelowy i testowy. W
celu wyboru optymalnej liczby czynników do konstrukcji modelu stosuje się techniki
kroswalidacji [7,8]. W metodach kroswalidacji, iteracyjnie dzieli się zbiór modelowy na zbiór
służący do konstrukcji modelu i tzw. zbiór walidacyjny. Ze względu na sposób tworzenia
grup walidacyjnych wyróżniamy kroswalidację typu „wyrzuć k próbek” oraz kroswalidację
Monte-Carlo [33]. W wariancie kroswalidacji „wyrzuć k próbek”, tworzy się p zbiorów
walidacyjnych, z których każdy zawiera k próbek. Próbki te wybierane są z macierzy X
losowo bez powtórzeń. Dla tychże próbek określa się zdolności predykcyjne modeli,
zbudowanych dla m-k próbek, o coraz większej liczbie czynników, aby wybrać ich optymalną
liczbę do konstrukcji końcowego modelu. Najprostszym wariantem tego typu kroswalidacji
jest kroswalidacja „wyrzuć jeden obiekt” (z ang. leave-one-out crossvalidation), której idee
schematycznie przedstawiono na Rys. 10. W kroswalidacji Monte-Carlo, p razy losowo dzieli
się zbiór próbek na dwa, włączając za każdym razem do zbioru walidacyjnego k próbek,
których liczba najczęściej mieści się w przedziale pomiędzy 30%, a 50% całkowitej liczby
próbek w danych.
Bez względu na wariant użytej kroswalidacji, dla próbek zbioru walidacyjnego gromadzi się
ich reszty od każdego modelu o danej liczbie czynników. Następnie, na ich podstawie oblicza
się średni błąd kwadratowy kroswalidacji, RMSECV (z ang. root mean square error of cross
validation):
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
19
RMSECV ( f ) =
1 n
2
⋅ ∑ ( y i − yˆ i ( f ) )
pn i =1
(15)
gdzie yˆ i ( f ) to wartości zmiennej zależnej przewidziane na podstawie modelu o f czynnikach
dla i-tej próbki, a p to liczba grup walidacyjnych lub liczba iteracji w kroswalidacji MonteCarlo.
1
x1
Xmodel
...
=
ŷ1
e1 e2
ef
b1, 2,... , f
2
x2
Xmodel
.
.
.
=
e1 e2
...
...
ef
e1 e2
...
...
ef
ŷ2
b1, 2,... , f
n
Xmodel
m
xm
=
ŷm
...
...
...
b1, 2,... , f
Rys. 10 Ilustracja koncepcji metody kroswalidacji typu „wyrzuć jeden obiekt”.
Ze wszystkich wariantów kroswalidacji, najczęściej stosuje się kroswalidację typu „wyrzuć
jeden obiekt”. Wybór liczby czynników do konstrukcji modeli w oparciu o kroswalidację typu
„wyrzuć n obiektów” lub Monte-Carlo zmniejsza ryzyko przeuczenia modeli, ale obie
techniki wymagają więcej próbek.
W skrajnym przypadku, gdy liczba próbek jest bardzo mała, metody kroswalidacji
wykorzystuje się zarówno do wyznaczenia kompleksowości modeli jak i do oszacowania
błędu przewidywania.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
20
Wybór optymalnej kompleksowości modelu nie jest prostym zadaniem. Oprócz
wspomnianych sposobów oceny kompleksowości modelu istnieją także inne, a samo
zagadnienie do dnia dzisiejszego nie zostało definitywnie rozwiązane [34,35,36].
2.4.4 Testowanie modeli kalibracyjnych
Poprzez walidację modelu kalibracyjnego rozumie się ocenę jego zdolności predykcyjnych
dla zbioru próbek, który nie był użyty do jego konstrukcji. Zazwyczaj, zbiór testowy powstaje
w wyniku wyboru próbek do zbioru modelowego i testowego np. metodą Kennarda i Stona
[28] lub algorytmem „duplex” [29]. Choć algorytm „duplex” wydaje się być najtrafniejszym
wyborem, to, jeśli w danych występują obiekty odległe, wówczas powinniśmy stosować
algorytm Kennarda i Stona, który zapewni, iż do zbioru modelowego zostaną wybrane
wszystkie obiekty odległe. Wtedy, stosując stabilne metody regresji [37,38,39] możliwa jest
konstrukcja modelu kalibracyjnego, opisującego poprawnie większość danych i skuteczna
diagnostyka obiektów odległych.
Błąd przewidywania dla próbek zbioru modelowego określa średni błąd kwadratowy,
RMSEP:
RMSEP( f ) =
1 w
2
⋅ ∑ ( y i − yˆ i ( f ) )
w i =1
(16)
gdzie, w to liczba próbek w zbiorze testowym.
2.5 Kiedy model kalibracyjny jest dobry, a kiedy zły?
Poprawnie
skonstruowany
model
kalibracyjny
powinien
charakteryzować
się
porównywalnymi błędami dopasowania, kroswalidacji oraz przewidywania dla próbek zbioru
testowego. Duże różnice pomiędzy tymi wartościami wskazują na potencjalne problemy w
modelowaniu i wymagają odnalezienia przyczyn takiego stanu rzeczy. Wymieńmy kilka
oznak świadczących o tym, że zbudowany model może nie być odpowiedni:
1. duży
błąd
dopasowania
modelu
do
zbioru
modelowego,
powyżej
limitu
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
21
akceptowanego dla danego problemu kalibracyjnego,
2. duże wartości reszt od modeli o coraz większej liczbie czynników,
3. duży błąd przewidywania dla próbek zbioru testowego.
Do najczęstszych czynników, jakie mogą mieć znaczący wpływ na model kalibracyjny
możemy zaliczyć:
1. obecność tzw. złych obiektów odległych,
2. brak reprezentatywności zbioru modelowego,
3. niejednorodność struktury danych (grupy obiektów),
4. niewłaściwa walidacja modelu,
5. niewłaściwe przygotowanie danych przed konstrukcją modelu kalibracyjnego,
6. duże błędy systematyczne w X i/lub Y,
7. niewłaściwe przygotowanie próbek podczas eksperymentu,
8. nieoptymalna kompleksowość modelu,
9. niewystarczająca informacja w X, aby wymodelować Y,
10. brak liniowej zależności, pomiędzy X, a Y.
2.6 Konstrukcja modeli kalibracyjnych PLS-1 w praktyce
Modele PLS-1 są najczęściej stosowane do modelowania danych chemicznych i dlatego
skupimy się na ich. Główne etapy ich konstrukcji przedstawimy na przykładzie dwóch
zestawów eksperymentalnych danych.
2.6.1 Zbiory danych użyte do konstrukcji modeli PLS-1
Dane 1 tworzy 69 widm z bliskiej podczerwieni, jakie zarejestrowano dla próbek śruty
rzepakowej w zakresie 1100 - 2500 nm. Dla każdej z próbek oznaczono całkowitą zawartość
kwasów tłuszczowych, którą wyrażono w procentach w przeliczeniu na suchą masę próbki.
Dokładny opis danych jak i eksperymentu przedstawiono w [40].
Dane 2 tworzy zbiór 97 widm z bliskiej podczerwieni próbek wątroby wieprzowej. W
próbkach oznaczono całkowitą zawartość tłuszczy, którą wyrażono w procentach w
przeliczeniu na suchą masę próbki. Widma zarejestrowano w zakresie 1100 nm do 1950 nm.
Próbki wątroby pobrano od zwierząt, które hodowano stosując trzy rodzaje pasz [41].
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
22
2.6.2 Krok 1 - wstępna eksploracja danych
Przed przystąpieniem do kalibracji należy dokładnie poznać strukturę danych. Ocenie poddaje
się obiekty macierzy X oraz jej zmienne. Jeśli dane tworzą sygnały instrumentalne, wizualnie
analizuje się poziom szumu i linii bazowej w sygnałach. Przed przystąpieniem do konstrukcji
modelu kalibracyjnego, w zależności od rodzaju modelowanych danych mogą one wymagać
odmiennego przygotowania. Specyficzną grupę technik wstępnego przygotowania danych
stanowią techniki stosowane do przygotowania sygnałów instrumentalnych, np. widm z
bliskiej podczerwieni. W przypadku danych, których zmienne w macierzy X to różne
pomiary, wówczas bierze się pod uwagę procedurę autoskalowania lub, jeśli to konieczne transformację logarytmiczną.
Na Rys. 11 przedstawiono widma NIR danych 1 i 2 wraz z odpowiadającymi histogramami
ich zmiennych zależnych. Analizując oryginalne widma próbek danych 1 możemy
zaobserwować cztery próbki, których widma znacznie różnią się od pozostałych. Ponadto,
dość duży rozrzut widm w stosunku do siebie może być spowodowany niekorzystnymi
zmianami intensywności odbitego promieniowania elektromagnetycznego z zakresu bliskiej
podczerwieni na skutek jego rozpraszania na powierzchni badanych próbek. Z tego powodu
uzyskane widma są mniej lub bardziej intensywne, ale nie ma to bezpośredniego związku z
zawartością
analitu
w
próbce.
Na
efekty
rozpraszania
wiązki
promieniowania
elektromagnetycznego mają głównie wpływ rozdrobienie próbki jak i jej powierzchnia.
Najczęściej ten efekt można zniwelować transformując widma metodą SNV [24]. Na Rys.
11b i c oraz 11e i f, odpowiednio dla danych 1 i 2 pokazano widma NIR przed i po
transformacji SNV. Dla omawianych zestawów danych możemy uznać, że transformacja
SNV jest konieczna, gdyż po niej wariancja widm zdecydowanie zmniejsza się. Oryginalne
widma charakteryzują się prawie niezauważalnym poziomem szumu, dlatego nie ma potrzeby
jego redukcji.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
23
a)
d)
30
25
25
20
ilość zliczeń
ilość zliczeń
20
15
15
10
10
5
5
0
2
3
4
5
6
7
8
9
10
0
0.2
11
0.4
0.6
całkowita zawartość tłuszczy
b)
x 10
0.8
1
1.2
1.4
całkowita zawartość tłuszczy
6
e)
9
x 10
6
3
8
2.5
6
log(1/R)
log(1/R)
7
5
2
1.5
4
3
1
2
1200
1400
1600
1800
2000
2200
1100
2400
1200
1300
c)
1400
1500
1600
1700
1800
1900
1700
1800
1900
długość fali [mn]
długość fali [mn]
f)
2
2
1.5
1.5
log(1/R) po SNV
log(1/R) po SNV
1
1
0.5
0
0.5
0
-0.5
-1
-0.5
-1.5
-1
1200
1400
1600
1800
2000
długość fali [mn]
2200
2400
-2
1100
1200
1300
1400
1500
1600
długość fali [mn]
Rys. 11 a) Histogram wartości zmiennej zależnej danych 1 (całkowita zawartość tłuszczy w próbkach wyrażona
w procentach w przeliczeniu na suchą masę próbki), b) zbiór widm 69 próbek śruty rzepakowej
zarejestrowanych w zakresie spektralnym od 1100 nm do 2500 nm z krokiem 2 nm, c) zbiór tych widm do
transformacji SNV, d) histogram wartości zmiennej zależnej danych 2 (całkowita zawartość tłuszczy w próbkach
wyrażona w procentach w przeliczeniu na suchą masę próbki), e) zbiór widm 97 próbek wątroby wieprzowej
zarejestrowanych w zakresie spektralnym od 1100 nm do 1950 nm z krokiem 2 nm oraz f) zbiór widm próbek
wątroby wieprzowej po transformacji SNV.
Następnie, stosując metodę PCA zwizualizujemy strukturę danych X, w celu oceny stopnia
ich jednorodności. Dla pierwszego zestawu danych, płaszczyzna zdefiniowana przez pierwsze
dwa czynniki główne pozwala na uwidocznienie ponad 92% całkowitej wariancji danych
(zob. Rys. 12a).
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
24
a)
b)
0.8
9
0.6
0.4
0.3
0.4
0.2
0.2
PC 3 - 4,73%
PC 1 - 9,46%
11
0
-0.2
0.1
0
-0.4
-0.1
-0.6
-0.2
-0.8
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
PC 1 - 83,82%
2.5
3
-1.5
-1
-0.5
0
0.5
1
1.5
PC 1 - 85,80%
Rys. 12 Projekcja próbek na przestrzeń zdefiniowaną przez dwa pierwsze czynniki główne dla: a) danych 1 oraz
b) danych 2 (każdą grupę próbek oznaczono innym symbolem, ze względu na
rodzaj podawanej zwierzętom paszy).
Dane 1 nie mają jednorodnej struktury. Wzdłuż pierwszego czynnika głównego dwie próbki
nr 9 i 11 są wyraźnie daleko od pozostałych. Dla próbki nr 9 całkowita zawartość tłuszczy jest
najmniejsza, a próbka ta jest także daleko w przestrzeni X. Próbka 11 ma wartość zmiennej
zależnej bliską wartości średniej stężeń i jest ona jedynie odległa w przestrzeni X. Ze względu
na swoją odmienność od pozostałych próbek w przestrzeni X oraz y próbka 9 może być
uznana jako obiekt odległy. Dopóki nie sprawdzimy, jaki wywiera ona wpływ na model,
dopóty nie możemy odpowiedzieć na pytanie czy jest dobrym czy złym obiektem odległym.
Złe obiekty odległe bardzo silnie wpływają na model, całkowicie zmieniając jego
dopasowanie do danych i zdolności predykcyjne. Natomiast tzw. dobre obiekty odległe
poszerzają zakres kalibracyjny oraz dodatkowo stabilizują model i dlatego ich usunięcie ze
zbioru modelowego nie jest pożądane.
Istnieją dwa rodzaje podejść do modelowania danych zawierających obiekty odległe.
Pierwszy zakłada ich detekcje i eliminację, a następnie konstrukcję modelu stosując klasyczne
techniki kalibracji. Alternatywą jest użycie tzw. stabilnych metod kalibracyjnych, które
pozwalają na konstrukcję poprawnych modeli, dobrze opisujących większości danych nawet,
gdy zbiór modelowy zawiera obiekty odległe [37]. Do tej pory, w literaturze zaproponowano
kilka wersji stabilnych modeli PCR i PLS [42,43,44], z czego metoda zaproponowana w [45]
wydaje się być najbardziej efektywna. Jeśli skupimy się jedynie na klasycznej metodzie PLS
to ustalenie czy próbka 9 jest dobrym obiektem odległym wymaga zbudowania dwóch modeli
kalibracyjnych - dla zbioru modelowego z tą próbką i bez niej. Jeśli jej obecność w zbiorze
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
25
modelowym nie wpływa znacznie na błąd dopasowania modelu, wówczas powinniśmy ją
uwzględnić w jego budowie i traktować jako dobry obiekt odległy. Diagnostyka obiektów
odległych jest możliwa jedynie na podstawie reszt od stabilnego modelu kalibracyjnego [43].
Wówczas reszty dla takich próbek od stabilnego modelu będą bardzo duże, co pozwoli na ich
odróżnienie od pozostałych próbek. Dla klasycznych modeli, złe obiekty odległe na tyle silnie
zmieniają model, iż głównie opisuje on obiekty odległe, a co za tym idzie dla takich próbek
reszty od modelu są bardzo małe, a dla pozostałych duże. W dalszej części rozdziału
powrócimy do dyskusji tego zagadnienia i jednoznacznie odpowiemy czy próbki 9 i 11 są
dobrymi czy złymi obiektami odległymi. Na etapie eksploracji zbioru danych mamy jedynie
przypuszczenie, iż ewentualnie złe dopasowanie modelu do danych może być wynikiem
obecności obiektów odległych w przestrzeni X i/lub y.
Dane o niejednorodnej strukturze, np. dane zawierające wyraźne grupy próbek, mogą
sprawiać trudności w trakcie konstrukcji modelu. Wówczas, jeden globalny model
kalibracyjny nie pozwoli na efektywne modelowanie danych i dlatego należy rozważyć
konieczność konstrukcji lokalnych modeli (dla każdej grupy próbek osobno). Właśnie z taką
sytuacją możemy mieć do czynienia modelując dane 2, gdyż na projekcji próbek na
przestrzeń pierwszego i trzeciego czynnika głównego widoczne są trzy grupy próbek (zob.
Rys. 12b). Ich obecność można wytłumaczyć zmianami w profilu stężeniowym tłuszczy w
wątrobie wieprzowej na skutek stosowania różnych pasz. Próbki z każdej grupy zostały
oznaczone innym symbolem.
Po wstępnej eksploracji danych możemy przystąpić do kolejnych etapów konstrukcji modelu.
2.6.3 Krok 2 - wybór próbek do zbioru modelowego i wybór liczby czynników do modelu
W większości przypadków wybór próbek do zbioru modelowego przeprowadzamy mając na
uwadze, że powinny one równomiernie wypełniać domenę kalibracyjną. Ten etap kalibracji
jest bardzo ważny, gdyż reprezentatywność próbek zbioru modelowego determinuje zakres
stosowalności skonstruowanego modelu. Jeśli to tylko możliwe, to powinniśmy planować
eksperyment, co w pełni zapewni reprezentatywność zbioru modelowego. Jednakże nie
zawsze jest to możliwe, np. pracując z próbkami biologicznymi czy naturalnymi nie ma
możliwości kontrolowania ich źródeł wariancji. Wówczas wybieramy do zbioru modelowego
próbki zakładając ich możliwie równomierny rozkład, co zapewnia użycie algorytmu
Kennarda i Stona oraz algorytmu „duplex”.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
26
Przeważnie, do konstrukcji modelu kalibracyjnego używa się ok. 70-75% wszystkich próbek,
a pozostałe tworzą zbiór testowy, stosowany do oceny własności predykcyjnych modelu. Jeśli
dane wymagają wstępnego przygotowania, to próbki do zbioru modelowego wybiera się z
danych po transformacji.
Teraz, zilustrujemy jak wybór próbek wpływa na własności predykcyjne modeli, wybierając
próbki losowo (ok. 75% całkowitej liczby próbek), a potem algorytmem Kennarda i Stona.
Wyniki modelowania porównamy w oparciu o krzywe błędów kroswalidacji typu „wyrzuć
jeden obiekt” dla modeli skonstruowanych w oparciu o zbiory modelowe utworzone dwoma
w/w sposobami.
Jak pokazują krzywe błędów kroswalidacji typu „wyrzuć jeden obiekt”, wybór obiektów do
zbioru modelowego wywiera wpływ na własności predykcyjne modeli (zob. Rys. 13).
Równocześnie, jeśli próbki do zbioru modelowego wybrano tak, aby równomiernie
wypełniały domenę kalibracyjną, oszacowanie kompleksowości modeli na podstawie
krzywych kroswalidacyjnych wydaje się być łatwiejsze. W przypadku danych 1, krzywa
pozwala stwierdzić, iż model powinien zawierać 4 czynniki, a dla danych 2, 5 czynników
(zob. Rys. 13b i e). Kroswalidacja typu „wyrzuć jeden obiekt” może prowadzić do wyboru
zbyt wielu czynników do konstrukcji modelu, czyniąc go przeuczonym. Innymi wariantami
kroswalidacji są kroswalidacja typu „wyrzuć więcej obiektów” lub kroswalidacja MonteCarlo. Na Rys. 13c i f przedstawiono krzywe kroswalidacyjne uzyskane dla danych 1 i 2. Dla
danych 1, w każdym kroku kroswalidacji zbiór modelowy zawierał 32 próbki, a zbiór
walidacyjny losowo wybrane 16 próbek. Prezentowane wartości RMSECV są średnią z 500
powtórzeń. Dla danych 2, w każdym kroku kroswalidacji do zbioru modelowego losowo
wybrano 73 próbki, a do zbioru walidacyjnego 30 próbek. Wyniki RMSECV są średnią z 500
powtórzeń. Uzyskane krzywe błędów kroswalidacji typu „wyrzuć jeden obiekt” i metody
Monte-Carlo dla omawianych danych pozwalają wyciągnąć te same wnioski co do
optymalnej liczby czynników w modelu. Do konstrukcji końcowego modelu PLS-1 dla
danych 1 użyto cztery czynniki, a dla danych 2, pięć.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
27
a)
d)
0.65
0.2
0.6
0.55
0.18
RMSECV
RMSECV
0.5
0.45
0.4
0.35
0.16
0.14
0.3
0.12
0.25
0.2
0.15
0.1
1
2
3
4
5
6
7
8
9
10
1
2
3
liczba czynników w modelu
b)
e)
1.4
RMSECV
RMSECV
6
7
8
9
10
8
9
10
8
9
10
0.2
0.16
1
0.8
0.6
0.14
0.12
0.4
0.1
0.2
1
2
3
4
5
6
7
8
9
0.08
10
1
2
3
4
5
6
7
liczba czynników w modelu
liczba czynników w modelu
f)
1.4
0.2
0.18
1.2
0.16
RMSECV
1
RMSECV
5
0.18
1.2
c)
4
liczba czynników w modelu
0.8
0.6
0.14
0.12
0.1
0.4
0.08
0.2
1
2
3
4
5
6
7
liczba czynników w modelu
8
9
10
0.06
1
2
3
4
5
6
7
liczba czynników w modelu
Rys. 13 Krzywe kroswalidacyjne typu „wyrzuć jeden obiekt” dla zbioru modelowego danych 1, który zawierał
52 próbki wybrane z 69 próbek: a) losowo, b) stosując algorytm Kennarda i Stona; c) krzywa kroswalidacyjna
Monte-Carlo (do zbioru walidacyjnego wybierano 500 razy losowo 16 z 52 próbek zbioru modelowego).
Krzywe kroswalidacyjne typu „wyrzuć jeden obiekt” dla zbioru modelowego danych 2, który zawierał 73 próbki
wybrane z 97 próbek: d) losowo, e) stosując algorytm Kennarda i Stona; f) krzywa kroswalidacyjna Monte-Carlo
(do zbioru walidacyjnego wybierano 500 razy losowo 30 z 73 próbek zbioru modelowego).
2.6.4 Krok 3 – ocena skonstruowanych modeli kalibracyjnych
Do najczęściej stosowanych sposobów wizualnej oceny modeli służą wykresy wartości
przewidzianej zmiennej zależnej, ŷ, względem y eksperymentalnego oraz prezentowane w
różnej formie wykresy reszt od modelu. Na Rys. 14a oraz d przedstawiono zależność ŷ
przewidzianego na podstawie modeli PLS od y obserwowanego odpowiednio dla danych 1 i
2. Próbki zbioru modelowego oznaczono jako ({), a próbki zbioru testowego jako (¼). W
przypadku dobrych modeli kalibracyjnych, zarówno próbki zbioru modelowego jak i
testowego powinny być rozmieszczone symetrycznie wzdłuż prostej o jednostkowym
nachyleniu. Prosta obrazuje idealną zależność, dla której różnice pomiędzy obserwowanymi
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
28
wartościami zmiennej zależnej, a tymi przewidzianymi na podstawie modelu wynoszą zero.
Jednocześnie oczekuje się, iż wartości reszt dla próbek zbioru modelowego jak i testowego
będą porównywalne, co gwarantuje zbliżone wartości błędów RMSEC i RMSEP modelu.
Rozkład reszt od modelu, dla obu zbiorów próbek powinien być zbliżony do normalnego.
a)
d)
11
1.4
zawartość tłuszczy przewidziana
zawartość tłuszczy przewidziana
10
9
8
7
6
5
4
1.2
1
0.8
0.6
0.4
3
0.2
2
2
3
4
5
6
7
8
9
10
0.2
11
0.4
b)
e)
0.4
wartości reszt od modelu
0.1
0
-0.1
-0.2
1.4
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.5
-0.25
0
5
10
15
20
25
30
35
40
45
50
0
10
20
indeks próbki
30
40
50
60
70
50
60
70
indeks próbki
f)
0.4
0.25
0.2
0.3
0.15
0.2
wartości reszt od modelu
wartości reszt od modelu
1.2
0.25
-0.4
0.1
0
-0.1
-0.2
-0.3
0.1
0.05
0
-0.05
-0.1
-0.15
-0.4
-0.5
1
0.15
0.2
-0.3
c)
0.8
0.2
0.3
wartości reszt od modelu
0.6
zawartość tłuszczy obserwowana
zawartość tłuszczy obserwowana
-0.2
0
5
10
15
20
25
30
kolejne próbki
35
40
45
50
-0.25
0
10
20
30
40
kolejne próbki
Rys. 14 a) Model PLS-1, przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach śruty
rzepakowej (dane 1), wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej
zawartość tłuszczy w próbkach, b) wykres słupkowy reszt od tego modelu oraz c) wykres słupkowy reszt próbek
od tego modelu, na którym uszeregowano je względem rosnącej zawartości tłuszczy w próbkach; d) model
PLS-1 przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach wątroby wieprzowej (dane 2),
wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej zawartość tłuszczy w
próbkach, e) wykres słupkowy reszt tego modelu oraz f) wykres słupkowy reszt próbek od modelu, na którym
uszeregowano je względem rosnącej zawartości tłuszczy w próbkach.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
29
Jeśli dla próbek, których wartości zmiennej zależnej są małe i reszty od modelu są również
małe, a dla próbek, których zmienna zależna ma duże wartości, a reszty od modelu też są
duże, możemy przypuszczać, iż mamy do czynienia z błędem proporcjonalnym do
mierzonego sygnału, lub stężenia danego składnika w próbce. W takim przypadku należy
rozważyć logarytmiczną transformację danych. Natomiast, jeśli reszty próbek od modelu,
uszeregowane od najmniejszej do największej wartości zmiennej zależnej, wykazują
nieliniowy trend wówczas zależność pomiędzy X, a y jest nieliniowa.
W przypadku modelowanych danych 1 i 2 żaden z wymienionych problemów nie ma miejsca,
co potwierdza analiza Rys. 14b i c oraz 14e i f. Na Rys. 14b widzimy, że model
charakteryzuje się stosunkowo małymi wartościami reszt od modelu, dla obu zbiorów próbek.
Błędy, jakie uzyskano dla modelu o czterech czynnikach wynoszą dla zbioru modelowego
0,2032, a dla testowego, 0,1988, co stanowi odpowiednio 2,41% i 2,36% zakresu zmiennej
zależnej zbioru modelowego. W górnej części wykresu widzimy dwie próbki, dla których
wartości y są relatywnie duże (zob. Rys. 14a). Są to wcześniej wspomniane próbki 9 i 11.
Jednakże nie wywierają one znacznego wpływu na model, gdyż wartości błędów
dopasowania i przewidywania modelu są porównywalne z błędami modelu skonstruowanego
dla zbioru modelowego bez tych próbek. Próbki 9 i 11 możemy uważać za dobre obiekty
odległe, które poszerzają zakres stosowalności modelu i pozwalają przewidywać całkowitą
zawartość tłuszczy w próbkach w zakresie od 2% do około 10,5%.
W przypadku modelu zbudowanego w oparciu o widma NIR próbek wątroby wieprzowej
(dane 2), model jest gorszy, niż model dla danych 1. W porównaniu do zakresu pomiarowego
y rozrzut reszt od modelu próbek zbiorów modelowego i testowego jest stosunkowo duży.
Należy jednak podkreślić, iż rozrzut ten jest wciąż symetryczny. Uzyskane błędy dla zbiorów
modelowego i testowego wynoszą odpowiednio 0,0906 i 0,0980 (8,71% i 9,42% zakresu
zmiennej zależnej zbioru modelowego). Konstrukcja modeli dla indywidualnych grup próbek
niestety nie prowadzi do polepszenia wyników modelowania.
Porównując skonstruowane modele na podstawie ich błędów odniesionych do zakresu
zmienności y zbioru modelowego możemy stwierdzić, że model PLS dla danych 1
charakteryzuje się lepszym dopasowaniem do danych jak i umożliwia lepsze przewidywanie
zmiennej zależnej dla nowych próbek.
Stosunkowo pomocne w wykryciu próbek, które mają duży wpływ na model, są tzw. mapy
przedstawiające kwadraty wartości reszt od modeli z różną liczbą czynników dla próbek
zbioru modelowego (zob. Rys. 15).
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
30
28.197
26.875
25.553
24.232
22.91
21.588
20.266
18.945
17.623
16.301
14.98
13.658
12.336
11.014
9.693
8.371
7.049
5.727
4.406
3.084
1.762
0.441
5
10
indeks próbki
15
20
25
30
35
40
45
50
1
2
3
4
5
6
7
liczba czynników w modelu
8
9
10
b)
0.424
0.404
0.384
0.364
0.344
0.325
0.305
0.285
0.265
0.245
0.225
0.205
0.185
0.166
0.146
0.126
0.106
0.086
0.066
0.046
0.027
0.007
10
20
indeks próbki
a)
30
40
50
60
70
1
2
3
4
5
6
7
8
9
10
liczba czynników w modelu
Rys. 15 Mapy przedstawiające kwadraty reszt od modeli PLS-1 uzyskane stosując procedurę kroswalidacji
„wyrzuć jeden obiekt” dla próbek zbioru modelowego: a) danych 1 i b) danych 2.
Mapy te skonstruowano dla dwóch zbiorów modelowych omawianych danych. Wartości reszt
uzyskuje się na drodze kroswalidacji np. typu „wyrzuć jeden obiekt”. Wyraźną tendencją,
którą obserwuje się włączając kolejne czynniki do budowy modelu, jest zmniejszanie się
wartości reszt od modelu, co widzimy na mapach dla konstruowanych modeli
prezentowanych na Rys. 15.
Na ogół, ze wzrostem kompleksowości modelu całkowity procent opisanej wariancji danych
przez kolejne czynniki modelu, zarówno w X jak i w y, sukcesywnie rośnie (zob. Rys. 16).
Modele PLS-1 z optymalną liczbą czynników pozwoliły opisać ponad 95% całkowitej
wariancji danych w X oraz ponad 95% zmienności y dla danych 1, a w przypadku danych 2,
za pomocą pięcioczynnikowego modelu opisano ponad 95% całkowitej wariancji w X i
prawie 80% całkowitej zmienności y. Choć dla modeli o bardzo małej liczbie czynników z
łatwością można wyróżnić obiekty o dużych wartościach kwadratów reszt, to dla modeli o
optymalnej liczbie czynników te wartości są porównywalne z innymi.
Każde dane eksperymentalne są obarczone błędem pomiarowym, którego natura jest inna dla
pomiarów w X, jak i Y. Jeśli macierz X tworzą np. widma odbiciowe NIR, to na ich jakość
mają bezpośredni wpływ takie czynniki jak sposób pobierania próbek, ich przechowywanie,
upakowanie próbki w kuwecie, stopień rozdrobienia próbki, temperatura w trakcie
prowadzenia pomiaru, itp. Wszystkie one są możliwymi źródłami wariancji. W przypadku
modelowania kilku zmiennych zależnych równocześnie, każdą z nich uzyskuje się zazwyczaj
poprzez indywidualne pomiary stosując różne techniki referencyjne, obarczone własnym
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
31
błędem pomiarowym. Niestety, wiedza o błędzie metod referencyjnych nie zawsze jest
dostępna. Jeśli jednak dysponujemy tą informacją, należy pamiętać, iż model kalibracyjny nie
powinien charakteryzować się błędem mniejszym od błędu metody referencyjnej.
c)
100
90
procent wyjaśnionej wariancji w X
procent wyjaśnionej wariancji w X
a)
80
70
60
50
40
30
20
10
0
100
90
80
70
60
50
40
30
20
10
1
2
3
4
5
6
7
8
9
0
10
1
2
3
liczba czynników w modelu
b)
d)
100
procent wyjaśnionej wariancji w y
procent wyjaśnionej wariancji w y
90
80
70
60
50
40
30
20
10
0
4
5
6
7
8
9
10
8
9
10
liczba czynników w modelu
100
90
80
70
60
50
40
30
20
10
1
2
3
4
5
6
7
liczba czynników w modelu
8
9
10
0
1
2
3
4
5
6
7
liczba czynników w modelu
Rys. 16 Kumulacyjne procenty wariancji dla X i y, opisane przez modele PLS-1 o różnej kompleksowości,
skonstruowane dla: a-b) danych 1 oraz c-d) danych 2.
2.6.5 Krok 4 – ewentualne polepszenie modeli kalibracyjnych
W tym momencie moglibyśmy już zakończyć proces modelowania omawianych danych.
Jednak dość często modele kalibracyjne próbuje się polepszyć. Owo polepszenie ma
zazwyczaj na celu uprościć model, a przez to ułatwić jego interpretację. Stosuje się do tego
dwa rodzaje podejść. Pierwszy rodzaj metod to metody wyboru zmiennych. Do tejże grupy
należy wiele technik, od bardzo prostych [46] po złożone metody optymalizacyjne takie jak
np. algorytm genetyczny [47,48]. Z arsenału metod wyboru zmiennych stosunkowo często
stosuje się metody, w których o wadze zmiennej mówi stabilność jej współczynnika regresji.
Jedną z najbardziej znanych metod tego typu jest UVE-PLS (z ang. uninformative variable
elimination-partial least squares) [49]. Choć w konstrukcji modelu PLS uwzględnia się
kowariancję pomiędzy X, a y to jednak w skutecznym modelowaniu przeszkadzają zmienne o
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
32
dużej wariancji, a małej korelacji z y. Takie zmienne można zidentyfikować stosując, np.
UVE-PLS czy metody, w których oszacowanie stabilności współczynników regresji bazuje na
podejściach „jackknifingu” lub „bootstrappingu” [50]. Poznanie stabilności współczynników
regresji prowadzi do identyfikacji istotnych z punktu modelowania zmiennych, którym
następnie można próbować nadać chemiczną interpretację. Jednakże należy pamiętać o
konieczności walidacji wybranych zmiennych [51].
Kolejną grupę metod stanowią techniki, których zadaniem jest usunięcie z danych informacji
jaka nic nie wnosi do modelowania zmiennej zależnej [52]. Jej reprezentantem jest
ortogonalna metoda częściowych najmniejszych kwadratów (z ang. orthogonal partial least
squares) [26].
2.7 Podsumowanie
Istnieje wiele metod kalibracji. W chemii, z uwagi na konieczność konstrukcji modeli
kalibracyjnych dla dużej liczby skorelowanych zmiennych, dominują zastosowania PLS i
PCR. Wśród tych dwóch, PLS jest najczęściej używaną metodą kalibracji w chemometrii.
Modele PLS można konstruować używając różne algorytmy [53,54,55], których rozwój był
głównie podyktowany próbą podniesienia wydajności obliczeniowej dla zbiorów danych o
dużej liczbie próbek i/lub zmiennych. Wśród wielu pozycji literaturowych na temat kalibracji
wielowymiarowych danych na szczególną uwagę zasługują [7,8,32].
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
33
3. METODY DYSKRYMINACJI I KLASYFIKACJI
3.1 Drzewa klasyfikacji i regresji
Drzewa klasyfikacji i regresji, CART, (z ang. classification and regression trees) [56] to
technika modelowania danych z nadzorem, która w zależności od typu modelowanej
zmiennej y (ciągła lub dyskretna) pozwala na konstrukcję modeli kalibracyjnych lub
klasyfikacyjnych. Choć metoda CART wydaje się być bardzo ogólną techniką modelowania
danych to jednak najlepsze wyniki otrzymuje się, jeśli jest używana do problemów
dyskryminacyjnych. Z tego właśnie powodu omawiamy ją w tej części rozdziału razem z
innymi wybranymi technikami dyskryminacji i klasyfikacji.
Celem metody CART jest utworzenie w przestrzeni zmiennych X wzajemnie wykluczających
się regionów, które zawierają możliwie najwięcej próbek z jednej grupy. Regiony te tworzone
są poprzez binarne podziały indywidualnych zmiennych, zwane regułami logicznymi. Z tego
względu model CART to drzewo decyzyjne. Drzewo decyzyjne budują węzły, które
symbolizują podgrupy próbek. Tworzenie drzew decyzyjnych odbywa się poprzez kolejne
podziały zbioru modelowego na podzbiory próbek, aż do uzyskania jednorodnych grup
próbek lub, gdy ilość próbek w terminalnych węzłach osiągnie ustaloną liczbę. Jakość
każdego z podziałów oceniana jest ilościowo stosując tzw. funkcję redukcji zanieczyszczenia,
∆I, która w czasie konstrukcji modelu jest maksymalizowana:
∆I(t ) = I(t ) − p L I(t L ) − p R I(t R )
(17)
gdzie I(t) to zanieczyszczenie węzła „rodzica” t, a pL i pR to proporcja obiektów z i-tej grupy
jakie są w lewym i prawym węźle „dziecku”.
Najczęściej stosowaną miarą zanieczyszczenia węzła t jest entropia, którą definiuje się jako:
k
I (t ) = −∑ pi (t ) ln( pi (t ))
(18)
i =1
gdzie k to liczba grup próbek, pi to proporcja próbek z i-tej grupy w węźle t.
Model CART konstruuje się w dwóch krokach:
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
34
1. budowa drzewa decyzyjnego o maksymalnej liczbie węzłów,
2. wybór optymalnej ilości węzłów terminalnych w drzewie.
Tworzenie drzewa decyzyjnego zakłada konstrukcje drzewa o maksymalnej liczbie węzłów.
Jednakże ze względu na dużą liczbę węzłów, taki model jest przeuczony. Efekt przeuczenia
modelu niweluje się poprzez odpowiednie usuniecie węzłów (z ang. tree pruning). Wybór
optymalnej kompleksowości modelu prowadzi się zazwyczaj w oparciu o procedurę
kroswalidacji. Na każdym jej etapie dostępny zbiór próbek dzieli się na np. 10 zestawów, w
których każda grupa powinna być reprezentowana możliwie równolicznie. Dla 9 z 10
zestawów próbek konstruuje się model CART, a jednego zbioru używa się do testowania
modelu. Po procedurze kroswalidacji błędy klasyfikacji (tj. procent źle zaklasyfikowanych
próbek) uśrednia się biorąc pod uwagę błędy dla modeli z tą samą liczbą terminalnych
węzłów. Optymalną kompleksowość modelu ustala się w oparciu o wyniki błędów uzyskane
na drodze kroswalidacji, przedstawione jako zależność RMSECV od liczby węzłów
terminalnych w drzewie decyzyjnym.
Na Rys. 17, schematycznie przedstawiono główne etapy tworzenia drzewa decyzyjnego dla
dwuwymiarowych symulowanych danych, które zawierają trzy grupy próbek po 30 w każdej.
Podział obiektów na podgrupy determinuje reguła logiczna, która maksymalizuje funkcję
redukcji zanieczyszczenia węzłów. Jest ona konstruowana tak, aby na każdym etapie próbki
były podzielone na dwie grupy możliwie najbardziej czyste. W tym celu rozważa się
wszystkie zmienne i wszystkie możliwe podziały, wybierając tą zmienną do konstrukcji
reguły logicznej, która zapewnia optymalny podział próbek.
Dla prezentowanego przykładu, pierwsza reguła logiczna (x1≥2,1) pozwala odróżnić grupę
próbek oznaczonych na Rys. 17b jako (¼) od pozostałych. Wszystkie próbki o wartościach
zmiennej 1 większych lub równych 2,1 będą przypisane do grupy (¼). Aby oddzielić grupę
próbek (+) od ({), konieczne jest skonstruowanie nowej reguły logicznej. Najlepsza do tego
celu jest zmienna 2, która pozwala rozróżnić te dwie grupy na poziomie 3,54.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
35
a)
5
4.5
zmienna 2
4
¼ 30
{ 30
+ 30
3.5
3
2.5
wszystkie dane
2
0
0.5
1
1.5
2
2.5
3
3.5
4
zmienna 1
b)
5
x1≥2,1
x1<2,1
4.5
zmienna 2
4
Konstrukcja
reguły logicznej 1
3.5
{ 30
+ 30
3
x1≥2,1
2.5
2
0
0.5
1
1.5
2
2.5
3
3.5
¼ 30
4
zmienna 1
c)
5
x1<2,1 i x2≥3,54
4.5
zmienna 2
x1≥2,1
x1<2,1
4
Konstrukcja
reguły logicznej 2
x2≥3,54
3.5
¼ 30
3
x1≥2,1
2.5
2
x1<2,1 i x2<3,54
0
0.5
1
1.5
2
2.5
3
3.5
4
zmienna 1
{ 28
{2
+ 30
Rys. 17 a-c) Kolejne etapy konstrukcji drzewa decyzyjnego dla symulowanych dwuwymiarowych
danych, które zawierają trzy grupy próbek po 30 w każdej (x1 – zmienna 1, x2 – zmienna 2).
3.2 Liniowa analiza dyskryminacyjna
Liniowa analiza dyskryminacyjna jest chyba najczęściej stosowaną techniką dyskryminacji w
chemometrii. Została zaproponowana po raz pierwszy przez Fishera [11]. Jak nazwa metody
sugeruje, jej zadaniem jest konstrukcja liniowych funkcji dyskryminacyjnych. Tworzy się je
dla próbek zbioru modelowego, które należą do określonych grup. Następnie, skonstruowane
funkcje dyskryminacyjne są wykorzystane do klasyfikacji nowych próbek do jednej z
rozpatrywanych grup.
Rozważmy teraz przypadek dwóch grup próbek, oznaczonych jako A i B, których dane
zebrano odpowiednio w macierzy XA o wymiarach (mA×n) i XB (mB×n), gdzie mA i mB to
liczba próbek odpowiednio w grupie A i B, a n to liczba zmiennych. Obie grupy
zaprezentowano na Rys. 18, na którym znajduje się 40 próbek w dwuwymiarowej przestrzeni
eksperymentalnej (po 20 w każdej grupie).
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
36
zmienna 2
DF
6
5
grupa A
4
3
grupa B
2
σA
1
1
2
3
4
5
6
7
zmienna 1
(x A − x B )
σB
Rys. 18 Ilustracja tworzenia funkcji dyskryminacyjnej (DF) metodą liniowej analizy dyskryminacyjnej dla
symulowanych danych, które zawierają dwie grupy próbek w dwuwymiarowej przestrzeni
eksperymentalnej, po 20 próbek w każdej.
Analizując Rys. 18 można zauważyć, że dwie grupy próbek będą najlepiej od siebie oddalone,
jeśli ich środki x A i x B , będą jak najdalej od siebie, a odchylenia standardowe próbek w
grupach, σA i σB, jak najmniejsze. Innymi słowy, jesteśmy zainteresowani konstrukcją takiego
kierunku w przestrzeni zmiennych, który maksymalizuje wariancję pomiędzy grupami, a
minimalizuje wariancję wewnątrz grup. To kryterium jest znane jako kryterium Fishera.
Współrzędne obiektów na tym kierunku będziemy nazywać wynikami.
Właściwe stosowanie metody LDA wymaga spełnienia kilku założeń, a mianowicie:
1. rozkład obiektów w każdej grupie próbek powinien być zbliżony do rozkładu
normalnego,
2. grupy próbek powinny być liniowo separowalne,
3. macierze wariancji-kowariancji każdej grupy próbek powinny być porównywalne, a
4. całkowita liczba obiektów musi być większa niż liczba zmiennych przynajmniej
trzykrotnie [57].
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
37
Dwugrupowy
problem
dyskryminacyjny
wymaga
konstrukcji
jednej
funkcji
dyskryminacyjnej, co w zupełności pozwala odróżnić od siebie dwie liniowo separowalne
grupy próbek:
DF = b0 + b1x1 + b2x2 + … + bnxn
(19)
gdzie, b0, b1, ..., bn to współczynniki funkcji dyskryminacyjnej, otrzymywane następująco:
b [1,n ] = (x A − x B ) T C[−n1,n ]
(20)
1
b 0 = − (x A − x B ) T C[−n1,n ] (x A − x B )
2
(21)
gdzie C to macierz wariancji-kowariancji:
C[ n , n ] =
( XTA X A + X TB X B )
(mA + mB − 2)
(22)
W równaniu 22 macierze XA i XB są centrowane średnimi odpowiednich grup. Dla danych
autoskalowanych, b0 = 0. Ponieważ macierze wariancji-kowariancji są porównywalne
(podobna objętość elipsoid wariancji-kowariancji oraz zbliżona orientacja w przestrzeni)
można zastąpić je ich średnią. W celu porównania macierzy wariancji-kowariancji można
posłużyć się testem statystycznym Boxa [58]. W przypadku mniejszej liczby próbek w grupie
niż liczba opisujących ją zmiennych nie można wyznaczyć macierzy odwrotnej macierzy
wariancji-kowariancji z tych samych przyczyn, dla których nie można wyznaczyć
współczynników regresji w metodzie MLR [59]. Sposobem rozwiązania tego problemu jest
zastąpienie oryginalnych zmiennych, kilkoma ortogonalnymi zmiennymi, np. czynnikami
głównymi. Alternatywnym sposobem jest użycie krokowego wariantu metody LDA [59] lub
regularyzowanej wersji LDA [60].
Równanie 19 definiuje regułę logiczną LDA. Jeśli dla nowych próbek funkcja
dyskryminacyjna będzie przyjmowała wartości dodatnie, to te zostaną przypisane do
pierwszej grupy, a jeśli ujemne, to do drugiej grupy. Dla danych przedstawionych na Rys. 19,
rozwiązując równania 19-22 otrzymujemy funkcję dyskryminacyjną w postaci:
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
38
DF = 15,3 – 16,5x1 + 14,7x2
(23)
Na Rys. 19a przedstawiono prostą dyskryminacyjną dla takich x1 i x2, dla których funkcja
dyskryminacyjna wynosi zero. W przypadku danych trójwymiarowych będzie to płaszczyzna
dyskryminacyjna, a dla n wymiarowych danych, hiperpłaszczyzna dyskryminacyjna.
Przypuśćmy, że naszym zadaniem jest sklasyfikowanie nowej próbki do jednej z dwóch grup
na podstawie wartości parametrów, jakie opisują próbkę. Zgodnie z równaniem 23, dla
wartości x1 = 3,0 i x2 = 5,0, DF = 39,3. Ponieważ wartość DF jest dodatnia, dlatego nowa
próbka powinna należeć do grupy A, co widoczne jest także na Rys. 19b.
a)
b)
6
DF>0
=0
DF
A
4
nowa próbka
3
2
DF<0
1
2
3
4
5
4
3
2
B
1
A
5
zmienna 2
zmienna 2
5
6
6
B
1
1
2
zmienna 1
3
4
zmienna 1
5
6
Rys. 19 Idea liniowej analizy dyskryminacyjnej zademonstrowana na przykładzie dwuwymiarowych
symulowanych danych: a) konstrukcja prostej dyskryminacyjnej i b) przewidywanie przynależności nowej
próbki (U) do jednej z dwóch grup.
Zgodnie z założeniem technik dyskryminacyjnych, w omawianym przypadku, nowa próbka
zawsze będzie przypisana do jednej z dwóch grup.
Metoda LDA może być także stosowana do dyskryminacji K grup próbek. Wówczas,
konstruuje się K-1 funkcji dyskryminacyjnych, a ich współczynniki stanowią K-1 pierwszych
wartości własnych macierzy (Sw-1Sb). Sw to macierz wariancji wewnątrz grup, a Sb to macierz
wariancji pomiędzy grupami:
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
39
K
S w = ∑ ( X k − 1x k ) T ( X k − 1x k )
(24)
k =1
K
S b = ∑ mk (x k − x)(x k − x) T
(25)
k =1
gdzie x to średnia wszystkich próbek, a 1 to kolumnowy wektor jedynek, a mk to liczba
próbek w k-tej grupie.
Omówimy teraz na przykładzie symulowanych danych konstrukcje modelu LDA dla trzech
grup próbek. Każdą grupę tworzy 30 próbek opisanych pięcioma parametrami. Rozkład
próbek w grupach jest zbliżony do normalnego, a różnice pomiędzy grupami wynikają z ich
różnej lokalizacji w przestrzeni eksperymentalnej. Ze względu na obecność w danych trzech
grup, zadaniem będzie konstrukcja modelu LDA, który umożliwi wyznaczenie liniowych
granic pomiędzy grupami. Na Rys. 20 przedstawiono projekcję próbek na płaszczyznę
zdefiniowaną przez pierwsze dwie funkcje dyskryminacyjne i granice pomiędzy grupami
próbek.
b)
5.5
5.5
5
5
4.5
4.5
funkcja dyskryminacyjna 2
funkcja dyskryminacyjna 2
a)
4
3.5
3
2.5
2
3
2.5
2
1.5
1.5
1
-4.5
4
3.5
-4
-3.5
-3
-2.5
-2
funkcja dyskryminacyjna 1
-1.5
-1
1
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
funkcja dyskryminacyjna 1
Rys. 20 Projekcja próbek symulowanych danych, które zawierają trzy grupy próbek w pięciowymiarowej
przestrzeni eksperymentalnej, na przestrzeń zdefiniowaną przez: a) pierwszą i drugą funkcję dyskryminacyjną,
które skonstruowano stosując metodę liniowej analizy dyskryminacyjnej i b) pierwszą i drugą funkcję
dyskryminacyjną, które skonstruowano stosując metodę kwadratowej analizy dyskryminacyjnej.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
40
Choć na Rys. 20a wszystkie trzy grupy próbek są idealnie od siebie odseparowane, jednakże
założenie o równości macierzy wariancji-kowariancji każdej z grup nie jest całkowicie
spełnione. Obrazują to elipsy wariancji-kowariancji każdej grupy, które wyznaczają obszary
95% pewności przynależności obiektów do danej grupy. Dla próbek grupy ({) elipsa jest
znacznie większa niż elipsy pozostałych grup. Kiedy macierze wariancji-kowariancji bardzo
się od siebie różnią, wówczas należy brać pod uwagę metodę QDA (z ang. quadratic
discriminant analysis) [61]. Jednakże w porównaniu z LDA, metoda QDA wymaga znacznie
większej liczby próbek w zbiorze modelowym [62]. Na Rys. 20 pokazano różnice pomiędzy
metodami LDA i QDA, w celu ukazania różnic w sposobie konstrukcji funkcji
dyskryminacyjnych. W przypadku metody QDA granice pomiędzy grupami są nieliniowe
(zob. Rys. 20b).
Powracając do omawianego przykładu, dwie liniowe funkcje dyskryminacyjne LDA mają
postać:
DF1 = - 0,46x1 + 0,09x2 + 0,12x3 + 0,11x4 - 0,34x5
(26)
DF2 = 0,58x1 - 0,18x2 + 0,69x3 + 0,28x4 - 0,63x5
(27)
Statystyczną istotność skonstruowanych funkcji dyskryminacyjnych można ocenić używając
test lambda Wilka [59], który opiera się na porównaniu stosunku wariancji pomiędzy grupami
do wariancji wewnątrz grup.
W metodzie LDA, aby zobrazować podział próbek na trzy grupy, skonstruowano trzy
półproste w przestrzeni dwóch funkcji dyskryminacyjnych, które mają początek w
arytmetycznym środku danych i przechodzą przez punkty w połowie odległości pomiędzy
środkami każdej pary grup (zob. Rys. 20a).
Przewidywanie przynależności nowych próbek do grup prowadzi się tak samo, jak dla
omawianego przypadku dwóch grup próbek, a mianowicie, znajdując wartości funkcji
dyskryminacyjnych w oparciu o równania 26 i 27.
Podobnie jak współczynniki regresji czy wagi w PCA, tak i współczynniki funkcji
dyskryminacyjnych informują o wadze danej zmiennej w ich konstrukcji. Duże absolutne
wartości współczynników dla określonych zmiennych mówią o ich relatywnie dużej roli w
konstrukcji funkcji dyskryminacyjnej, jak np. ma to miejsce dla parametrów x1 i x5 (zob.
równania 26 i 27). Jednakże, jeśli zmienne nie zostały uprzednio standardyzowane, wówczas
odpowiadające im współczynniki nie w pełni mówią o ich wadze.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
41
3.3 Dyskryminacyjny wariant PLS (D-PLS)
Metody wieloparametrowej regresji, takie jak PCR czy PLS, również mogą posłużyć do
konstrukcji modeli dyskryminacyjnych. Dla dwugrupowego problemu dyskryminacyjnego
modeluje się zmienną zależną y, która określa przynależność próbek do dwóch grup. Zmienna
ta może mieć postać binarną, czyli jej elementy przyjmują wartości 0 lub 1 (0 – grupa 1, 1 –
grupa 2), albo może być zmienną bipolarną, o elementach -1 lub 1 (-1 – grupa 1, 1 – grupa 2).
Oba sposoby kodowania przynależności próbek do grup są alternatywne. Gdy problem
dyskryminacji dotyczy większej liczby grup próbek, np. k grup, wówczas możliwe są dwa
podejścia:
1. konstrukcja serii modeli dyskryminacyjnych, gdzie każdy model różnicuje daną grupę
od pozostałych oraz
2. konstrukcja jednego modelu dyskryminacyjnego dla wszystkich grup próbek
równocześnie. W drugim wariancie dyskryminacji, modeluje się macierz Y o
wymiarach (m×k-1), której kolumny tworzą wektory opisujące fakt przynależności
każdej próbki do określonej grupy (0 – nie należy do k-tej grupy, 1 – należy).
Przypuśćmy, że naszym zadaniem jest budowa dyskryminacyjnego modelu dla dwóch grup
próbek. W tym celu możemy posłużyć się metodą PLS-1. Przyjmiemy, że próbki należące do
grupy 1 oznaczymy w wektorze y jako 0, a próbki z grupy 2 jako 1. Po ustaleniu optymalnej
liczby czynników do konstrukcji modelu PLS (np. używając procedurę kroswalidacji)
możemy na jego postawie przewidzieć przynależność próbek do jednej z dwóch grup. Próbki,
dla których wartości przewidzianej na podstawie modelu zmiennej y są mniejsze niż 0,5 będą
należały do pierwszej grupy, a próbki o przewidzianych wartościach y większych lub
równych 0,5 do drugiej grupy.
Jak pokazano w [63,64], metoda D-PLS jest równoważna metodzie LDA, gdyż w D-PLS
ukryte zmienne konstruuje się poprzez maksymalizację kryterium Fishera.
3.4 Metoda modelowania indywidualnych grup - SIMCA
Omówione do tej pory metody reprezentują techniki dyskryminacyjne. Inną kategorię technik
tworzą metody klasyfikacyjne, których przedstawicielem jest metoda SIMCA [14]. W
odróżnieniu od tych poprzednich, w metodach klasyfikacyjnych modeluje się indywidualne
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
42
grupy próbek. Takie podejście zakłada, że nowa próbka może być przypisana do jednej grupy,
do kilku równocześnie lub do żadnej.
Aby zrozumieć różnice między tymi dwiema grupami technik, możemy rozważyć
klasyfikację pacjentów ze względu na jeden z trzech typów nowotworów. W przypadku
konstrukcji modelu dyskryminacyjnego, każdy pacjent, bez względu na to czy jest chory czy
nie, zostanie zdiagnozowany jako cierpiący na jeden z trzech nowotworów. Jeśli do celów
diagnostycznych użyjemy model SIMCA, wówczas pacjenci zdrowi nie zostaną
sklasyfikowani jako cierpiący na żaden z trzech nowotworów. Jednakże, nie oznacza to, że
nie są chorzy na inny rodzaj nowotworu.
W metodzie SIMCA reguły klasyfikacji konstruuje się w oparciu o indywidualne modele
PCA dla każdej grupy próbek. W celu przewidzenia przynależności nowych próbek do grup
dokonuje się ich projekcji do przestrzeni zdefiniowanej przez czynniki główne każdej z grup i
przypisuje do grupy, do której ich dopasowanie jest najlepsze. Model PCA dla k-tej grupy
możemy zapisać jako:
k
X [ m ,n ] = k T[ m , f ] ⋅ k P[Tf ,m ] + E[ m ,n ]
(28)
gdzie, kX to centrowana macierz danych k-tej grupy, macierz kT zawiera w kolumnach f
wektorów wyników dla k-tej grupy, macierz kP zawiera w kolumnach f wektorów wag dla ktej grupy, a kE to macierz reszt od modelu PCA.
W celu wyznaczenia optymalnej kompleksowości modelu PCA zazwyczaj stosuje się
kroswalidację typu „wyrzuć jeden obiekt”.
Po ustaleniu optymalnej kompleksowości każdego z modeli definiuje się wartości progowe,
które pozwolą na sklasyfikowanie próbek, testując ich przynależność do każdej grupy
indywidualnie. Wyznaczenie wartości progowych dla k-tej grupy próbek można dokonać na
dwa równoważne sposoby:
sk =
m
n
∑∑ eij2 /(r − f )(m − f − 1) =
i =1 j =1
m
r
∑ ∑t
i =1 j = f +1
2
ij
/( r − f )(m − f − 1)
(29)
W powyższym równaniu, tij to element macierzy T, a r to rząd macierzy kX.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
43
Aby zapewnić dobre własności predykcyjne modelu SIMCA do obliczenia wartości
progowych w równaniu 29 powinno się uwzględnić wartości wyników uzyskane na drodze
kroswalidacji [65]. Ważnym założeniem metody SIMCA jest założenie o rozkładzie
normalnym reszt od modelu PCA, gdyż pozwala ono zastosować test F do wyznaczenia
wartości progowej reszt. W teście F przyjmuje się (r-f)/(r-f)(m-f-1) stopni swobody oraz
założony poziom istotności [66]:
skryt = Fkryt sk
(30)
W przypadku stosowania modelu SIMCA do klasyfikacji nowych próbek, obliczone dla nich
reszty od k-tego modelu PCA o określonej liczbie czynników głównych są porównane z
wartością progową dla k-tej grupy. Próbki, dla których reszty od k-tego modelu PCA o f
czynnikach są mniejsze niż wartość progowa k-tej grupy należą do tej grupy.
Przypuśćmy, że zbiór danych ma trzynaście próbek, opisanych trzema zmiennymi, a model
PCA dla tych danych ma tylko jeden czynnik główny. Na Rys. 21 przedstawiono próbki w
przestrzeni trzech zmiennych. Próbki te rozmieszczone są wzdłuż pierwszego czynnika
głównego (PC 1), wokół którego można utworzyć cylinder o promieniu równym wartości
progowej reszt, który będzie zawierał próbki zbioru modelowego k-tej grupy. Następnie
reszty od modelu k-tej grupy dla każdej próbki, ei, porównane są z wartością progową. Te
obiekty, które znajdą się wewnątrz cylindra, który reprezentuje model k-tej grupy, będą do
niej należały.
zmienna 2
skryt
ei
PC 1
zmienna 3
zmienna 1
Rys. 21 Ilustracja modelu SIMCA z jednym czynnikiem głównym dla symulowanych
trójwymiarowych danych zawierających 13 próbek.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
44
Dla nowej próbki jej wartości wyników oraz reszty od modelu PCA o f czynnikach głównych
oblicza się jak pokazano na Rys. 22.
3
1
1
PCA
X
3
3
pT
E
+
=
13
13
macierz
reszt
13
t
1
1
3
xn
3
=
tn
p
wynik dla
nowej próbki
e = Σ(xn – tnpT)2
suma kwadratów reszt
dla nowej próbki
Rys. 22 Graficzna prezentacja modelu PCA z jednym czynnikiem głównym dla danych X (13×3)
i jego użycie do przewidywania wartości reszt nowe próbki, xn, opisanej trzema zmiennymi.
Następnie, wartości reszt nowej próbki od modelu PCA dla k-tej grupy porównuje się z
odpowiednią wartością krytyczną (zob. równanie 30).
Dodatkowo, regułę klasyfikacyjną stosowaną w metodzie SIMCA możemy rozszerzyć
uwzględniając odległość próbki od środka k-tej grupy w przestrzeni k czynników głównych.
W tym celu dla każdej próbki oblicza się odległość Mahalanobisa w przestrzeni modelu PCA
o f czynnikach, skonstruowanego dla próbek modelowych k-tej grupy, kX:
MD =
−1
T
k T[ m, f ] ⋅ k V[ f, f ] ⋅ k T[ f,m ]
(31)
gdzie, kV to diagonalna macierz, która na diagonali zawiera f wartości własnych jakie
otrzymuje się na drodze dekompozycji kX.
Ze względu na wartości reszt od modelu i odległości Mahalanobisa i-tej próbki (zob. Rys. 23),
próbka:
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
45
1. (y) należy do k-tej grupy, jeśli wartości reszt od modelu i odległości Mahalanobisa są
poniżej odpowiednich wartości progowych (zob. Rys. 23), lub
2. (…) nie należy do k-tej grupy z powodu zbyt dużej wartości reszt od modelu, lub
3. (U) nie należy do k-tej grupy ze względu na zbyt duże odległości Mahalanobisa, lub
4. ({) nie należy do k-tej grupy z powodu zbyt duże wartości reszt od modelu i zbyt duże
odległości Mahalanobisa.
Wartości progowe dla reszt od modelu i odległości Mahalanobisa można stosunkowo łatwo
wyznaczyć używając ich z-transformowane wartości (zob. rozdział „Analiza czynników
głównych i inne metody eksploracji danych”). Dla wartości progowych na poziomie równym
trzy, zakładamy, iż dla 99,9% obiektów, ich z-transformowane wartości reszt i odległości
Mahalanobisa będą poniżej wartości progowych. Wyniki klasyfikacji używając metodę
SIMCA można przedstawić dla każdej grupy indywidualnie w formie tzw. diagramu
odległości, gdzie wartości z-transformowanych reszt od modelu rysuje się względem
z-transformowane reszty od modelu
z-transformowanych odległości Mahalanobisa, jak pokazano na Rys. 23.
2
3
4
1
3
3
z-transformowane odległości Mahalanobisa
Rys. 23 Diagram odległości skonstruowany dla próbek k-tej grupy
na podstawie modelu PCA z f czynnikami głównymi.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
46
3.5 Walidacja modeli dyskryminacyjnych i klasyfikacyjnych
Podobnie jak w przypadku modeli kalibracyjnych, również modele dyskryminacyjne i
klasyfikacyjne musza być odpowiednio zwalidowane, aby ilościowo ocenić moc predykcyjną
skonstruowanych reguł logicznych. W tym celu, zazwyczaj dzieli się dostępny zbiór próbek
na modelowy i testowy biorąc pod uwagę podzbiory próbek z każdej grupy osobno.
Przeważnie do zbioru modelowego wybiera się ok. 70-75% całkowitej liczby próbek z każdej
grupy, a do zbioru testowego włącza pozostałe próbki. Aby zapewnić reprezentatywność
zbioru modelowego możemy posłużyć się algorytmem Kennarda i Stona [28] oraz
algorytmem „duplex” [29]. Zbiór modelowy służy konstrukcji reguł logicznych, a użycie
zbioru testowego ma na celu oszacowanie zdolności predykcyjnych modelu. Zarówno dla
zbioru modelowego jak i testowego oblicza się procent poprawnie sklasyfikowanych próbek.
Mały procent poprawnie sklasyfikowanych próbek dla zbioru testowego może świadczyć o
np. braku reprezentatywności zbioru modelowego lub przeuczeniu modelu. W przypadku
małej liczby dostępnych próbek innym sposobem walidacji modeli jest użycie technik
kroswalidacji, w których oszacowuje się procent niepoprawnie sklasyfikowanych próbek.
Często, oprócz podania procentu poprawnie sklasyfikowanych próbek podaje się takie
wielkości jak czułość i specyficzność modelu.
Rozważmy przypadek dwóch grup próbek, oznaczonych jako A i B. Czułość modelu dla
grupy A określa procent obiektów grupy A, które na podstawie modelu dla grupy A
poprawnie zaklasyfikowano do tej grupy. Specyficzność dla grupy A to procent próbek grupy
B, które na postawie modelu dla grupy A nie zostały błędnie przypisane do grupy A. Idealny
model charakteryzuje się czułością i specyficznością równą 100%.
3.6 Przykłady konstrukcji modeli CART, LDA, D-PLS i SIMCA
W tej części przedstawimy konstrukcję wybranych modeli dyskryminacyjnych i
klasyfikacyjnych dla zbioru danych eksperymentalnych. Zbiór ten tworzy 178 próbek
należących do trzech grup włoskich win (Barolo – 59 próbek, Grignolino – 71 próbek oraz
Barbera – 48 próbek). Każdą próbkę opisuje trzynaście parametrów fizyko-chemicznych
takich jak: 1- zawartość alkoholu, 2- zawartość kwasu jabłkowego, 3- ilość popiołu, 4zasadowość popiołu, 5- zawartość magnezu, 6- całkowita zawartość fenoli, 7- zawartość
flawonoidów,
8-
zawartość
nieflawonoidowych
fenoli,
9-
zawartość
związków
proantycyjaninowych, 10- intensywność koloru próbek, 11- barwa próbek, 12- stosunek
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
47
transmitancji mierzonych dla rozcieńczonych próbek win przy 280 i 315 nm i 13- zawartość
proliny [67]. Dane są dostępne z [68].
Głównym celem będzie zbadanie czy istnieje możliwość różnienia trzech gatunków win na
podstawie ich składu chemicznego, a następnie wskazanie, które z parametrów fizykochemicznych najbardziej różnicują poszczególne grupy win. Aby ocenić zdolności
predykcyjne konstruowanych modeli, dostępne próbki podzielono na dwa zbiory: modelowy i
testowy. Do tego celu użyto algorytm „duplex” [29], który zapewnia możliwie równomierny
wybór próbek do obu zbiorów. Jeśli istnieje konieczność przygotowania danych przed
konstrukcją modeli, wówczas wybór próbek do zbiorów modelowego i testowego powinien
być przeprowadzony używając dane po transformacji, gdyż na wartości odległości
euklidesowych mają wpływ zmiany wariancji parametrów. Przygotowanie danych do dalszej
analizy powinno być prowadzone dla każdej grupy próbek osobno. Wyniki niektórych z
metod, np. metody CART i LDA, nie są uzależnione od wstępnego przygotowania danych. W
metodzie D-PLS, centrowanie danych jest obligatoryjne, a zbiór testowy centruje się średnią
zbioru modelowego. Jeśli zachodzi taka potrzeba, dodatkowo zmienne można poddać
standaryzacji, pamiętając, że zmienne w zbiorze testowym trzeba standardyzować używając
odpowiadających odchyleń standardowych zmiennych zbioru modelowego.
Ze względu na różne jednostki, w których zmierzono parametry oraz ich różną wariancję,
omawiane dane poddano autoskalowaniu. Aby zapewnić tą samą liczebność próbek w każdej
z grup, do zbioru modelowego włączono po 36 próbek win z każdej grupy, co stanowiło 75%
całkowitej liczby próbek w najmniej licznej grupie. W Tabeli 1 przedstawiono liczbę próbek
w zbiorach modelowych i testowych uwzględniając każdą grupę próbek win osobno.
Tabela 1 Liczba próbek w każdej grupie próbek win w zbiorach modelowym i testowym.
Liczba próbek
Liczba próbek
w zbiorze modelowym
w zbiorze testowym
Barolo
36
23
Grignolino
36
35
Barbera
36
12
Całkowita liczba próbek
108
70
Grupa próbek win
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
48
Całkowita liczba próbek w zbiorze modelowym wynosiła 108, a w zbiorze testowym 70.
3.6.1 Model CART
Na początku przedstawimy zastosowanie metody CART ze względu na jej atrakcyjne
własności wizualizacyjne, możliwość nadania chemicznej interpretacji wybranym zmiennym
oraz koncepcyjną prostotę. Na podstawie procedury kroswalidacji ustalono, że optymalna
kompleksowość modelu CART wynosi pięć (zob. Rys. 24a). Stosując cztery reguły logiczne
(zob. Rys. 24b), uzyskuje się błąd kroswalidacji na poziomie 8,3%, który wskazuje na
stosunkowo dobre zdolności predykcyjne modelu. Kolejne podziały próbek dokonane zostały
dla zmiennych nr 13, 7, 6 oraz 10, które odpowiadają zawartości proliny, całkowitej
zawartości flawonoidów i fenoli oraz intensywności koloru próbek. Zmienna określająca
zawartość proliny w próbkach stosunkowo skutecznie pozwala odróżnić próbki win Barolo od
pozostałych. Na podstawie skonstruowanych reguł logicznych, możemy powiedzieć, iż wina
Barolo charakteryzują się zawartością proliny powyżej 755 oraz zawartością fenoli powyżej
2,13. Aby odróżnić wina Grignolino od Barbera, konieczne było użycie dodatkowej reguły
logicznej, skonstruowanej dla zmiennej opisującej całkowitą zawartość flawonoidów w
próbkach. W winach Grignolino, zawartość proliny jest niższa niż 755, a całkowita zawartość
flawonoidów powyżej 3,37, w przeciwieństwie do win Barbera, w których całkowita
zawartość flawonoidów jest poniżej 3,37.
a)
b)
0.8
0.7
x13<755
0.6
RMSECV
0.5
x7≥1,4
x7<1,4
x13 ≥755
x6<2,13
x6 ≥2,13
0.4
0.3
x10<3,73
x10 ≥ 3,73
{0
… 31
U1
0.2
0.1
0
1
2
3
4
5
liczba węzłów terminalnych
6
7
{0
…4
U0
{0
…0
U4
{36
…1
U0
{0
…0
U 31
Rys. 24 a) Krzywa kroswalidacji i b) drzewo klasyfikacji skonstruowane dla zbioru modelowego trzech grup
próbek włoskich win: Barolo ({), Grignolino (…) i Barbera (U) z pięcioma węzłami terminalnymi.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
49
Przewidywanie przynależności nowych próbek do grup polega na rozważeniu dla każdej
próbki wszystkich reguł logicznych równocześnie. Na ich podstawie próbki zostają
przydzielone do odpowiednich węzłów terminalnych, a następnie do tej grupy, którą
reprezentuje najwięcej próbek w danym węźle. Pięć próbek zbioru testowego zostało źle
sklasyfikowanych (2 z 23 próbek win Barolo oraz 3 z 35 próbek win Grignolino), a
efektywność modelu CART jest na poziomie 92,9%. Wartości specyficzności i czułości
modelu CART dla każdej z grup przedstawiono w Tabeli 2. Metoda CART w wielu
przypadkach pozwala na konstrukcję zadowalających modeli oraz umożliwia identyfikację
zmiennych, które mają największy wkład do różnicowania grup próbek.
Jeśli skuteczne rozdzielenie grup obiektów wymaga uwzględnienia liniowych kombinacji
oryginalnych zmiennych wówczas należy oczekiwać, że wyniki CART będą gorsze niż te
uzyskane takimi metodami jak np. LDA, D-PLS czy SIMCA. W celu sprawdzenia czy
liniowe kombinacje zmiennych pozwalają uzyskać lepsze modele niż model CART
skonstruowano modele LDA, D-PLS i SIMCA.
Tabela 2 Efektywności modeli CART, LDA, D-PLS i SIMCA wyrażone w procentach otrzymane
dla danych zawierających trzy grupy próbek włoskich win.
Typ modelu
CART
LDA
D-PLS
SIMCA
92,9
100,0
Barolo względem pozostałych grup
95,7
95,5
Grignolino względem pozostałych grup
94,3
84,0
Barbera względem pozostałych grup
100,0
97,2
3.6.2 Model LDA
Model dyskryminacyjny skonstruowany techniką LDA charakteryzuje efektywność
wynosząca 100%. Na Rys. 25a przedstawiono projekcję próbek zbioru modelowego na
funkcje dyskryminacyjne 1 i 2 oraz trzy półproste dyskryminacyjne. Pomimo, że założenie o
równości macierzy wariancji-kowariacji każdej grupy próbek nie jest całkowicie spełnione
(zob. Rys. 25a), to wszystkie próbki zbioru modelowego zostały poprawnie sklasyfikowane.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
50
Skonstruowany model LDA ma znakomitą moc predykcyjną, gdyż pozwala poprawnie
sklasyfikować wszystkie próbki zbioru testowego (zob. Rys. 25b), a jego specyficzność i
selektywność wynoszą 100% (zob. Tabela 2). Z Rys. 25c i d, na którym pokazano
odpowiednio wartości współczynników pierwszej i drugiej funkcji dyskryminacyjnej,
możemy wnioskować, iż największe wkłady do tworzenia pierwszej funkcji dyskryminacyjne
mają zmienne 7, 12 i 13 (zawartość flawonoidów, stosunek transmitancji mierzonych dla
rozcieńczonych próbek win przy 280 i 315 nm i zawartość proliny), natomiast do tworzenia
drugiej funkcji dyskryminacyjnej, zmienne 1, 3 oraz 10 (zawartość alkoholu, popiołu oraz
intensywność koloru próbek). Te same zmienne zidentyfikowano jako dyskryminacyjne
używając metodę CART. Należy podkreślić, iż identyfikacja kluczowych zmiennych
dyskryminacyjnych w oparciu o współczynniki funkcji dyskryminacyjnej w przypadku
omawianych danych jest możliwa, gdyż zmienne zostały standardyzowane.
c)
-3
współczynnik funkcji dyskryminacyjnej 1
a)
funkcja dyskryminacyjna 2
-3.5
-4
-4.5
-5
-5.5
-6
-6.5
-7
-7.5
1.5
2
2.5
3
3.5
4
4.5
5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
5.5
1
2
3
4
funkcja dyskryminacyjna 1
d)
-3
funkcja dyskryminacyjna 2
-3.5
-4
-4.5
-5
-5.5
-6
-6.5
-7
-7.5
1.5
2
2.5
3
3.5
4
funkcja dyskryminacyjna 1
6
7
8
9
10
11
12
13
9
10
11
12
13
indeks zmiennej
współczynnik funkcji dyskryminacyjnej 2
b)
5
4.5
5
5.5
0.5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
1
2
3
4
5
6
7
8
indeks zmiennej
Rys. 25 a) Projekcja próbek win (Barolo ({), Grignolino (…) i Barbera (U)) zbioru a) modelowego
i b) testowego na pierwsze dwie funkcje dyskryminacyjne skonstruowane metodą LDA, c) współczynniki
pierwszej funkcji dyskryminacyjnej i d) współczynniki drugiej funkcji dyskryminacyjnej.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
51
3.6.3 Model D-PLS
Dyskryminację próbek win, stosując metodę D-PLS, przeprowadzono używając trzy
niezależne modele PLS-1, których celem była dyskryminacja określonej grupy próbek od
pozostałych. Do wyboru liczby czynników w indywidualnych modelach posłużono się
kroswalidacją typu „wyrzuć jeden obiekt”. Pierwszy model, skonstruowany by odróżnić
próbki win Barolo od pozostałych, uwzględniał siedem czynników. Wartości błędów
kroswalidacji, dopasowania modelu oraz przewidywania dla próbek testowych wynosiły
odpowiednio 0,36, 0,32 i 0,44. W przypadku modelu dla grupy win Grignolino, do
konstrukcji modelu użyto trzech czynników, co pozwoliło uzyskać błędy kroswalidacji,
dopasowania modelu oraz przewidywania dla próbek testowych na poziomie odpowiednio
0,59, 0,56 i 0,62. Dla odróżnienia próbek win Barbera od pozostałych użyto modelu z
pięcioma czynnikami. Błędy kroswalidacji, dopasowania modelu oraz przewidywania dla
próbek testowych wynosiły odpowiednio 0,38, 0,35 i 0,32. Wartości czułości D-PLS są
zbliżone do tych uzyskanych metodą CART. Natomiast w porównaniu do modelu LDA są
nieznacznie gorsze (zob. Tabela 2).
3.6.4 Model SIMCA
Jako ostatni przykład, przedstawimy wyniki klasyfikacji próbek win uzyskane techniką
SIMCA. W tej metodzie każda grupa próbek modelowana jest osobno, konstruując dla każdej
z grup model PCA. Dla wszystkich grup do budowy modelu PCA użyto dwanaście
czynników głównych. Wartości efektywności, czułości i specyficzności modeli SIMCA
przedstawiono w Tabelach 2 i 3. Przed konstrukcją modeli, dane zostały autoskalowane –
każda grupa próbek osobno. Dodatkowo, na Rys. 26 dla każdej grupy próbek przedstawiono
wyniki klasyfikacji techniką SIMCA w formie diagramów odległości. W porównaniu z
metodą CART, model SIMCA dla próbek win Barolo pozwolił na nieznaczne polepszenie
czułości i specyficzności. Dla pozostałych grup zaobserwowano nieznaczne pogorszenie w
odniesieniu do wyników uzyskanych metodami CART, LDA i D-PLS.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
52
12
c)
zbiór modelowy,'Barolo'
zbiór testowy,'Barolo'
próbki z innych grup
10
z-transformowane reszty od modelu
z-transformowane reszty od modelu
a)
8
6
4
2
0
0
5
10
15
20
35
25
20
15
10
5
0
25
zbiór modelowy,'Barbera'
zbiór testowy,'Barbera'
próbki z innych grup
30
0
z-transformowane odległości Mahalanobisa
z-transformowane reszty od modelu
b)
5
10
15
20
25
30
z-transformowane odległości Mahalanobisa
15
zbiór modelowy,'Grignolino'
zbiór testowy,'Grignolino'
próbki z innych grup
10
5
0
0
2
4
6
8
10
12
14
16
z-transformowane odległości Mahalanobisa
Rys. 26 Diagramy odległości dla modeli SIMCA z 12 czynnikami głównymi dla poszczególnych grup włoskich
win: a) Barolo, b) Grignolino i c) Barbera.
3.6.5 Podsumowanie wyników dyskryminacji i klasyfikacji dla próbek win
Ogólnie można powiedzieć, iż wyniki uzyskane różnymi technikami dyskryminacyjnymi i
klasyfikacyjnymi dla analizowanych danych wzajemnie się potwierdzają (zob. Tabele 2 i 3).
Najlepsze wyniki pod względem czułości i specyficzności dla wszystkich grup win wykazuje
model LDA. Pozostałe modele charakteryzowały się na ogół mniejszą czułością niż
specyficznością.
Wyniki
dyskryminacji
próbek
win
potwierdzają
użyteczność
skonstruowanych modeli. Model CART, jest jedynym wśród omawianych, który
bezpośrednio pozwala na wybór parametrów mających największa moc dyskryminacyjną.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
53
Tabela 3 Czułości i specyficzności modeli CART, LDA, D-PLS oraz SIMCA skonstruowanych
dla trzech grup próbek win włoskich.
Typ modelu
CART
LDA
D-PLS
SIMCA
91,3
93,6
100,0
100,0
91,3
97,9
93,3
95,8
Grignolino względem pozostałych grup
czułość (%)
specyficzność (%)
91,4
94,3
100,0
100,0
91,4
97,1
88,6
85,9
Barbera względem pozostałych grup
czułość (%)
specyficzność (%)
100,0
91,4
100,0
100,0
100,0
100,0
75,0
100,0
Barolo względem pozostałych grup
czułość (%)
specyficzność (%)
Ta własność umożliwia bezpośrednią interpretację wyników, z drugiej zaś strony, metody, w
których uwzględnia się wszystkie zmienne, choć nie mają tak prostej interpretacji jak CART,
to często pozwalają polepszyć wyniki. Dodatkowo, w metodach takich jak LDA, D-PLS czy
SIMCA można zastosować techniki wyboru zmiennych, co ułatwia ich interpretację [69].
3.7 Podsumowanie
W tej części rozdziału zaprezentowaliśmy podstawowe strategie dyskryminacji i klasyfikacji.
Ich zalety
jak i możliwe ograniczenia zilustrowaliśmy
na
przykładach danych
eksperymentalnych i symulowanych. Nasze rozważania ograniczyliśmy jedynie do liniowych
technik, jednak na uwagę zasługują także techniki nieliniowej dyskryminacji. Wśród nich są
SVM [13], RBP-PLS [70] czy SOM-PLS [71].
Często, aby polepszyć modele klasyfikacyjne i dyskryminacyjne stosuje się różnego rodzaju
techniki wyboru zmiennych, które dodatkowo otwierają możliwość łatwiejszej interpretacji
modeli. Na przykład, do wyboru zmiennych w LDA można zastosować test lambda Wilka,
kryterium Fishera, algorytm genetyczny [72], lub krokowy wariant LDA. W metodzie
SIMCA dyskryminujące zmienne można zidentyfikować oceniając ich moc dyskryminacyjną
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
54
[59]. W metodach dyskryminacyjnych takich jak, np. D-PLS czy D-PCR, wybór zmiennych
ułatwiają techniki bazujące na stabilności współczynników regresji konstruowanych modeli
[69,73].
Innym bardzo ważnym aspektem jest konstrukcja stabilnych modeli klasyfikacyjnych lub
dyskryminacyjnych dla danych, które zawierają obiekty odległe i/lub brakujące elementy.
Efektywna metodologia konstrukcji modelu SIMCA dla takich danych została opisana w
[74,75,76].
4. LITERATURA
[1] H. Hotelling, Analysis of a complex of statistical variables into principals components,
Journal of Educational Psychology, 24 (1933) 417.
[2] J.H. Friedman, W. Stuetzle, Projection pursuit regression, Journal of the American
Statistical Association, 76 (1981) 817-823.
[3] T. Kohonen, Self-organisation and associative memory, the 3rd Edition, Springer-Verlag,
Berlin, 1990.
[4] W.J. Melssen, J.R.M. Smits, L.M.C Buydens, G. Kateman; Tutorial, Using artificial
neural networks for solving chemical problems, Part II. Kohonen self-organizing feature maps
and Hopfield networks, Chemometrics and Intelligent Laboratory Systems, 23 (1994) 267291.
[5] N. Bratchell, Cluster analysis, Chemometrics and Intelligent Laboratory Systems, 6 (1989)
105-125.
[6] D.L. Massart, L. Kaufman, The interpretation of analytical data by the use of cluster
analysis, Robert E. Krieger Publishing Company, Malabar, Florida, 1989.
[7] T. Næs, T. Isaksson, T. Fearn, T. Davies, Multivariate Calibration and Classification, NIR
Publications, Chichester, 2002.
[8] H. Martens, T. Næs, Mutivariate Calibration, John Wiley & Sons, Chichester, UK, 1989.
[9] D.H. Coomans, O.Y. de Vel, Pattern analysis and classification, in J. Einax (Ed.),
Chemometrics in environmental chemistry, Part 2, Springer-Verlag, Berlin, 1995.
[10] J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wydawnictwa NaukowoTechniczne, Warszawa, 2005.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
55
[11] R. Fisher, The use of multiple measurements in taxonomic problems, Annals of
Eugenics, 7 (1936) 179-188.
[12] L. Breiman, J.H. Friedman, R.A. Olshen, C.G. Stone, Classification and regression trees,
Wadsworth International Group, Belmont, 1984.
[13] A.I. Belousov, S.A. Verzakov, J. von Frese, Applicational aspects of support vector
machines, Journal of Chemometrics, 16 (2002) 482-489.
[14] S. Wold, Pattern recognition by means of disjoint principal components models, Pattern
Recognition, 8 (1976) 127-139.
[15] M.P. Derde, D.L. Massart, UNEQ: a disjoint modelling technique for pattern recognition
based on normal distribution, Analytica Chimica Acta, 184 (1986) 33-51.
[16] R. Todeschini, D. Ballabio, V. Consonni, A. Mauri, M. Pavan, CAIMAN (Classification
And Influence Matrix Analysis): a new approach to the classification based on leveragescaled functions, Chemometrics and Intelligent Laboratory Systems, 87 (2007) 3-17.
[17] T. Czekaj, W. Wu, B. Walczak, About kernel latent variable approaches and SVM,
Journal of Chemometrics, 19 (2005) 341-354.
[18] T. Næs, T. Isaksson, B. Kowalski, Locally weighted regression in NIR analysis,
Analytical Chemistry, 2 (1990) 664-673.
[19] S. Chen, C.F.N. Cowan; P.M. Grant, Orthogonal least squares learning algorithm for
radial basis function networks, IEEE Transactions on Neural Networks, 2 (1991) 302–309.
[20] B. Walczak, D. L. Massart, The Radial Basis Functions - Partial Least Squares approach
as a flexible non-linear regression techniques, Analytica Chimica Acta, 331 (1996) 177-185.
[21] S. Białas, Macierze, wybrane problemy, Uczelniane Wydawnictwa NaukowoDydaktyczne, Kraków, 2006.
[22] N. Draper, H. Smith, Applied regression analysis, the 2nd Edition, John Wiley & Sons,
New York, 1981.
[23] B. Walczak, Wavelets in chemistry, Elsevier, Amsterdam, 2000.
[24] R.J. Barnes, M.S. Dhanoa, S.J. Lister, Standard normal variate transformation and detrending of near-infrared diffuse reflectance spectra, Applied Spectroscopy, 43 (1989) 772777.
[25] S. Wold, H. Antti, F. Lindgren, J. Öhman, Orthogonal signal correction of near-infrared
spectra, Chemometrics and Intelligent Laboratory Systems, 44 (1998) 175-185.
[26] J. Trygg, S. Wold, Orthogonal projections to latent structures (O-PLS), Journal of
Chemometrics, 16 (2002) 119-128.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
56
[27] L. Eriksson, E. Johansson, C. Wikström, Mixture design - design generation, PLS
analysis, and model usage, Chemometrics and Intelligent Laboratory Systems, 43 (1998) 124.
[28] R.W. Kennard, L.A. Stone, Computer aided design of experiments, Technometrics, 11
(1969) 137-148.
[29] R.D. Snee, Validation of regression models: methods and examples, Technometrics, 19
(1977) 415-428.
[30] M. Daszykowski, B. Walczak, D.L. Massart, Representative subset selection, Analytica
Chimica Acta, 468 (2002) 91-103.
[31] I.E. Frank, J.H. Friedman, A statistical view of some chemometrics regression tools,
Technometrics, 35 (1993) 109-148.
[32] K. Esbensen, Multivariate analysis in practice, Wennbergs Trykkeri AS, Trondheim,
1994.
[33] Q-S. Xu, Y.-Z. Liang, Monte Carlo cross validation, Chemometrics and Intelligent
Laboratory Systems, 56 (2001) 1-11.
[34] N.M. Faber, R. Rajkó, An evergreen problem in multivariate calibration, Spectroscopy
Europe, 18 (2006) 24-28.
[35] S. Wiklund, D. Nilsson, L. Eriksson, M. Sjöström, S. Wold, K. Faber, A randomization
test for PLS component selection, Journal of Chemometrics, 21 (2007) 427-439.
[36] X. Capron, B. Walczak, O.E. de Noord, D.L. Massart, A modification of ICOMP
criterion for estimation of PCR model complexity, Journal of Chemometrics, 19 (2005) 308316.
[37] S. Frosch Møller, J. von Frese, R. Bro, Robust methods for multivariate data analysis,
Journal of Chemometrics, 19 (2005) 549-563.
[38] M. Daszykowski, Y. Vander Heyden, B. Walczak, Robust partial least squares model for
prediction of green tea antioxidant capacity from chromatograms, Journal of Chromatography
A, 1176 (2007) 12-18.
[39] Y. Mallet, D.H. Coomans, O.Y. de Vel, Robust and non-parametric methods in multiple
regression of environmental data, in J. Einax (Ed.), Chemometrics in Environmental
chemistry, Part 2, Springer-Verlag, Berlin, 1995.
[40] M. Daszykowski, M.I. Wróbel, H. Czarnik-Matusewicz, B. Walczak, Near-infrared
reflectance spectroscopy and multivariate calibration techniques applied to model the protein,
fiber and fat contents in rapeseed meal, The Analyst, w druku.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
57
[41] M. Daszykowski, M.I. Wróbel, H. Czarnik-Matusewicz, B. Walczak, Identifying the type
of feed used for raising pigs on the basis of the near-infrared reflectance spectra of liver
samples – a pilot study, Analytica Chimica Acta, artykuł skierowany druku.
[42] J.A. Gil, R. Romera, On robust partial least squares methods, Journal of Chemometrics,
12 (1998) 365-378.
[43] B. Walczak, Outlier detection in bilinear calibration, Chemometrics and Intelligent
Laboratory Systems, 29 (1995) 63-73.
[44] B. Walczak, D.L. Massart, Robust principal components regression as a detection tool
for outliers, Chemometrics and Intelligent Laboratory Systems, 27 (1995) 41-54.
[45] S. Serneels, C. Croux, P. Filzmoser, P.J. Van Espen, Partial robust M-regression,
Chemometrics and Intelligent Laboratory Systems, 79 (2005) 55-64.
[46] M. Forina, S. Lanteri, M.C.C. Oliveros, C.P. Millan, Selection of useful predictors in
multivariate calibration, Analytical and Bioanalytical Chemistry, 380 (2004) 397-418.
[47] R. Leardi, A. Lupiáñez, Genetic algorithms applied to feature selection in PLS
regression: how and when to use them, Chemometrics and Intelligent Laboratory Systems, 41
(1998) 195-207.
[48] R. Leardi, Application of genetic algorithm-PLS for feature selection in spectral data sets
Journal of Chemometrics, 14 (2000) 643-655.
[49] V. Centner, D.L. Massart, O.E. de Noord, S. de Jong, B. Vandeginste, C. Sterna,
Elimination of uninformative variables for multivariate calibration, Analytical Chemistry, 68
(1996) 3851-3858.
[50] R. Wehrens, H. Putter, L.M.C. Buydens, The bootstrap: a tutorial, Chemometrics and
Intelligent Laboratory Systems, 54 (2000) 35-52.
[51] E. Anderssen, K. Dyrstad, F. Westad, H. Martens, Reducing over-optimism in variable
selection by cross-model validation, Chemometrics and Intelligent Laboratory Systems, 84
(2006) 69-74.
[52] O. Svensson, T. Kourti, J.F. MacGregor, An investigation of orthogonal signal correction
algorithms and their characteristics, Journal of Chemometrics, 16 (2002) 176-188.
[53] B.S. Dayal, J.F. MacGregor, Improved PLS algorithms, Journal of Chemometrics, 11
(1997) 73-85.
[54] A.J. Burnham, R. Viveros, J.F. MacGregor, Frameworks for latent variable multivariate
regression, Journal of Chemometrics, 10 (1996) 31-45.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
58
[55] S. de Jong, SIMPLS: an alternative approach to partial least squares regression,
Chemometrics and Intelligent Laboratory Systems, 18 (1993) 251-263.
[56] L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, Classification and Regression
Trees, Wadsworth and Brooks/Cole Advanced Books and Software, Monterey, 1984.
[57] G. McLachlan, Discriminant analysis and statistical pattern recognition, Wiley, New
York, 1992.
[58] G.E.P. Box, Non-normality tests on variances, Biometrika, 40 (1953) 318-335.
[59] B.G.M. Vandeginste, D.L. Massart, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. SmeyersVerbeke, Handbook of chemometrics and qualimetrics: part B, Elsevier, Amsterdam, 1998.
[60] J.H. Friedman, Regularized dyscriminant analysis, Journal of Statistical American
Association, 84 (1989) 165-175.
[61] T. Næs, U. Indahl, A unified description of classical classification methods for
multicollinear data, Journal of Chemometrics, 12 (1998) 205-220.
[62] W. Wu, Y. Mallet, B. Walczak, W. Penninckx, D.L. Massart, S. Heuerding, F. Erni,
Comparison of regularized discriminant analysis, linear discriminant analysis and quadratic
discriminant analysis, applied to NIR data, Analytica Chimica Acta, 326 (1996) 257-265.
[63] E.K. Kimsley, Discriminant analysis of high-dimensional data: a comparison of principal
components analysis and partial least squares data reduction methods, Chemometrics and
Intelligent Laboratory Systems, 33 (1996) 47-61.
[64] M. Barker, W. Rayens, Partial least squares for discrimination, Journal of Chemometrics,
17 (2003) 166-173.
[65] R. De Maesschalck, A. Candolfi, D.L. Massart, S. Heuerding, Decision criteria for soft
independent modelling of class analogy applied to near infrared data, Chemometrics and
Intelligent Laboratory Systems, 47 (1999) 65-77.
[66] M.P. Derde, D.L. Massart, Comparison of the performance of the class modelling
techniques UNEQ, SIMCA, and PRIMA, Chemometrics and Intelligent Laboratory Systems,
4 (1988) 65-93.
[67] M. Forina, C. Armanino, M. Castino, M. Ubigli, Multivariate data analysis as a
discriminating method of the origin of wines, Vitis, 25 (1986) 189-201.
[68] http://michem.disat.unimib.it/chm/download/webdatasets/Wines.txt
[69] I. Stanimirova, A. Kubik, B. Walczak, J.W. Einax, Discrimination of biofilm samples
using pattern recognition techniques, Analytical and Bioanalytical Chemistry, 390 (2008)
1273-1282.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
59
[70] B. Walczak, D.L. Massart, Application of Radial Basis Functions - Partial Least Squares
to non-linear pattern recognition problems: diagnosis of process faults, Analytica Chimica
Acta, 331 (1996) 187-193.
[71] W. Melssen, B. Üstün, L. Buydens, SOMPLS: a supervised self-organising map-partial
least squares algorithm for multivariate regression problems, Chemometrics and Intelligent
Laboratory Systems, 86 (2007) 102-120.
[72] R. Leardi (Ed.), Nature-inspired methods in chemometrics: genetic algorithms and
artificial neural networks, in Data Handling in Science and Technology series, vol. 23,
Elsevier, Amsterdam, 2003.
[73] V. Centner, D.L. Massart, O.E. de Noord, S. de Jong, B. Vandeginste, C. Sterna,
Elimination of uninformative variables for multivariate calibration, Analytical Chemistry, 68
(1996) 3851-3858.
[74] I. Stanimirova, M. Daszykowski, B. Walczak, Dealing with missing values and outliers
in principal component analysis, Talanta, 72 (2007) 172-178.
[75] M. Daszykowski, K. Kaczmarek, I. Stanimirova, Y. Vander Heyden, B. Walczak, Robust
SIMCA - bounding influence of outliers, Chemometrics and Intelligent Laboratory Systems,
87 (2007) 121-129.
[76] I. Stanimirova, B. Walczak, Classification of data with missing elements and outliers,
Talanta, 76 (2008) 602-609.
I. Stanimirova, M. Daszykowski, B. Walczak, Metody uczenia z nadzorem – kalibracja, dyskryminacja
i klasyfikacja, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008
60

Similar documents

Analiza czynników głównych i inne metody eksploracji danych

Analiza czynników głównych i inne metody eksploracji danych Każde dane analityczne obarczone są błędem pomiarowym, dlatego macierz danych możemy przedstawić jako sumę dwóch komponentów, co pokazano na Rys. 1b. Często zamiast słowa próbki używa się terminu o...

More information