莊麗月 吳國銓 張學偉
Transcription
莊麗月 吳國銓 張學偉
The 27th Workshop on Combinatorial Mathematics and Computation Theory 機器學習用於疾病預測 莊麗月 吳國銓 張學偉 楊正宏 義守大學 國立高雄應用科技大學 高雄醫學大學 稻江科技暨管理學院 化學工程系 資訊工程系 生物醫學暨環境生物系 網路系統學系 chuang@isu.edu.tw 1097308101@cc.kuas.edu.tw changhw@kmu.edu.tw 國立高雄應用科技大學 電子工程系 chyang@cc.kuas.edu.tw 摘要 訊學分析 SNP 在正常個體與病患間關聯性,這種人 類多基因遺傳病變的研究不僅可找出影響骨質疏 本文利用機器學習方法針對疾病之單核苷酸 鬆症、糖尿病或乳癌等常見之重大疾病的致病基 多型性資料集進行特徵選取及分類。針對本文收集 因,並可針對個人體質不同來實施個人化疾病預防 之疾病樣本,嘗試探討由文獻中取得與疾病相關的 與治療。SNP 是由 E. Lander 於 1996 年所提出,稱 單核苷酸多型性使用粒子族群最佳化作為特徵選 為「第三代 DNA 遺傳標記」 ,指的是在同一物種而 取及參數最佳化之方法,以 K 最近鄰居法作為評估 不同個體間的基因體內某單一核苷酸不相同,其在 標準,進行疾病的預測,並與其他分類方法做比 群體間分佈的對偶基因比率至少大於 1%。也就是 較。結果顯示,本研究方法其正確率不但優於其他 說在 50 個個體中,該差異位點至少要出現 1 次以 分類方法,並能有效的挑選出重要性較高的單核苷 上(因為一個人有雙套對偶基因),如此才不會將偶 酸多型性。 發突變的位點當成 SNP。 機器學習(machine learning)是一個新興且極具 關鍵詞:機器學習、單核苷酸多型性、粒子族群最 佳化、K 最近鄰居法。 潛力的領域,其結合了統計、數學與資訊科學等學 門。機器學習是研究如何讓電腦具有學習能力,從 1 前言 以往的經驗、資料中學習到知識,以增進電腦本身 效能。機器學習方法已廣泛應用於各領域,其中最 自 DNA 發現以來,世界上有許多生物學家開 具代表性為資料探勘(data mining)。人們往往在錯誤 始對研究 DNA、基因解碼產生濃厚的興趣,紛紛投 分析過程中,試圖在各種特徵中建立其關聯性,這 入所謂“遺傳工程”領域,進而成為當下相當熱門的 使得在解決某些問題時遇到困難,而機器學習卻可 話題。其中,人類基因體計畫的進行,目的是為了 成功地應用於這些問題[3]。本研究分別收集了 554 完全解讀人類遺傳圖譜,並破解其基因密碼,最終 個乳癌或非乳癌樣本及 304 個骨質疏鬆症或非骨質 得以解讀基因體核苷酸序列,並鑑別所有人類基因 疏鬆症樣本,利用現有的樣本使用機器學習方法, 之功能。目前在全球科學家的努力下已步入後基因 以達到預測效果。本文利用粒子族群最佳化(Particle 體世代,此後,其主要的工作是利用這些序列探索 Swarm Optimization, PSO)作為特徵選取方法,以 K 該資訊的涵義。其中,分析人類基因序列的變異, 最近鄰居法(K Nearest Neighbor, KNN)作為特徵選 如 研 究 單 核 苷 酸 多 型 性 (Single Nucleotide 取後的評估標準,並將 K 最近鄰居法重要參數 K Polymorphisms, SNPs) 對 於 人 類 疾 病 關 聯 性 之 分 之設定,設計於粒子族群最佳化中,使粒子族群最 析,另有研究指出 SNP 為人類相關性疾病研究的重 佳化達到特徵選取及參數最佳化之目的,最後本研 要指標[1, 2]。利用 SNP 資料來研究遺傳流行病學 究採用 Weka (成熟應用於資料探勘的軟體) [4]進行 的複雜疾病成為近來相當熱門的領域。透過生物資 驗證及比較。 50 The 27th Workshop on Combinatorial Mathematics and Computation Theory 2 研究方法 化(Binary Particle Swarm Optimization, BPSO) [7]。 BPSO 之粒子設計為 xi∈{0, 1},而速度 vi 之更新與 2.1 粒子族群最佳化 方程式(1)相同。在此將速度 vi 視為一個機率值介於 PSO[5]由 Eberhart 和 Kennedy 兩位學者提出, 0 到 1 之間,利用速度 vi 來判斷粒子的位置是否改 最初概念源自鳥類和魚類族群之特性所發展出的 變,而使 vi 成為一個機率值可套入 Sigmoid 函數, 一種最佳化演算法。在 PSO 中每個粒子均為一個解 如方程式(3)所示: (即鳥群裡的每隻鳥),這些粒子和基因演算法中的 S ( vidnew ) = 染色體具有相同意義。PSO 和基因演算法最大差異 0.0025 之間,再藉由隨機產生之亂數 randi 來判斷 藉由選擇、交配、突變進行世代替換,而產生較佳 粒子位置是否改變,位置改變如方程式(4)所示: 的子代。不同於基因演算法,PSO 每個粒子在各自 if (rand id < S (vidnew )) 搜尋解的經驗中,個體最佳的經驗稱之為 pBest, than xidnew = 1, else xidnew = 0 而在所有粒子中最佳的經驗則稱之為 gBest。根據 這兩種經驗來決定飛行速度及移動方向,而決定所 2.2 在位置。在每一次迭代中,粒子都必須根據 pBest (4) K 最近鄰居法 K 最近鄰居法是由 Fix 和 Hodges 在 1951 年所 及 gBest 進行目前位置及速度的更新。假設 Ndim 為 問題的空間維度(即搜尋空間 ℜ (3) new 其中若使 vmax = 6 可使 S (vidnew ) 介於 0.9975 至 則是在於演化方式,基因演算法主要是基於母代, N dim 1 1 + e − vid 提出的[8]。在 K 最近鄰居法的訓練資料中,每一個 ),Np 為粒子 P = 資料點都依照本身的特徵維度被定義在一個 D 維 {p1, p2, …, pNp}的數量,而每個粒子 Pi = (Xi, Vi, 的空間中,而 K 所代表的是測試資料在 D 維空間 pBesti) , 其 中 包 含 搜 尋 空 間 之 當 前 位 置 裡所尋找的 K 個最近的鄰居,K 最近鄰居法的分類 ( X i ∈ ℜ N dim ) 、 速 度 ( Vi ∈ ℜ N dim ) 及 個 體 最 佳 經 驗 效果就是受到這 K 個鄰居的數量影響[8],而鄰居 ( pBest i ∈ ℜ N dim )。為了避免過於混亂的搜尋,一般 的計算方式是根據歐幾里德距離,利用此種方式針 會將 Xi 限定在[xmin, xmax],而 Vi 則為[-vmax, +vmax]。 對測試資料與訓練資料進行相似性的量測,統計 K 其中文獻[6]將更新公式引進慣性權重 w,使粒子在 個鄰居中各類別出現的頻率,將測試資料的類別定 搜尋全域最佳解及區域最佳解間取得平衡,公式如 義為出現頻率最高之類別,藉此達到分類的目的。 下所示: vidnew = w ⋅ xidold + c1 ⋅ rand1 ( ) ⋅ ( pBest − xidold ) + c2 ⋅ rand 2 ( ) ⋅ ( gBest − xidold ) xidnew = xidold + vidnew 假設 m 筆訓練資料(ai, bi)以及測試資料 a,其中 i = 1, 2, …, n,n 為資料量;bi 為資料 ai 之類別;a 為特徵 (1) 向量。距離的量測值定義如下: (2) d d (a, ai ) = 其中 V idnew 代表粒子更新後速度, v idold 代表粒子 ∑ (a , j aij ) 2 (5) j =1 更新前速度。 x idnew 代表粒子更新後位置, x idold 則代 其中,d 為特徵向量的維度。最近鄰居法規則 表粒子更新前位置。 pBest− xidold 是粒子本身最佳的位 為 nnr(a) = bk,其中 k = arg mini d(a, ai)。當最近鄰 置和粒子當前所在位置之間的距離, gBest− xidold 是截 居法參數 K > 1 則利用投票策略。例如當 K = 3 時, 至目前迭代為止之粒子最佳的位置和粒子當前所 計算出測試資料與訓練資料中三個最小的距離量 在位置之間的距離( gBest i ∈ ℜ N dim )。w 為慣性權 測值。假設類別 A 包含兩個最小的距離量測值,而 重,一般介於 0.8 到 1.2 之間。c1 和 c2 為學習因數, 類別 B 只有一個,則判斷為 A 類別 其範圍為 0~4,一般均設定為 2。rand1( )、rand2( )、 randid 均為介於 0 至 1 之間均勻分佈的隨機變數。 2.3 BPSO 應用於特徵選取及最佳化參數 為了使粒子族群最佳化能解離散問題,由原先 本研究主要提出以粒子族群最佳化找出最佳 實數編碼改為二進制編碼,稱二進制粒子族群最佳 51 The 27th Workshop on Combinatorial Mathematics and Computation Theory 特徵集合及 K 最近鄰居法之參數 K,利用 K 最近鄰 x1k ...xki ...xknk 居法所計算出預測正確率作為適應函數值。以下詳 x1f ...x if ...x f f n 圖 1 粒子編碼示意圖 細介紹本研究的方法:方法之流程及架構、粒子編 x1k ...xki ...xknk 為參數 K 之編碼; x1f ...x if ...x f f 為特徵之 n 碼、族群初始化及適應函數。 編碼。其中 nk 是參數編碼位元的長度,在本文設為 i) 流程及架構 5 位元(即 K∈{1, 3, …, 61})。而 nf 則是特徵數的位 粒子族群最佳化找出最佳特徵子集合及 K 最 元長度,依據資料的形態而有所變動,如本文乳癌 資料特徵數為 13。 近鄰居法參數 K,其流程簡述如下: 第一部份 - 資料處理 iii) 族群初始化 將資料隨機分成訓練及測試資料集 (訓練與測 試資料比為 2:1),由訓練資料集利用演算法透過 依設定的族群數 P 及編碼長度 l,利用隨機方 m-Fold 交叉驗證法(m-Fold cross validation, m-Fold 式產生 P 個粒子(即 P 個解),產生之位元字串由{0, CV)[9]進行正確率評估,找出最佳特徵子集合及 K 1}所組成,每個粒子之初始速度 V 為隨機產生[0, 1] 最近鄰居法參數 K。之後再利用測試資料驗證演算 間的數值。 法效能。 iv) 適應函數 第二部份 - 演算法 利用每個粒子位置,取出資料的特徵子集合及 1) 族群初始化:隨機產生粒子的位置及速度。 2) 粒子解碼:將粒子位元解碼,粒子前 nk 個位元 K 最近鄰居法之參數 K,利用訓練資料集以 m-Fold (其中 nk ∈ N),代表 K 最近鄰居法之參數 K (即 交叉驗證法進行訓練及預測,最後獲得預測正確率 K ∈ {1, 3, …, ( 2 × 2 nk − 1 )});其餘位元為特 作為每個粒子的適應函數值,如下所示。 徵,其解碼方式即當位元為 0 時表示此特徵未 fitness(xid) =Accuracy KNN with m-Fold cross validation (6) 選取,反之則表示此特徵被選取。 3 結果與討論 3) 計算適應函數:以 m-Fold 交叉驗證法並利用 K 最近鄰居法獲得之正確率作為適應函數值。 3.1 實驗描述 4) 更新 pBest 及 gBest:粒子目前位置之適應值, 與本身及群體最佳值比較,若當前解比本身最 本文實驗資料經高雄醫學大學人體試驗委員 佳解好,則當前解為 pBest。若此 pBest 為所有 會認可使用,其中包含乳癌及骨質疏鬆症資料集: 群體最佳解,則當前解為 gBest。 資料集 1 - 乳癌相關資料集 內含 220 個病理學上證實為罹患乳癌的女性病 5) 更新粒子目前位置:利用公式(1)、(3)及(4)更新 患(平均年齡為 53.3±11.7 歲),334 個來自身體的例 粒子之速度及位置。 行檢查或一般小手術的非乳癌女性 ( 平均年齡為 6) 停止條件:當迭代次數達設定次數則停止;否 44.3±13.0 歲),共 554 個樣本[10]樣本的屬性分別為 則跳到步驟 3,直到符合停止條件為止。 7) 最佳參數及特徵:經過粒子族群最佳化後,會 年齡及 7 個 SNP (CD4、CCR7、CXCR4、CXCL12、 得到一組最佳化解,其中包含 K 及特徵子集合。 VEGFA、MMP2 及 KITLG,詳見表 1)共 8 個特徵。 而 SNP 的基因型(genotype)為字母型態,因此資料 ii) 粒子編碼 型態轉換由表 1 可知,如 SNP1 基因型裡 AA =-1、 由於考慮 K 最近鄰居法的參數 K 會因為資料分 佈關係,而使分類效果不同。因此我們在編碼上除 AT = 0、TT = 1。 了資料特徵外,另外亦加入 K 最佳鄰居法之參數 資料集 2 - 骨質疏鬆症相關資料集 共收集 50 名停經前(平均年齡 43 歲)和 254 名 K,每一個粒子之編碼方式如圖 1 所示。 52 The 27th Workshop on Combinatorial Mathematics and Computation Theory 停經後婦女 (平均年齡 59 歲)參與了這項研究(停經 的情況下,本研究提出以 K 最近鄰居法作為研究方 後婦女的定義是超過 6 個月沒有月經的發生或年齡 法,由表 3 可知,我們的方法能獲得較佳的正確率。 超過五十歲)[11]。樣本屬性分別為年齡、是否停經 及 11 個 SNP (如表 2 所示)共 13 個特徵。而 SNP 基 3.4 討論 因型為字母型態,其資料型態轉換由表 2 可知,例 在最佳化演算法方面,粒子族群最佳化的優點 如 SNP1 基因型裡 TT = -1、CT = 0、CC = 1。 除了演化方式簡單且易實現外,其搜尋範圍廣且快 速收斂。其快速收斂的特性可彌補高運算量的支持 3.2 正確率評估 向量機,而搜尋範圍廣,能使特徵選取及參數最佳 本研究採用醫學診斷二類別分類問題中最常 化能獲得更有效的搜尋。此外粒子族群最佳化演算 使用的評估方式,分別為:陽性猜中率(Positive hit 法亦有些重要參數,包括族群數 P、慣性權重 w、 rate),即敏感度(Sensitivity)、陰性猜中率(Negative 學習因子 c1、c2 以及迭代次數,其中族群數若設定 hit rate) ,即特異度 (Specificity) 及正確率 (Accuracy 太大會造成運算時間過於冗長,反之則無法在解空 rate)。如表 3 所示,"+"為有病(罹患乳癌)、"-"為沒 間找到最佳解,文獻[13]建議族群數設定為 50 即可 病(未罹患乳癌)。若正確預測出有病稱真陽性(True 獲得較好的結果,因此本研究中族群數 P 設定為 Positive, TP),然而,當預測沒病但實際上有病則稱 50。而 w、c1、c2 的參數則是影響粒子族群最佳化 偽陰性(False Negative, FN)。相對地,若正確預測出 的收斂效果,各設定為 w = 1.0,c1 = c2 = 2,若設定 沒病稱真陰性(True Negative, TN),當預測有病但實 過大會造成粒子移動的速度過快,導致無法找到最 際上沒病則稱假陽性(False Positive, FP)。在資料探 佳解;反之若設定過小,則使粒子移動過慢,搜尋 勘領域裡,一般的正確率算法為: 出最佳解則需花費冗長的運算時間[6]。 Accuracy rate = TP + TN TP + FP + FN + TN 在機器學習中,對於分類器 K 最近鄰居法參數 (7) K 之最佳選擇完全根據資料集的分佈。一般而言, 公式(7)可評估分類器的正確率[4]。對於分類器 較大 K 值能減少資料在分類上的雜訊干擾,但較小 而言以 TP、FP 較為重要[12],而敏感度與特異度 K 值對於分類上的界限較為明顯。此外 Ghosh [14] 則是區分分類器對於有病或沒病的效果。敏感度是 指出最佳的 K 值取決於特定的資料集,需利用訓練 + + 正 確 預 測 有 病 的 比 例 , 其 公 式 為 P(T |D ) = 資料集進行觀測而得知。另一方面,K 最近鄰居法 TP/(TP+FN)。特異度是正確預測沒病的比例,其公 之時間複雜度為 O(Kn log n),由此可知參數 K 將直 - - 式為 P(T |D ) = TN/(TN+FP)。 接影響 K 最近鄰居法的執行效率,因此本文將粒子 族群最佳化之粒子編碼加入參數 K。 在資料集裡利用既有樣本之特徵 ( 如年齡、 3.3 結果 本研究利用 Weka 中現有分類器,包含 K 最近 SNP),以特徵選取方法選出這些重要特徵。對於特 鄰居法、C4.5 演算法、支持向量機、隨機森林及貝 徵選取問題而言,以骨質疏鬆症 13 個特徵為例, 氏分類器,資料以 2:1 比例隨機分成訓練及測試 共有 213 = 8192 種組合。在不同的特徵組合及不同 資料進行預測,每個方法均實驗 10 次,取平均進 的 K 之設定,會獲得不同的結果。因此本文參考文 行結果比較。表 3 顯示出本研究方法結果優於其他 獻[15]染色體的設計,將參數設為搜尋解的空間, 分類方法,相較於 K 最近鄰居法之參數 K 設定為 以最佳化演算法取代參數手動設定,在本文搜尋空 1、3 及 5,本研究方法除省去手動設定參數 K,經 間共 213+5 =262144 種組合,而我們利用粒子族群最 特徵選取的挑選後,能獲得較好的結果。在分類器 佳化進行搜尋,共 Psize × Isize = 5000 組解即可得較 的選擇,一般支持向量機之結果會比 K 最近鄰居法 佳的結果,而省去使用暴力演算法消耗多餘時間。 優異,然而 K 最近鄰居法在設計容易且複雜度較小 在本文所獲得之預測正確率,乃利用有限樣本以及 53 The 27th Workshop on Combinatorial Mathematics and Computation Theory 與骨質疏鬆症有關聯性的 SNP,進行機器學習訓練 swarm optimizer," in IEEE International 與測試所獲得。其結果可供生物學家參考,倘若配 Conference on 合臨床實驗證明、骨質疏鬆症資訊相關的搜集及更 Anchorage, AK, 1998, pp. 69-73. [7] 多可用的樣本,可使本研究方法更強健、穩固且更 Evolutionary Computation, J. Kennedy and R. C. Eberhart, "A discrete binary version of the particle swarm algorithm," 可靠。 in IEEE International Conference on Systems, 4 結論 Man, and Cybernetics. vol. 5 Orlando, FL, 1997, pp. 4104-4108 [8] 本研究利用乳癌及骨質疏鬆症資料集為實驗 E. Fix and J. Hodges, "Discriminatory Analysis. 標的,目的在於利用 SNP 資訊亦能有效做為疾病之 Nonparametric 預測,並驗證我們的方法能有效的提升預測能力及 Properties," Technical Report. USAF School of SNP 之挑選。結果顯示,本研究方法能獲得較佳的 Aviation Medicine, Randolph Field, TX. 1951. [9] 預測正確率。我們希望此項成果可以供往後醫學預 M. Stone, Discrimination: "Cross-validatory Consistency choice and 測乳癌或供生物學家對於疾病之預測或 SNP 挑選 assessment of statistical predictions," Journal 使用。未來的研究方向,將多與生物學家合作,利 of the Royal Statistical Society, vol. 36, pp. 用有效的機器學習方法進行其他疾病的預測或取 111-147, 1974. 得更多 SNP 資料,挑選出有意義的資訊。 [10] G.-T. Lin, H.-F. Tseng, C.-H. Yang, M.-F. Hou, L.-Y. Chuang, H.-T. Tai, M.-H. Tai, Y.-H. 參考文獻 Cheng, C.-H. Wen, C.-S. Liu, C.-J. Huang, C.-L. Wang, and H.-W. Chang, "Combinational [1] [2] [3] [4] I. C. Gray, D. A. Campbell, and N. K. Spurr, polymorphisms of seven cxcl12-related genes "Single nucleotide polymorphisms as tools in are protective against breast cancer in Taiwan," human genetics," Human Molecular Genetics, OMICS: A Journal of Integrative Biology, vol. vol. 9, pp. 2403-2408, 2000. 12, pp. 1-8, 2009. [11] B. S. Shastry, "SNP alleles in human disease and evolution," Journal of Human Genetics, vol. Chuang, C.-S. Liu, C.-H. Yang, C.-J. Tu, E.-C. 47, pp. 561-566, 2002. Wang, H.-F. Tan, C.-C. Chang, C.-H. Wen, S. B. Kotsiantis, "Supervised Machine Learning: H.-C. A Review of combinations in chromosome-wide genes are Classification Techniques," and H.-W. Chang, "SNP associated with bone mineral density in I. H. Witten and E. Frank, Data Mining: Taiwanese Practical Physiology, vol. 51, pp. 32-41, 2008. Machine Learning Tools and [12] women," Chinese Journal of K. Woods and K. W. Bowyer, "Generating ROC Kaufmann, 2005. curves for artificial neural networks," IEEE J. Kennedy and R. Eberhart, "Particle swarm Transactions on Medical Imaging, vol. 16, pp. optimization," 329-337, 1997. in IEEE International [13] Conference on Neural Networks. vol. 4 Perth, [6] Chen, Informatica, vol. 31, pp. 249-268, 2007. Techniques, 2 ed. San Francisco: Morgan [5] G.-T. Lin, H.-F. Tseng, C.-K. Chang, L.-Y. D. Bratton and J. Kennedy, "Defining a WA, 1995, pp. 1942-1948. Standard for Particle Swarm Optimization," in Y. Shi and R. C. Eberhart, "A modified particle IEEE International Conference on Swarm 54 The 27th Workshop on Combinatorial Mathematics and Computation Theory 3113-3123, 2006. Intelligence Symposium, Honolulu, HI, 2007, [15] pp. 120-127. [14] C.-L. Huang and C.-J. Wang, "A GA-based A. K. Ghosh, "On optimum choice of k in feature selection and parameters optimization nearest neighbor classification," Computational for support vector machines," Expert Systems Statistics & Data Analysis, vol. 50, pp. with Applications, vol. 31, pp. 231-240, 2006. 表 1 乳癌 SNP 資料型態 SNP Chr. Gene (location) SNP rs# 1 2 3 4 5 6 7 12 17 2 10 6 16 12 CD4 (intron 3) CCR7 (intron 1) CXCR4 (I124I) CXCL12 (3'UTR) VEGF (C936T) MMP2 (T460T) KITLG (intro 1) rs12812942 rs3136685 rs2228014 rs1801157 rs3025039 rs2287074 rs10506957 Legends: Genotype -1 0 -1 AA AT TT AA AG GG CC CT TT AA AG GG CC CT TT AA AG GG CC CT TT Data source[10]. 表 2 骨質疏鬆症 SNP 資料型態 Genotype -1 0 -1 1 6 TNFα-857 rs1799724 TT TC CC 2 19 TGFβ1-509 rs1800469 TT TC CC 3 1 Osteocalcin rs1800247 CC CT TT 4 6 TNFα-308 rs1800629 AA AG GG PTH (BstBⅠ) 5 11 rs6254 GG AG AA PTH (DraⅡ) 6 11 rs6256 AA AC CC 7 2 IL1_rac VNTRb A1A1 A1A2 A1A4 8 6 HSP70 hom rs2227956 CC CT TT 9 6 HSP 70-2 rs1061581 GG AG AA 10 7 CTR rs1801197 CC CT TT 11 14 BMP-4 rs17563 CC CT TT Legends: a Data source [11]; b Variable number tandem repeats; cIL1_ra genotype: A1, 410 bp; A2, 240bp; and A4, 325 bp. SNP Chr. Gene (location) SNP rs# 表 3 各分類器應用於乳癌、骨質疏鬆症資料集之預測結果 乳癌 骨質疏鬆症 分類器 敏感度 特異度 正確率 敏感度 特異度 正確率 1-NN 43.70 63.17 55.65 49.34 74.32 65.15 3-NN 41.54 61.75 54.08 52.67 74.01 66.53 5-NN 42.36 62.04 55.38 59.35 75.59 70.50 C4.5 49.32 65.82 60.05 58.28 77.20 70.30 RF 50.82 67.76 60.87 53.43 77.72 67.52 NB 53.14 65.59 62.07 66.97 76.46 73.47 SVM 55.53 63.48 61.68 76.77 74.06 68.89 BPSO-KNN 56.48 68.85 65.14 62.88 78.22 75.35 Legends: (1)NN: Nearest Neighbor; (2)RF: Random forest; (3)NB: Naïve Bayes; (4)SVM: Support Vector Machine; (5)BPSO-KNN: our propose approach. 55