集成學習(Ensemble learning)是機器學習中「監督學習」的一支,顧名思義,乃是集結多種學習演算法,進而成為一個能獲得更好預測效能的演算法的概念。這次我們就來簡單談談集成學習中的常用工具:Boosting、AdaBoost、GBDT、XGBoosting與LightGBM(LGBM)。
首先,Boosting(中文譯做提升方法)演算法,Boosting源起於1990年代,由美國電腦科學家沙皮爾(Robert Schapire)所提出。Boosting是將許多的弱分類器,集合成在一起,進而變成一個強分類器。靠著這些弱分類器的「團隊合作」,以達到「三個臭皮匠,勝過一個諸葛亮」的效果。
到了1995年,亞夫‧佛洛依(Yoav Freund)和沙皮爾再次改進了Boosting演算法的一些缺點,提出了AdaBoost(適應性提升)演算法。在當時,Adaboost、隨機森林與支持向量機,三者並駕其驅,算是最好的分類器。
後來,2001年,美國史丹佛大學的統計學教授,傑羅姆·傅利曼(Jerome H. Friedman)提出了GBDT(梯度提升決策樹,Gradient Boosting Decision Tree)的概念,主要是集成許多弱(決策樹)分類器,以發展出最優模型的方法。
由於Boosting是利用反覆運算來找到優化過後的模型,一旦碰到資料集非常複雜時,背後需要上千上萬次的迭代運算,造成計算瓶頸,容易拖慢電腦的計算效率。
面對這項問題,在2014年,華盛頓大學博士生陳天奇開發出XgBoost軟體。XGBoosting的全名為eXtreme Gradient Boosting(極限梯度提升),大幅提升模型的訓練速度與預測的精準度。
到了2016年底,微軟的DMTK團隊在開發出訓練效率更高、準確率更高,而且電腦記憶體使用更低的LightGBM(Light Gradient Boosting Machine,LGBM)高效演算法。
以下,透過一個簡單的範例,來說明Boosting的概念。
資料來源:Zhongxing Zhang et.al, “Exploring the clinical features of narcolepsy type 1 versus narcolepsy type 2 from European Narcolepsy Network database with machine learning,”
SCIENTIFIC REPORTS | (2018) 8:10628.
圖1為一個簡單的Boosting範例,目標是對座標軸裡的「圓」進行分類。X軸與Y軸形成一個二維空間的正方形。
一開始,先透過決策樹T1(X<1為○;X>1為□)發展出模型F1,形成一條垂直X=1線,對符號進行分類。從圖1迭代1中可發現,模型F1錯誤地將三個圓圈分類(以紅色標記)。為了解決這個問題,演算法會刻意將較高的權重分配給這三個圓(為了容易區別,圖形中改用較大的紅色圓圈來表示),以便進行第二次迭代。
到了第二次的迭代,透過決策樹T2(Y>4為○;Y<4為□),發展出水平線Y = 4將三個紅色大圓圈與大多數正方形分開。此時集成的模型是F2(T1+T2)。這時,從圖1中迭代2中可發現,模型F2還是錯誤地將一個方塊分類(以藍色標記),不過,此時,F2的錯誤與F1的錯誤相比,已明顯降低了。
接著,將F2正確分類的三個紅色圓圈的權重減小到正常水平(與原有圓圈大小相同),而錯誤分類的藍色方塊權重則會增加(圖形中一樣用較大的藍色方塊符號來表示)。
之後,到了第三次的迭代,透過決策樹T3(X<5為○;X>5為□),發展出垂直線X = 5將藍色大方塊與所有圓圈分開。此時集成的模型是F3(T1+T2+T3)。最終成功地將所有不同的符號完成分類。
以上的案例,主要在呼應前述的分類目標,希望憑藉著這些較弱分類器的「團隊合作」,以達到「三個臭皮匠,勝過一個諸葛亮」的效果。
作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)繪圖者:傅嬿珊
您可能有興趣:
現在是自主學習的最佳時刻!
TMR體恤想學習的您-線上課程全面八折起
請🔥私訊🔥購買才有折扣喔!
優惠期限到4/6(一)18:00
💪 超熱門線上課程組合方案:
1 + 2 = 5,999元(原價7,076元)
💪 單一課程8折起:
1. Python 0到1 基礎商業數據分析實戰
💥 抗疫優惠價:2,800 (原價88折)
原價:3,188
2. AI 行銷學:用 Python 機器學習創造商業新價值
💥 抗疫優惠價:3,420 (原價88折)
原價:3,888
3. 用 Python 打造自己的股票小秘書
💥 抗疫優惠價:3,770 (原價88折)
原價:4,288
4. 台科 EMBA 年年爆滿的一門 Word 課(A系列)
💥 抗疫優惠價:760 (原價8折)
原價:950
5. 台科 EMBA 年年爆滿的一門 Word 課(B+C系列)
💥 抗疫優惠價:840 (原價8折)
原價:1050
2020課程地圖:
實體課程:
精選好書:
🏆狂賀!國內第一本「股票小祕書」專書
獲天瓏書局【暢銷排行榜 — 第 ⑦ 名!!】
附上購書網址~ 國外的朋友也可以使用博客來與金石堂的通路轉運到國外哦~!