Page 61 - Vol.47

P. 61

2.3.2 線性迴歸(Linear Regression)(圖6) 2.3.4 支持向量迴歸(Support Vector Regression)
線性回歸是最基本的機械學習模型之一，透過資料以最支持向量迴歸是藉由建立一個分類(決策)基準將資料分成
小平方法算出已存在的關係並用y=b+ax二元一次方程式呈兩類，如圖8，找出與每個點總和距離最小的超平面(「超」
現，其中y為預測值、x為變數、b為截距而a為斜率，將變數的意思為分析的資料不只有二維)，以得到最有效的資料分類
(x)帶入方程式得到預測值y。 [04] 準則，並由此準則算出預測值。 [06]

2.3.3 極限樹迴歸(Extra Tree Regressor)

極限樹迴歸是由隨機森林分類Rand o m fo r e st
classifier(RF) [05] 衍生而來，RF的原理是集合多棵分類樹
CART(classification and regression tree)，每個CART都是一個
分類邏輯，並在bagging(選擇特徵資料)及boosting(對錯誤加
強練習)基礎下累積形成具多樣性的「森林」，如圖7，最後
由各個樹得到的結果進行majority vote，而算出預測值。極限
圖8、一維線性SVR(Source：WikiDoc.Net)
樹模型在子模型的選擇更加隨機，各CART的變異性下降，最
後再集結大量決策樹形成學習模型。
2.4 機器學習模型成效驗證KPI

平均絕對百分比誤差MAPE(mean absolute square error)
及均方根誤差RMSE(root-mean-square error)為兩個驗證模型
有效性及準確性指標。兩者計算出的數值愈小代表預測結
[07]
果和實際值愈接近。

Q i =偵測AMC濃度數值；F i =預測AMC濃度數值；
n=window size(可視為資料量大小)。

2.5 汙染源成因分析

圖6、Linear regression圖解 [03] SHAP(Shapley Additive exPlanations value)，是種常見的
對於機器學習結果解析的方式。通過計算歷史資料的平均來
解釋特徵變數(x)對於預測值(y)的相關性，並將結果視覺化列
出如圖9，最大(正或負)相關性其feature value越高，由大到
小列出即會如圖9(右)。 [08]

圖9、SHAP成因分析 [08]
圖7、隨機森林分類圖示(d=new data) [05]

FACILITY JOURNAL 09 2022 59

56 57 58 59 60 61 62 63 64 65 66