Page 8 - Vol.45
P. 8
Tech
Notes
技術專文
2.2 深度物件偵測方法(Deep Object Detection Method)
本案運用工地CCTV影像分析進行工地工安偵測需要的核
心演算法為深度學習物件偵測演算法(Deep Neural Network
for Object Detection)。所謂的物件偵測應用,其命題為預先
定義要偵測的物件種類集合,例如 : 人員、車輛、安全帽、
背心等,並在輸入影像上偵測這些物件發生的位置及種類。
因此物件偵測應用會有如 圖3⒜下的輸出產生 : 不同顏色的
方框(bounding box)是演算法針對輸入影像偵測出來的物
件,方框上的文字說明演算法判定該方框的物件種類(例如 :
「human」或「helmet」),而方框上的數字則是演算法對於
該偵測物件預測的信心程度(confidence score),例如「1.00」
或「0.99」。使用者可以遵循如 圖4的流程進行應用的開發,
達到物件偵測的功效。①資料整備階段-以人力及標記工具前
處理大量的目前物件影像樣本,提供各種物件的標記資訊;②
模型開發(訓練)階段-透過演算法工程師,設計合適的模型架構
與目標函式(例如 : 物件偵測的準確率),並透過GPU平行運算
裝置,搜尋最佳參數,建立物件偵測模型;③模型上線(偵測)
階段-將物件偵測模型佈署到應用環境,例如 : 與工地CCTV串
流影像整合,持續輸出偵測結果並做後續處理。
深度學習物件偵測演算法是以前述提到的深度卷積類
神經網路模型為主體,透過推疊數個卷積運算網路層逐漸
將輸入影像中的特徵圖(feature map)提取,並且對各子區塊
所得的特徵圖進行分類,分類的結果會有兩類輸出,包括
①Box Regression-指的是偵測物件的偵測方框的大小及位置;
②Classification-指的是輸出該偵測方框所框列的物件之物件種
類標籤(例如 : 「human」或「helmet」。一般說來,深度學
習物件偵測演算法依其模型推論的流程,大致上可以分為「一
階段方法」 [14][15] 或「二階段方法」 [16][17] 。一般說來,這兩類方
法各有優缺點。「一階段方法」僅做一次類神經網路推論就可
以輸出預測物件的類別標籤及位置,所以系統回應時間較快,
較適合即時影像串流分析等系統運算速度較高的需求。而「二
階段方法」因為有獨立的「區域提取網路」(Region Proposal 圖3、深度學習物件偵測演算法⒜輸出結果示意圖 ;
Network, RPN)先行鎖定影像中可能存在物件的部份區域,後 ⒝一階段(one-stage)類型方法 ; ⒞二段類型方法 [18]
續的物分類只針對RPN輸出的前景物件做預測,可以過濾掉大
量的背景雜訊,因此較適合對準確率要求較高,系統反應速度
較為次要的應用。圖3⒝為深度學習物件偵測演算法中「一階
[18]
段方法」及「二階段方法」的示意圖 ,對深度學習物件偵測
[19]
演算法的發展演進有興趣的讀者可以再參照相關論文 。
圖4、物件偵測演算法開發及導入流程
6