Page 66 - Vol.17
P. 66
Tech
Notes
技術專文
圖三、非監督式學習運作流程 圖四、非監督式學習運作範例
資料表示 文件1
文件2
0.2
文件3
0.9
相似度計算
資料表示 相似度計算
財經
資料分群 娛樂
體育
類別定義
類別定義 資料分群
表一、監督式學習與非監督式學習分析比較
監督式學習 非監督式學習
適用性 分類前已有明確的主題類別 發掘未知但有用的主題類別
優點 分類準確率較高 不需仰賴事先定義好類別的訓練樣本
建立分類模型效率較佳 專家介入需求度較小
缺點 需專家介入,協助定義訓練樣本之主題類別 不容易解釋分類過程
不同的專家對於同一資料的主題類別定義可能不一致
– 建立分類模型:建立分類模型時, 要目的在於分析資料間的相似程 果做進一步的解釋。
通常會將現有已知主題類別的資 度,並依相似程度將資料分成數個
綜合上述,監督式學習與非監督式
料分成訓練樣本及測試樣本。分 群集。相較於群集間的資料相似程
學習的分析比較整理如 表一。
類模型建立係指利用訓練樣本的 度,群集內的資料彼此擁有較高的
資料,將資料的分類規則找出 相似度。非監督式學習的運作流程
來,藉以建立分類模型。 大致可分成四個階段 ( 如 圖三、圖
四 ):
– 評估分類模型:當分類模型建立
完成後,此一階段即可利用測試 – 資料表示:針對分類主題的特性, 文件分類應用構思
樣本,測試建立好的分類模型是 挑選出具代表性的特徵,將每一
否能夠準確的預測測試樣本所屬 筆資料轉換成多維度特徵空間中
的類別。 的資料點。 為了讓讀者更容易體會文件分類能
夠帶來的效益,我們提出一個文件
– 使用分類模型:確認完分類模型 – 相似度計算:透過資料點在特徵
分類應用構思,說明目前新工如何
之準確度後,便可利用分類模型 空間中的距離等評估方式,計算 運用文件分類提升知識管理之應用
來找出資料分類的原因,或利用 資料點間的相似程度。
層級。目前新工正在發展導入的系
分類模型預測新進資料所屬的類
– 資料分群:藉由相似程度計算結 統方案主要是應用前述監督式學習
別。
果,將所有資料分成數個群集, 的方式,進行期刊文獻之自動收集
每一個群集中的資料與資料間具 及分類,整體系統架構規劃如 圖
非監督式學習 有較高的相似程度。 五 ,包含文獻收集模組、文獻分類
不同於監督式學習,非監督式學習 – 類別定義:領域專家根據分群結 模組、文獻瀏覽模組、類別回饋模
沒有事先定義好的主題類別。其主 果進行資料分析,並針對分群結 組及分類優化模組。
66