Page 65 - Vol.17
P. 65
圖一、監督式學習運作流程 圖二、監督式學習運作範例
訓練樣本 分類模型
訓練
建立分類模型
建立分類模型
測試樣本 分類模型
評估分類模型 測試
評估分類模型
新進資料 分類模型
?
使用分類模型
? 使用
?
使用分類模型
前言 性。本文透過文件分類於知識管理 集到的資料文獻,事先分門別類進
應用之發想為例,進行文件分類技 行歸納與整理,通過將非結構化資
術之介紹及應用探討。 料轉化成結構化資訊的加值過程,
身處知識經濟時代,知識除了是企
業的無形資產外,亦是決定企業成 不僅能幫助使用者有效率的獲取所
功與否之重要因子。有鑑於此,近 需的資訊、管理資訊外,更可使得
來知識管理日益受到重視,並廣泛 這些有用的資訊重覆被利用。
的推行於各企業中。知識管理的應 什麼是文件分類 ? 常見的分類技術大致可分成監督式
用,除了內部既有資源的管理外,
學 習 (supervised learning) 及 非 監
亦包含外部知識的收集及吸收。 文件分類,是依照文件的主題與相 督 式 學 習 (unsupervised learning)
以新工為例,過去同仁在新廠設 關內容,給予該份文件一個合適的 兩類,兩者主要區別在於分類資料
計、規劃等階段常需收集外部新 主題類別。以每天所閱讀的報紙為 中是否存在既有的類別資訊。為了
知,過程中需花費時間、精力在過 例,依照內容可分為「財經」、「娛 讓讀者對文件分類的原理有一個概
濾大量資訊,相當費力耗時。有鑑 樂」、「體育」和「社會」等不同 略性的了解,以下我們針對監督式
於資訊檢索、文件分類等自然語言 類別;這些分類皆是事先已定義好, 學習及非監督式學習進行介紹。
處理技術漸趨成熟,若能妥善的運 再根據當天不同的新聞內容大意,
用,將有助於協助同仁快速掌握新 給予標示適當的類別。
監督式學習
知,應用於日常工作中。
由於電腦軟、硬體及網際網路等資
在自然語言處理技術中,文件分類 訊科技發展迅速,資料的數量以及 監督式學習適用於已知類別的分類
的目的在於利用機器學習的方式, 資料複雜性也隨之成長;使用者花 問題,意即分類前已有明確定義之
自動判別文件所屬主題類別,其應 費在整理以及尋找所需文件的時間 主題類別,例如新聞可分成政治、
用有助於同仁快速且精確找到所需 與心力已不可同日而語,因此文件 財經、旅遊及運動等主題類別。監
的知識。有鑑於此,文件分類技術 分類已愈趨重要,在知識管理領域 督式學習的運作流程可分成三個階
於知識管理應用的導入有其必要 中更是不可或缺的工具。若能將收 段(如 圖一、圖二 ):
學術專長:文字探勘、知識管理、數位學習 Traveling is synonymous of happiness,
智 瑋 佳 亭
興趣:電影、音樂、運動、旅行 郭 Joyce Kuo there's nothing better than knowing
很榮幸成為新工的一份子,與志同道合的夥 new places, different cultures,
different life-styles, and removing me
吳 C.W. Wu
伴一起努力。 completely from an ordinary life.
NEW FAB ENGINEERING JOURNAL MARCH 2015 65