Page 65 - Vol.17
P. 65

圖一、監督式學習運作流程                     圖二、監督式學習運作範例


                                                                  訓練樣本                      分類模型


                                                                                 訓練
                        建立分類模型
                                                  建立分類模型

                                                                  測試樣本                      分類模型


                        評估分類模型                                                   測試

                                                  評估分類模型

                                                                  新進資料                      分類模型
                                                                      ?
                        使用分類模型
                                                                 ?               使用
                                                                      ?
                                                  使用分類模型





              前言                               性。本文透過文件分類於知識管理                 集到的資料文獻,事先分門別類進
                                               應用之發想為例,進行文件分類技                 行歸納與整理,通過將非結構化資
                                               術之介紹及應用探討。                      料轉化成結構化資訊的加值過程,
              身處知識經濟時代,知識除了是企
              業的無形資產外,亦是決定企業成                                                  不僅能幫助使用者有效率的獲取所
              功與否之重要因子。有鑑於此,近                                                  需的資訊、管理資訊外,更可使得
              來知識管理日益受到重視,並廣泛                                                  這些有用的資訊重覆被利用。
              的推行於各企業中。知識管理的應                 什麼是文件分類 ?                        常見的分類技術大致可分成監督式
              用,除了內部既有資源的管理外,
                                                                               學 習 (supervised learning) 及 非 監
              亦包含外部知識的收集及吸收。                   文件分類,是依照文件的主題與相                 督 式 學 習 (unsupervised learning)
              以新工為例,過去同仁在新廠設                   關內容,給予該份文件一個合適的                 兩類,兩者主要區別在於分類資料
              計、規劃等階段常需收集外部新                   主題類別。以每天所閱讀的報紙為                 中是否存在既有的類別資訊。為了
              知,過程中需花費時間、精力在過                  例,依照內容可分為「財經」、「娛                讓讀者對文件分類的原理有一個概
              濾大量資訊,相當費力耗時。有鑑                  樂」、「體育」和「社會」等不同                 略性的了解,以下我們針對監督式
              於資訊檢索、文件分類等自然語言                  類別;這些分類皆是事先已定義好,                學習及非監督式學習進行介紹。
              處理技術漸趨成熟,若能妥善的運                  再根據當天不同的新聞內容大意,
              用,將有助於協助同仁快速掌握新                  給予標示適當的類別。
                                                                               監督式學習
              知,應用於日常工作中。
                                               由於電腦軟、硬體及網際網路等資
              在自然語言處理技術中,文件分類                  訊科技發展迅速,資料的數量以及                 監督式學習適用於已知類別的分類
              的目的在於利用機器學習的方式,                  資料複雜性也隨之成長;使用者花                 問題,意即分類前已有明確定義之
              自動判別文件所屬主題類別,其應                  費在整理以及尋找所需文件的時間                 主題類別,例如新聞可分成政治、
              用有助於同仁快速且精確找到所需                  與心力已不可同日而語,因此文件                 財經、旅遊及運動等主題類別。監
              的知識。有鑑於此,文件分類技術                  分類已愈趨重要,在知識管理領域                 督式學習的運作流程可分成三個階
              於知識管理應用的導入有其必要                   中更是不可或缺的工具。若能將收                 段(如 圖一、圖二 ):



                                     學術專長:文字探勘、知識管理、數位學習                           Traveling is synonymous of happiness,
                                  智 瑋                                           佳 亭
                                     興趣:電影、音樂、運動、旅行                            郭 Joyce Kuo  there's nothing better than knowing
                                     很榮幸成為新工的一份子,與志同道合的夥                           new places, different cultures,
                                                                                   different life-styles, and removing me
                                 吳 C.W. Wu
                                     伴一起努力。                                        completely from an ordinary life.


                                                                              NEW FAB ENGINEERING JOURNAL          MARCH  2015  65
   60   61   62   63   64   65   66   67   68   69   70