0%

機器學習基石(Machine Learning Foundation)第三講筆記

第三講主要在說明機器學習有哪些種類,以及在訓練過程中會用到哪些不同的特徵(Feature)種類。在針對輸出空間y的不同可以有以下幾種不同的學習種類:

在上一講有看到在平面上透過直線切割出兩種類別,這種二元分類(Binary Classification)是機器學習裡面最常見的問題。但現實上的應用有時並不會侷限在二元分類,常常會遇到多種類別的問題,即多元分類(Multiclass Classification)問題。比如說,可以透過硬幣的大小和重量來區分出美元硬幣,這時候的輸出就是4種類別,如果把類別數量用K來代稱,那麼二元分類可以被視為多元分類的一種特例。這種多元分類問題常用在許多不同的應用,比如說手寫字跡的辨識、圖片中的物件辨識或是email的種類或是重要性辨識。

如果今天要預測的不是兩元類別或是多元類別,而是一個數字型態的資料,例如透過公司的資料或是新聞的風向來預測股價,或是透過氣候的資料來預測未來的氣溫,這樣的學習也是在統計中常被使用到的迴歸分析。通常透過迴歸分析來預測數值結果也是一種具有label的監督式(Supervised)的學習,因為在學習過程中,會告訴演算法資料x的特徵,和其對應的y數值結果。

再進一步更複雜的應用中,像是自然語言辨識的領域中,如何對每個字作詞性標注(Part-of-Speech Tag),他看起似乎像是種多類別的問題(一個詞被分到其中一種詞性),但是這種詞性標注的問題往往不是把每個詞拆開來輸入,而是會把整個句子輸入來學習分析,因為詞性可能會根據語句而有變化,這個問題尤其是在中文詞性標注更加的明顯。傳統上處理詞性標注可以逶過隱馬可夫模型(Hidden Markov Model, HMM))將詞當作觀察現象,詞性當作隱藏狀態,並結合維特比(Viterbi)演算法來作詞性標注。

在學習的過程中有沒有給予y(輸出標籤),可以區分成監督式和非監督式學習。

之前討論到的學習方法是,我們把每個硬幣x的大小和重量,以及這個硬幣的種類y,來學習判斷硬幣的哪個種類,這種有給予y的稱為監督式學習。如果今天不告訴機器每個硬幣的種類y,在只知道硬幣的大小和重量的情況下,把硬幣區分成不同群,稱為非監督式學習。非監督式學習困難的問題常常在於分群的結果不容易被衡量,監督式學習效果的衡量可以簡單的比對機器判斷的g(x)和y是否一致,因此非監督式常習會再透過一些方法像是Elbow Method或是silhouette analysis來判斷分群的品質。非監督式學習除了群聚分析外,像是密度分析(Density Estimation)和臨群偵測(Outlier Detection)也都是非監督式學習的範疇。

介於監督式和非監督式學習中間稱為半監督式(Semi-supervised),半監督式會先使用一部份已經有標注好標籤的資料作監督式學習,再使用沒有標注的資料來讓機器可以學的更好。其中常用在大量的資料無法將所有的資料都給予標籤,因為標注資料的成本是很高的,所以像是影像辯識就會透過半監督式方法來完成學習。

增強學習(Reinforcement Learning)會透過獎勵的方式告訴機器什麼樣的情況是好或是不好,例如在廣告的投放上當使用者點擊某種類的廣告會影響廣告系統推薦給使用者的廣告內容。

參考資料:
Machine Learning Foundation 03