機器學習技法(Machine Learning Techniques)第二講筆記

發表於 2020-01-21 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

前面第一堂課在介紹線性的SVM，透過二次規畫找到最大margin的支撐向量來建立更強健的模型。這堂課將會延讀svm並加上非線性轉換的方式，讓SVM不止可以控制模型複雜度，也能結合特微轉換來提高模型效果。

假設透過特徵轉換的方法將SVM轉為非線性，原本的x會被轉換到z空間，但又希望可以在解SVM最佳化問題時，能夠擺脫轉換到z空間高維度的依賴。即將非線性轉換轉成另一個對等問題，不管轉到幾維的空間，都只會有N個變數，變數數量不會和要轉換的維度的有關，這稱為原本SVM的對偶問題(dual problem)。

之前篇章在介紹regularization時，引入了Lagrange Multipliers的概念，將原本帶有W長度小於C的限制式，轉成加上Eaug後求最小值，其中λ會被乘上每個系數加進最佳化式子中。因為SVM也是一個有條件的最佳化問題，但是在引入λ時有別於regularization中被當作給定值，在SVM中會被當作未知的值來解最佳化問題。

為了把原本有限制式的SVM最佳化問題，在引入Lagrange Multiplier後轉成沒有限制式的問題，會將限制式移項乘上α(即λ在SVM文獻為α)後相加。但是將有限制式的最佳化的問題，轉成沒有限制式的最佳化的問題，是否能夠得到一樣的結果？老師在這裡舉了兩種例子來說明其實會得到一樣的結果。假設選到一組會違反原本限制式的B,W(即α乘上的項次會是正值)，這種最終會在解最小值SVM問題時被逃汰；相反的，如果選到一組符合原本限制式的B,W(即α乘上的項次會負值)，這種解反而在最後會被留下來。因此將限制式轉益沒有限制式的最佳化問題，其實只是把限制藏進求最大值的最佳化中。

在轉成無限制式的最佳化問題後，會發現假設在固定α之下，整個最佳化得出來的值會比任一的Lagrange值還要大，甚至取完最大值右邊的不等式也一樣成立，這個min和max互相交換稱為lagrange dual problem。

對於二次規畫，這個duel problem因為滿足強對偶關係，因此求出來的b,w,α值對於左右兩邊的式子都是最佳值，因此可以將原本左邊的最佳化問題，直接轉成解右邊的對偶問題來求最佳值。

再進一步化解最佳化問題，如果要得到內部式子的最佳值，因為其為無限制的最佳化問題，因此最佳解會產生在梯度為0，即內部式子微分為0。首先對b微分後加進原本的式子，因為加進去的條件值為0時為最佳解，所以不止不會影響原本求出的最佳解，也可以同時去掉b這個項次。

再來對w微分後加進原本的式子，可以將w轉換成α．y．z相乘，在去掉w項次後，也不需要對原本的w取最小值，並轉成一個只有對α作最佳化的問題，得到簡化版的對偶問題。

前面有提到如果要滿足對偶問題，即b,w,α的解對於左右兩邊的最佳化問題都是最佳值，需要滿足特定條件，這稱為KKT最佳化條件，再會來透過這些條件來解最佳的b,w。

再來先乘上-1先將最大值問題轉成最小值問題，再把平方向解開後，就可以將每個條件丟進QP來解出最佳值。

如果今天在滿足KKT條件下要找到b,w的最佳值，首先要找到最佳的w，因為只有一條條件和w相關所以很容易找到最佳值。在找最佳的b時，共有2個條件和b相關，在第2個條件可以發現如果在α大於0的情況下，y(W．z + b)即需要等於1才能滿足條件，而這個值就是原本要找的最佳解，因此在解對偶問題時，可以同時找到SVM的支稱向量。

既然證明在α大於0的情況下，可以找到支撐向量，相反的回到原本的SVM概念，其意義在於如果可以知道有哪些支稱向量，就可以找到最大的margin，其他的點皆可以不管。

SVM和PLA其實很相似都會找出區分不同類別資料的超平面，差別在於兩者著重的點是不同的，SVM是著重在使用支稱向量表現出來，而PLA是使用分類錯誤(犯錯)的點表現出來。

上一講介紹的原始SVM為Hard-Margin SVM，透過求特定放縮後的b,w最佳值，他和要轉換的空間維度有關，適合維度較小的問題；而這一講的SVM是引入Lagrange的SVM，透過找最佳的支稱向量和α來重構邊界，並且和資料量的大小有關，適合資料量小的問題。

但到目前為止仍然沒辦法完全擺脫處理高度空間維度轉換的問題，因為在QP求Q矩陣時，仍會碰到z向量內積的問題，z向量的維度等同於目前要解的維度。

這一講提到透過對偶問題來移除對d維度的依賴，並引入Lagrange與KKT條件，透過QP來解出最佳值，並發現解出的最佳值就是支稱向量，並可以用來建立最大margin。下一講將會說明如何真正擺脫和d維度相關的計算。

參考資料:
Machine Learning Techniques 2

機器學習技法(Machine Learning Techniques)第一講筆記

發表於 2020-01-09 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

機器學習技法是林軒田老師的開的機器學習後半堂課，主要在延續前面機器學習的基礎理論，並延申出不同的機器學習模型介紹。

而這堂課主要圍繞在特徵轉換上並分三個面向探討，分別為(1)如果處理大量且高複雜度的特徵轉換(2)找出具有預測性質的特徵來提升模型表現(3)找出資料中的隱藏特徵讓機器學習表現更好。

在線性可分的問題中，前面的課程有教過可以透過PLA或是POCKET來找到分開的超平面，但PLA在求解的過程中會得到很多種解，究竟怎麼樣的切線才會是比較好的切線呢？如果以雜訊的容忍度來看，當資料產生時可能會存在或多或少的雜訊(例如從實體感測器訊號收資料時，可能會有震盪或是偏移的現象)，而雜訊是模型過擬合的因素之一。因此如果要讓模型對雜訊的容忍度最大，那麼就要讓超平面能夠離點越遠越好。例如最右邊的超平面能離點最遠，雜訊的容忍度(灰色區域)也最大。

換個方式來，這會是一個最佳化問題，而最好的線須要滿足兩大條件: (1)能作出最大邊界(Margin) (2)可以把不同的類別分對。其中灰色區域的算法，是把每個點和超平面計算距離後取最小距離。

距離的計算方法，可以想像在平面上有兩個點構成的向量，而w乘上平面上的向量為0，所以w為垂直於平面上的法向量。當有一個x要計算x和平面的距離，即為x和平面上任一個點構成的向量，並對垂直於平面的向量作投影，即為對w方向的投影。

因為要找的是一個可以區分出正確類別的分割超平面，所以可以拆掉距離的絕對值，變成乘上y大於0(即為分割正確時值皆會大於0，如果類別分錯乘上y會小於0)

為了簡化式子，假設將式子放縮到最小值會等於1，那margin就會簡化為成1/|w|，並從求margin的最小值，變成分數乘上y的最小值要等於1。而且因為其條件已經滿足大於0，所以可以再拿掉一條分數乘上y要大於0的限制式。

為了再簡化限制式條件，限制式條件可以再從最小值為1，放寬為分數乘上y大於等於1，而且這個放寬並不會違反原本的限制式。老師這裡舉了一個例子，假設找出來的解為大於等於1.126並且不滿足等於1的條件，這時候如果把b和w除上1.126作放縮讓他滿足原本的條件，會因為w變小而使得目標式變大。這個證明在說如果找出來的解不滿於原本等於1的條件下，就不會是最佳解，因此可以對限制式條件作放寬。最後再將最大化的問題轉為求最小值(倒數)，得到最後的簡化的最佳化問題。

如果要找到最佳的平面，只要找到最靠近平面的點就行了，而這些點被稱為支撐向量(support vector)，就像是這個超平面是由最靠近的點所支撐起來般，這也是SVM的概念。

因為svm要找到的最佳值是w的兩次函數，且限制式為b和w的一次式，有這樣的限制非常適合使用二次規畫作最佳化。

但為什麼svm可以作的好呢，老師這邊以兩個面向來說明使用svm會讓Ein和Eout越接近，且不容易overfit泛化性更佳。

之前在提到regularization的時候講到，為了讓Ein越小但又不希望造成overfit，於是加上w的限制條件限制其範圍。而svm剛好對調，svm是要讓w的長度越小且限制讓所有的類別的資料分對，所以svm和regularization是一體兩面，svm找出來的灰色區域讓為了容忍雜訊對模型的干擾。

假設平面上有三個點，如果是原本的pla，在任意切線上可以找到所有的類別組合(共八種)。但使用svm考量到需要維持最大特定margin區域情況，所以沒有辦法作出所有的類別排列組合。在vc維的介紹有講到，如果能作出的dichotomies越少，vc維就越小，Ein和Eout就會越接近，即泛化能力越好。

從上面兩個面向來看，svm可以帶來本質上泛化性更佳的好處，並且在加上特徵轉換的方法後，non-linear的svm可以同時辦到將Ein(即分對不同類別)與Eout(泛化能力)作好。

這一講主要在說明如何從邊界分類問題延申出最大margin提供更強健的方法來容忍雜訊，並作svm最大margin的最佳化式子推導，最後提到最大margin帶來本值上的好處在於可以提高更佳的泛化能力。

參考資料:
Machine Learning Techniques 1

Machine Learning on GCP - Feature Engineering(下)

發表於 2019-03-14 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

上一篇提到一些基本的Feature Engineering概念與方法，這一篇則是會說明當要使用類別型的特徵來訓練機器學習模型時的技巧。

Categorical

如果遇到類別型的特徵又需要拿進來訓練模型，則可以用one-hot encoding來處理。例如當今天要對商品銷售預測建立模型時，想要把員工拿進來考量，也許不同員工對顧客的服務上會影響到商品銷售。雖然員工的編號是數值，但其並不存在實際上數值的意義，這時候就可以透過one-hot來處理，並以多個欄位變數表示來將每個值轉成0/1表示的稀疏向量。

有時候在某些資料則可以當作連續型處理，也可以使用one-hot來處理。例如顧客的評分，如果你認為4分和2分是差距很大的，這時也可以依個人考量當作類別型處理。要特別注意的是，如果今天顧客沒有提供評分資料，在處理missing value上，第一種數值型的處理方法是使用另一個欄位來紀錄是否有收到評分(1/0)，並維持評分值為0；第二種類別型處理方法則將所有one-hot變數設為0，並一樣透過另一欄位紀錄是否有評分，注意不要使用自己的特別編碼(magic number)來處理。

Feature Cross

假設今天要建立模型來判斷車輛是否為計程車，而使用的特徵只有兩個，分別為車倆的顏色和車輛所屬城市。假設透過簡單的線性模型來作訓練，在調整權重的過程中，都沒辦法有好的辨識效果。因為模型在調整黃色和白色的權重時，當它看到黃色在紐約是計程車，提高了黃色的權重，但這反而造成所有黃色車倆比較容易判斷成計程車，這是不對的；相同的如果模型提高了紐約的權重，這也會造成所有紐約的車倆都容易判斷成計程車，這一樣是不對的。

這時候則可以嘗試將兩個變數結合變成第三個變數，並透過one-hot encoding來處理，而在訓練過程中就會將黃色X紐約的組合單獨調整權重，可以避開原本的問題。例如在預測計程車車資問題中，雖然知道在上下班時間的旅程時間會比較長，車資也可能比較高，但是這時可以不特別作新增rule的處理(例如標注某天的某時段為上下班時間)，而是直接將Day of Week和24小時作feature cross建立組合。

Bucketize

以加州的房價預測來說，如果觀察緯度這個特徵會發現有兩個高峰，一個是舊金山灣區，另一個則是洛杉磯大都市，這時就可以透過資料分群(bin)來拆成100個bucket，轉成類別型資料來訓練模型。注意在預測時也要透過資料前處理來將資料作bucketize。

Wide and Deep

到這邊就會遇到一個問題，在銷售遇到時會有價格和員工兩種不同特性的變數，價格是密集的(Dense)的連續型變數，而員工編號是透過one-hot產生稀疏(Sparse)的類別型變數。而在使用類神經網路訓練模型時，因為在0在乘上權重還是為0，所以稀疏的矩陣可能造成訓練過程中收斂在區域最佳解跳不出來。但是以上面說的計程車例子，其實線性模型是比較容處理的。

因此在訓練模型時，可以嘗試合併兩種方法，透過類神經網路來使用連續型變數訓練深度(Deep)結果，再和類別型變數透過線性方式串聯(Wide)，這即是一個wid-and-deep架構的神經網路模型。

參考資料:
Data Engineering on Google Cloud Platform 4 - Serverless Data Analysis with Google BigQuery and Cloud Dataflow

Machine Learning on GCP - Feature Engineering(上)

發表於 2019-03-05 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

前陣子在上Coursera的Data Engineering on Google Cloud Platform這個系列課程，其中在Serverless Machine Learning with Tensorflow on Google Cloud Platform這週內有一個Feature Engineering單元，裡面展示了如何透過Feature Engineering來提升模型的表現。上完後覺得裡面提到一些關於Feature Engineering的技巧，決定還是找時間把筆記寫下來。

好的特徵必須要和預測目標值是有相關的，對於特徵和預測值之間，需要有合理的假設，而不是隨意丟任意的資料進來，就希望特徵和預測值間具有關聯性，否則會落入Data Dredge的問題。Data Dredge意指可能會從大量資料中找到另人意外的相關性，這並不是我們想要的結果。(例如荷蘭的研究中指出一個地方送子鳥被看到的數量，和9個月後嬰兒出生的數量相關)

Causality

好的特徵特性是要使用預測當下能夠掌握的資料當作特徵，例如當你要使用每日的銷售資料當作特徵值，但是這些資料可能需要一個月的資料才會產生，而不是及時會被收集到資料倉儲。像這種可能因為資料延遲造成在預測時無法取得完整的資料將可能造成模型失效。所以在訓練模型時，請確保這些特徵在預測時是可以完整取得的，否則不要使用在模型中。

Numeric & Magnitude

因為在機器學習的過程中，會對輸入的資料作許多的運算，因此使用的特徵必須要為數值形態，且其數值是有大小意義的(例如coupon提供的打折數20%和10%存在折數大小關係)。

Enough examples

好的特徵需要有足夠的資料，以講者的個人經驗來說，如果一個特徵中每個值出現至少5筆，才會將這個特徵用來訓練模型。舉例來說，有一個類別為自動交易，需要有足夠的詐欺/非詐欺資料才有辦法訓練出有效的機器學習模型。如果今天只有3筆自動交易資料，且3筆都是非詐欺，這樣數量的資料可能就無法訓練出可用的機器學習模型。我想這裡的用意是指一個特徵如果相似度太高，可能造成沒有鑑別度；例如在分類問題中，特徵在每個類別的值都一樣或相似，那麼這樣的特徵可能對分類問題沒辦法貢獻太多資訊，使用決策樹來切分也會找不到好的切點。

參考資料:
Data Engineering on Google Cloud Platform 4 - Serverless Data Analysis with Google BigQuery and Cloud Dataflow

讓我們用collections中的Counter來計算數量

發表於 2018-05-26 更新於 2021-05-11 分類於 Python 閱讀次數： Disqus：

Python的collection模組裡面其實包含了許多非常實用的資料結構，比如之前介紹過的
namedtuple。今天要談的是Counter，Counter是一個dict的子類別，用來對hashable的物件作計算。

比如說我們今天要來幫公司裡面每個不同的team訂飲料好了，以下簡易一點不接受客製化調味，在建立Counter可以有以下幾種方法

# 使用mapping建立Counter，輸入一個dict
>>> team1 = Counter({'BlackTea': 3, 'GreenTea': 2, 'MilkTea': 1})
# 使用iterable建立Counter，輸入一個list
>>> team2 = Counter(['BlackTea', 'BlackTea', 'BlackTea', 'MilkTea', 'MilkTea', 'MilkTea'])
# 使用keyword參數建立Counter，輸入key-value組合
>>> team3 = Counter(GreenTea=3, MilkTea=3)
>>> team1['BlackTea']  # 可以直接當作dict存取
3
>>> team2['GreanTea']  # 取出不存在的item即為0
0

可以看到透過Couter能透過三種不同的方法來建立，就看使用的情境比較適合哪一種。而Counter也可以直接就當作dict取出值，特別是如果取出不存有的item，其計數會為0，並不會出現dict的KeyError。

>>> team1 + team2  # 使用加法運算符
Counter({'BlackTea': 6, 'MilkTea': 4, 'GreenTea': 2})
>>> team2 - team3  # 使用減法運算符
Counter({'BlackTea': 3})
>>> team2 &amp; team3  # 運算兩者的交集
Counter({'MilkTea': 3})
>>> team2 - team3  # 運算兩者的聯集
Counter({'MilkTea': 3, 'GreenTea': 3, 'BlackTea': 3})

Counter也可以支援不同的運算符來對Counter物件進行操作，來達成對不同集合元件的運算。

>>> drink_order = team1 + team2 + team3
Counter({'MilkTea': 7, 'BlackTea': 6, 'GreenTea': 5})

>>> list(drink_order)  # 將Counter的items轉成list
['BlackTea', 'GreenTea', 'MilkTea']
>>> set(drink_order)  # 將Counter的items轉成set
['BlackTea', 'GreenTea', 'MilkTea']
>>> dict(drink_order)  # 將Counter的items轉成一般dict
{'BlackTea': 6, 'GreenTea': 5, 'MilkTea': 7}

>>> drink_order.items()  # 取出item pairs
dict_items([('MilkTea', 7), ('BlackTea', 6), ('GreenTea', 5)])
>>> drink_order.keys()  # 取出key值
dict_keys(['MilkTea', 'BlackTea', 'GreenTea'])
>>> drink_order.values()  # 取出value值
dict_values([7, 6, 5])

>>> sum(drink_order.values())  # 取出value值並加總得到全部數量
18

因為Counter是dict的一個字類別，所以基本上他可以辦到原本dict可以作到的資料轉型，包含透過items()來逐一取出每個pair，或是直接可以使用values()並加總來計算出Counter裡面總計有多少數量的東西。

list(drink_order.elements())
>>> ['BlackTea', 'BlackTea', 'BlackTea', 'BlackTea', 'BlackTea', 'BlackTea', 'GreenTea', 'GreenTea', 'GreenTea', 'GreenTea', 'GreenTea', 'MilkTea', 'MilkTea', 'MilkTea', 'MilkTea', 'MilkTea', 'MilkTea', 'MilkTea']
>>> drink_order.most_common(3)
[('MilkTea', 7), ('BlackTea', 6), ('GreenTea', 5)]
>>> drink_order.most_common(2)
[('MilkTea', 7), ('BlackTea', 6)]

Counter還支援兩個函式，elements可以幫你展開所有的items。而most_common則會使用數量作排序，並且可以指定要排出前幾名。

Counter其實使用上非常方便，讓我們看一下Counter在實戰上可以拿來解什麼樣的問題，以下選兩個LeetCode的題目來看看Counter可以怎麼樣被使用。

'''389. Find the Difference
Given two strings s and t which consist of only lowercase letters.
String t is generated by random shuffling string s and then add one more letter 
at a random position. Find the letter that was added in t.
Input:
s = "abcd"
t = "abcde"
Output: e ('e' is the letter that was added.)
'''
def findTheDifference(self, s, t):
    from collections import Counter
    s_counter = Counter(s)
    t_counter = Counter(t)
    return list(t_counter - s_counter)[0]

LeetCode-389是給定兩個字串s和t，其中要判斷t比s多了哪個字元。這時候就可以直接將s和t分別以iterable的方式建立兩個Counter，而我們知道t會比s多一個字元，於是再透過減法來找到t和s的差集後，輸出是哪個item即可。

'''819. Most Common Word
Given a paragraph and a list of banned words, return the most frequent word 
that is not in the list of banned words. It is guaranteed there is at least 
one word that isn't banned, and that the answer is unique.
Words in the list of banned words are given in lowercase, and free of punctuation.
Words in the paragraph are not case sensitive.  The answer is in lowercase.
Example:
Input: 
paragraph = "Bob hit a ball, the hit BALL flew far after it was hit."
banned = ["hit"]
Output: "ball"
'''
def mostCommonWord(self, paragraph, banned):
    import re
    from collections import Counter
    words = re.sub("[!|?|'|,|;|.]", '', paragraph).lower().split(' ')
    return (Counter(word for word in words if word not in banned).most_common(1)[0][0])

LeetCode-819是給定一個段落，還有被禁掉的詞清單，接著輸出出現字詞次數最多次，而且沒有被禁掉的詞。這邊先將所有詞轉成小寫，接著再透過空白切分後，將特殊符號取代掉只留下字詞。再來就可以將不存在於禁用清單的詞拿來建立Counter，然後使用most_common取出次數最高的第一名，接著再輸出是哪個詞即可。

Counter其實在計算次數的時候非常實用，特別是在項目很多的情況下，而且還需要作加減運算時，可以嘗試使用Counter來解問題，絕對可以幫助你省下很多的時間的！

參考資料:
Python docs - Counter dict subclass for counting hashable objects

Andrew深度學習課程五 - Sequence Model第3周筆記

發表於 2018-02-27 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

在RNN的應用中，有一種是sequence to sequence模型，像是在語言翻譯問題上，要把長度為5的法文翻譯成長度為6的英文。首先先透過一個encoder將每個法文字詞輸入進RNN模型，再透過decoder逐一輸出英文字詞直到結尾，這樣的模型被證實只要使用足夠大量的法文和英文句子就可以完成。

另一個類似的應用是給一張照片，然後自動給予這張照片適當的標題，這時可以透過CNN來建立一個encoder，接著再透過RNN建立一個decoder來產生適當的標題。

第一週有學到language model，會計算產生句子的機率。而在翻譯問題中的encoder部分和language model非常相似，只是在輸入不是向量0，而是一個encoder的網絡。翻譯問題其實很像是一個conditional language model，即給定輸入翻譯前的句子X之下，輸出不同翻譯結果的機率。

我們並不希望直接對這個分布輸出作隨機的取樣，因為取樣的結果容易很不穩定，有時取到好的翻譯結果，有時取到不好的翻譯結果。所以在使用這個模型的時候，需要使用一個演算法來計算出給定X輸出譯翻結果Y的最大條件機率。

一個方法是使用貪婪搜尋法(Greedy Search)，即先根據conditional language model來產生第一個詞，接著在後面的翻譯部份每一次再依據前個詞選取最大機率來產生下個詞。但我們實際上希望的是找到輸出翻譯結果中每個詞Yi最大的聯合機率(Joint Probability)，而不是每次都產生一個機率最大的詞，比如說法文翻譯到英文的問題中，如果前兩個字的翻譯結果開頭都是Jane is…，但是going這個字在英文上比起visiting還常見，所以用這個方法會造成第3個詞比較容易接going，但是這並不是一個最佳化的翻譯結果。但在英文可選的詞非常多，所以會使用approximate搜尋法來嘗試找到最大的條件機率。

Beam Search演算法的特性在於不會像之前一樣只找一個最大的機率，而是會存下前B個最大的機率值在記憶體裡面。比如說第1個詞已經找出是in, jane和september，再來會繼續再找出第1個詞是in的情況下，第2個是哪個詞。這時會計算出在給定輸入X且第一個詞是in之下，哪個詞的機率最大，即P(Y2|X,Y1)。再將機率乘上P(Y1|X)就可以得到給定X之下，前兩個詞的機率P(Y1,Y2|X)。然後存下前三個最大的可能性，這時可能會存下in september, jane is和jane visiting，再繼續往下找第3個詞。這時也就代表演算法認為september不會是第一個詞。

接著beam search再從前兩個詞的三組詞往下展開來，並找出前三個詞最大機率的三組保留，透過這個方法持續到接到結尾EOS並停止。要注意的是如果把B設定成1的話，就等同於前面介紹的Greedy Search。

有些不同的方法可以讓beam search可以得到更好的結果，其中一個是length normalization。beam search會持續連乘使得機率值變很小，這可以透過取log相加取代，因為logP(y|x)和P(y|x)兩者取最大值將會有一樣的結果。當句子很長時，可以透過改變目標函式的方法來解決這個問題。因為取log後為<=1，所以當詞越多值也就會越小，一個方法是除上詞的數量來作正規化，這可以大幅的降低因為句子太長所造成的懲罰(Penalty)效果。另外為了要讓這個正規化效果更加的平滑，可以將Ty取α次方，比如說設定成0.7(1為完整的正規化，0為不作正規化)

但B值到底該如何選擇呢？B值越大會可以留下更多的組合來找到更好的結果，但卻訓練的時間會更久，而且也會使用更多的記憶體。Andrew這邊建立在production系統B為10就可以了，但是在研究的系統上，可以取更大的B來計算不同的組合，多次作嘗試。

因為翻譯問題不是像是圖像辨識一樣有正確的答案可以用accuracy來衡量，翻譯結果可能可以有多個一樣好的結果，這個時候可以使用Bleu(Biligual Evaluation Understudy) score來作訓練結果的衡量。
Precision會比對機器翻譯出來的結果和人翻譯的結果，看機器翻譯的每個詞，是否都有出現在不同的答案reference中。比如果機器翻譯出來有7個詞，其中the這個詞都出現在reference中，所以precision為7/7。但這樣的計算顯然不夠精確。Modified Precision則會給予每個詞不同權重，像是the在reference 1出現2次，在reference 2出現1次，因此會給它權重為2，那邊Modified Precision將會修正2/7。

但是衡量並不會只看單一詞的結果，比如說使用兩個詞為一組(Bigram)來作計算的話，會先透過bigram來取出所有組合，並計算每個組合在機器翻譯結果出現次數，再來計算每個組合在所有的reference中有沒有出現(1或0)，再來則將reference的數量除上機器翻譯bigram出現次數來計算 bigram的precision。

所以在使用N-gram取組合時，即可以歸納出一個公式，如果機器翻譯出來的結果和其中一組reference相同時，modified precision就會等於1。

把多個n-grams分數綜合起來，可以計算出一個綜合的分數再乘上BP。因為當機器的翻譯結果過短時，會造成大多的字存在reference中，使得modified precision會偏高，此時會引入BP(Brevity Penalty)的概念，當機器翻譯的長度比起reference還長時，BP為1即不給予懲罰分數；反之給予一個懲罰分數。

實際上人在進行翻譯時，並不會把整段都看完再翻譯，而是先看一小段翻完再往後看另一小段。而且當句子越長時，Bleu score會逐漸降低，這時如果使用Attention Model來幫助每一小段作翻譯的話，則可以解決這個問題。

雖然attention model是用在比較長的句子，但這邊使用短句來作說明。這裡encoder使用bidirectional RNN，在decoder時透過另一個RNN來完成翻譯。在產生第1個詞時會透過α來表示要產生這個詞應該要注意的資訊量有多少。接著再產生第2個詞時，會產生一組新的attention weight來表示產生第兩個詞時該注意的資訊量，並加上前一個產生的詞。

在建立attention model時，encoder使用的bidirectional RNN會貢獻兩個activation值，此值即為α權重。接著在decoder產生每個Y值時會輸入C，這個C即為α值的加總，用來表示要產生的Y值需要注意多少的資料量，而這個α會取softmax確保其加總為1。

所以在產生Y時主要有兩個輸入，一個是上個hidden狀態S< t-1 >，一個是要注意的資訊量a < t’ >，透過建立這個小的神經網路來使用梯度下降作訓練。但attention model的缺點就是他的計算成本較高，複雜度為Tx * Ty。

seqence to sequence可以被使用在文字的正規化，把不同型態的文字表達轉成一個相同的表示方法。

語音辨識(Speech Recognition)也是一種sequence to sequence的問題，輸入一段語音後期望可以輸出一段正確的辨識結果。傳統的語音辨識方法會使用音位(Phoneme)當作基本的單位來表示語音結果，但在end to end的深度學習方法，已經不再需要使用這種方法。

一個有效的方法是使用CTC cost，語音辨識因為每秒可能有多次的取樣，所以輸入的資料會很大，光是10秒的語音就可以變成上1000的輸入，但是輸出的辨識結果並不會有上千的輸出。CTC可以協助幫輸出的結果作適當的collapse，其會對重複的字作collapse像是重複的t, e和q來產生較短的結果。

這裡以trigger word偵測系為例來說明語音辨識問題，trigger word常被使用在一些智慧管家的產品當中，像是Google Home或是Amazon Echo。在訓練過程中會輸入語音，並在出現trigger word時的目標label設定為1，其它部份為0。

參考資料:
Deep Learning Course 5 - Sequece Models

Andrew深度學習課程五 - Sequence Model第2周筆記

發表於 2018-02-18 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

在上一週的課程中，我們使用了one-hot結合詞庫來將句子作量化處理。但是使用one-hot的缺點是每個詞被視為獨立的，也就是無法衡量出兩個詞之間的相似或與重要性(兩個one-hot vector內積都會為0)。所以當你想知道apple和orange之間的關係比起apple和king還接近，就無法單純的使用one-hot來作文字的量化。其中一個方法是可以用不同的特性來作量化，比如說使用性別、是否為食物等等的特性，這個時候便可以辯識出具有相同性質的詞。

這種量化文字的方法又可以被稱為Word Embedding，像是每個詞會嵌在高維度的特徵向量中，即每個詞都可以在高維度的特徵找到一個能表示它的位置，而如果要將多個維度的特徵壓縮到兩維來表示，可以使用t-SNE演算法來找到相同的詞會彼此較相近。

使用Word Embedding的好處除了可以判斷出兩個詞之間的相關係，也對Transfer learning有很大的幫助，即使用已經訓練好的word embeddig來用在新的任務。在使用word embedding於transfer learning有幾種方法。1. 從大量的詞庫(1-3B)中進行訓練(或是下載已被訓練過的) 2. 使用原本已建立的embedding並transfer到新的而且訓練資料集較小(1-3k)的任務 3. 持續的使用新的資料來對embeddings進行finetune。

Word Embeddings也可以作到比擬(analogy)，比如說Man之於Woman等同於King之於Queen，這可以透過向量相減來找到相似的結果。

實際上要基於Man與Woman的關係來找到King和某個詞，可以透過向量相似度的計算來找到，只要找到King和哪一個詞的相似度與Man和Woman的相似度最接近即可。這裡的相似度計算是從原始的高維度(~300D)來的，雖然可以透過t-SNE來將高維度使用非線性的轉換到2維空間作視覺化，但如果使用了轉換的2維來計算反而會失真，所以在實際上的相似度計算會使用原始的高維度向量空間。

一個常用的相似度計算是Cosine similarity，即計算兩個向量的角度來判斷兩個相向之間的相似度。Cosine similarity也經常被用在文本分析中，透過計算代表兩筆資料的高維度向量，來評估兩筆資料的相似度。

Word Embedding的學習最終會得到一個Embedding Matrix，凡是把這個矩陣乘上某一個詞的one-hot向量，所得到的即是代表這個詞的embedding。因為one-hot是高維度而且幾乎都是0的稀疏矩陣，所以在實務上並不會真的相乘，而且透過特別的方法來找到詞的embeddings。

在word embeddings的學習演算法中，過去往往會使用很多很複雜的演算法來學習，但後來卻發現很多簡單的方法就可以達到很好的效果。在複雜的方法中，比如說要預測一句話的下一個詞，可以把每個詞的word embeddings輸入到一個類神經網路學習，最後訓練出我們要的embedding matrix(E)。如果有300維度，那麼要輸入到網路裡面的維度就會多達300乘6共1800維，也可以選擇只看前4個詞來學習，那麼維度就會降到300乘4共1200維。

不過事實上用簡單一點的模型也可以訓練出好的效果，比如說只用預測詞的前一個字，或是最接近預測詞前一個詞的詞(又稱為skip gram)來訓練word embeddings matrix。

這裡介紹Word2Vec的Skip-grams模型，Skip-grams在選擇Context與Target組合時，針對Target可透過隨機挑選的方式選出不同的組合，比如說Context詞的+-5~10個詞來選出Target詞。

再來將這些對應的組合透過matrix E轉成word embeddings後丟入神經路網學習，接著經過softmax後計算loss function來訓練出matrix E。

但這個方法的主要缺點在於需要大量的計算，因為在計算softmax時，分別需要加總所有詞，如果詞的數量越多，那麼速度就會越慢，因此很難擴充到大型的訓練詞集。一個解法是使用hierarchical softmax，先拆出詞位於哪個部份(前或是後五千詞)，接著再接續往下作二元拆解。在tree的結構可以把常出現的通用詞放在上半部，這樣就可以較快的被找到。

因為skip-grams在計算softmax需要花費大量運算，使用Negative Sampling則可以避免這個問題。Negative Sampling首先會先建立postive pair和negaive pair，比如說orange和juice會一起出現，就給予label 1，然後再隨機選出其他K個詞和orange組成negative pair給予label 0(即便某些時候negative pair組合真的有一起出現也沒關係)。最後將這些組合透過監督式學習訓練模型。

接著可以使用logistic regression來計算在給定label為1時，postive pair組合的機率，並使用K+1組資料進行訓練，然後再將這個分類器應用在10000個詞作二元分類。因此比起原本作skip-grams要一次訓練10000組資料，使用negatiev sampling的方法只需要用少量的資料訓練，再一次用在多組詞的分類。

但是該如何去選擇negative sampling呢？一個方法可以從詞出現的頻率選起，但是很容易選到停用詞(stop word)；或是假定他是均勻分配，使用1/|V|來選擇，而在這篇論文裡面是用了每個詞在訓練詞庫中出現的3/4次方來計算機率作選擇。

另一個學習方法為GloVe，首先會計算context和target一起出現在訓練資料的次數，Xij會等於Xji如果是用target的正負距離來選擇context，但是如果只看target出現在context後面，就會不相等。

GloVe的模型中為了避免Xij為0，因此會乘上一個權重f(Xij)，如果Xij為0則f(Xij)為0，當然這個函式也可以用來給予不同詞頻的詞有不同的權重處理。

情感分析(Sentiment Analysis/Classification)是NLP其中一種應用，主要用在判斷文本中是表達喜歡或是不喜歡(正或負)。比如說，輸入的X為評論的內容，輸出Y為評論的情感等級，像是從網路評論中判斷對於餐廳或是旅館的正負評論。其最大的困難在於情感分析缺乏大量的標記資料來學習，如果使用word embedding可以幫助在少量訓練資料的情況下學習。

在建立情感分析模型時，一樣使將每個詞透過embedding matrix選出該詞的embeddings向量，接著透過加總或是取平均值後，再使用softmax函式得到輸出Yhat。不過因為這樣的方法是沒有前後順序的，所以如果遇到明明有否定詞在前面，但是後面出現很多的正向詞good，這可能就會造成誤判斷把明明是一星的評論判成五星，因為出現很多次的good會把結果導到正向，這個時候就需要使用RNN來建立模型。

使用RNN一開始也是將每個詞透過embeddings matrix找到該詞的embeddings向量，接著將每個詞輸入進RNN，最後再接softmax判斷結果，這個就一開始提到的Many to One的RNN類型。因為RNN是會有順序性的，所以對於出現否定詞的句子能夠處理的比較好。因為word embedding可以從較大的訓練資料訓練出來，所以即使在情感分析的訓練集裡面缺少了某些詞，但這些詞有被word embedding訓練過，這樣在作情感分析時也可以得到較好的結果。

在word embeddings的訓練過程中，可能會造成帶有偏見的學習結果，比如說本來是希望學出Man之於Woman等於King之於Queen，但可能會學習出Man之於Programer對於Woman之於Home_keeper這種帶偏見，或是Father之於Doctor對於Mother之於Nurse這種錯誤的結果。因為機器學習現在已經越來越普及的被應用在許多不同的領域上，所以這種帶偏見的錯誤結果應該要被避免的。

解決這種錯誤的學習有不同的方法，以解決性別偏見為例來說明，第一先將girl-boy和mother-father來找到屬於性別的分界向量，這時把任一個詞和這個分界向量作內積，就可以找到這個詞會偏向哪個性別，並找出bias direction，要讓不能帶有性別偏差的詞向量去除bias。透過Neutralize將一些對於性別來說屬於中性的詞，將其投影到non bias的方向軸，最後為確保像是doctor這種應該屬於中性的詞，與帶不同性別的詞(像Girl或是Boy)距離要是相同的，會使用Equalize pairs的手法將帶性別的詞移動到以軸為中性對稱的位置，這樣就會讓兩者與doctor的距離或是相似度是相同的。在選擇哪些詞需要進行Neutralize，可以透過練一個分類器來分辨；在選擇要equalize的部份因為較少量，所以可以簡單透過人工挑選的方式完成。

參考資料:
Deep Learning Course 5 - Sequece Models

Andrew深度學習課程五 - Sequence Model第1周筆記

發表於 2018-02-05 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

有序列性質的資料(sequence data)可以泛指輸入資料(X)是有序列的，或是輸出資料(Y)是有序列的。比如說在翻譯問題上，輸入和輸出都是有序列性的句子；但在情感分析問題上，輸入會是一個有序列性質的評論句子，但是輸出為情感的等級或是分數。

量化句子的方法可以使用詞庫加上one-hot encoding，可以透過自己建立或是使用已存在的詞庫，並將詞庫使用one-hot encoding作編碼來將文字資料作量化產生可以用來學習的輸入資料X。

如果使用一般標準的類神經網路會有什麼問題呢？1. 每一個訓練資料的輸入和輸出的長度不同，不好處理。2. 在不同文字中的不同位置無法學習出共同的特徵。如果要像CNN一樣能夠在不同的訓練資料的不同位置中學習到共同的特徵，就必須要透過RNN來達成。

Recurrent Neural Network(RNN)在每個訓練樣本會共同相同的weight和activation function。RNN會將每一個字詞X< i >經過激活函式後的結果，再傳給下一個字詞X< i+1 >，所以每個字詞會拿到由前面傳遞過來的資訊。但是只拿到前面字詞的資訊是不夠的，例如在判斷Teddy時，就需要使用字詞後面的句子內容，才能夠有效的區分Teddy究竟是指總統還是玩具。這時會使用到雙向的RNN(BRNN)才能夠解決這個問題。

前面有提到RNN的輸入和輸出長度可能會不一樣長，針對不同輸入輸出長度可分為不同類型的RNN。在翻釋問題上，不同的語言可能翻譯後的長度都不同，這是一個Many to Many問題；如果是情感分析會將一則評論輸出成正反或是1到5星等級，屬於Many to One問題；One to Many會適用在像是音樂生成，給定一種音樂類型來產生一首音樂；One to One這種類型就是一般的神經網路了。

RNN可以被應用在建立語言模型(Language Model)，例如在語音辨識中，透過語言模型可以透過計算不同輸出句子的機率，來辨識出哪一個句子是最符合的輸出。

把每個句字斷詞並量化後，就可以丟進RNN來建立模型。舉例來說，在訓練時，將第一層RNN輸入空向量，再將本來的實際詞Y< i >從第兩次RNN依序丟進去訓練，就可以建立模型來預測某段句子後會接什麼樣的詞。即輸入Cats average，判斷下個接每個詞的機率。所以可以透過將每個詞依序輸入來計算出在給定某個句子下，輸出某個詞的機率。在這裡可以透過外部詞典，並使用softmax來算出每個詞的機率

進一步我們就可以使用這個模型來隨機的產生句子，首先先隨機選出一個詞，接著將每個詞依序丟進下個結點來產生新的詞，直到取出字尾EOS或是設定一個固定的句子長度終止。

除了使用詞(Word-level)來組成句子，也可以使用字元(Character-level)來建且模型組成句子。如果使用字元來組成句子，那麼每一個輸出就是一個字元而非一個詞，好處在於不用怕取到辭典裡面沒有的詞，壞處則會產生更長的句子，也會降低訓練速度，所以目前經常是使用詞來建立模型。

梯度消失(Gradient Vanishing)

如果句子太長的話，使得神經網路過於深，會讓梯度在作back propagation時很難影響到前面的layer，產生梯度消失現象。對於RNN來說，實際上的影響在於如果太前面的神經元，將會無法去記住前面的詞(例如區分單數詞或是複數詞)。因此，傳統的RNN的輸出結果主要會受到接近神經元的影響，較遠的神經元不容易影響到最終的輸出。比起梯度爆炸容易被發現與處理，梯度消失反而不容易被處理，而且更容易影響到RNN的訓練結果。

Gate Recurrent Unit(GRU)是一個改善RNN長期記憶問題的方法，他引入了memory cell(C)的概念，在這裡的C就等同於activation function的輸出a，這個memory cell會將長期的記憶儲存下來，並用一個帶使用sigmoid轉換後的Γu值來判斷要不要選擇忘記之前的記憶並更新，還是要保留之前的記憶，直到不需時再忘記。實際上為什麼應用GRU會改善梯度消失的現象，主是要在Γu值透過sigmoid轉換後如數數值很小那麼就可能會非常的接近0，在這個情況下，C< t >就會非常接近C< t-1 >並很容易的保存較遠的記憶來大幅改善梯度消失的現象。

另一個常用的方法為Long Short Term Memory(LSTM)，在LSTM裡面C不再等同於a，LSTM會用到3種gate，分別為update gate, forget gate和output gate。

透過update gate和forget gate來決定是否保存較長遠的記憶，並透過output gate來輸出a到下一個神經元。

如果要同時合併前後神經元的資訊，就得使用Bidrectional RNN(BRNN)。BRNN除了從左到右作forward propagation外，也會從右到左作forward propagation。在輸出資料時，會同時輸入兩個方向進入activation function。而其中每個神經元也可以是GRU或是LSTM，所以實務上也會使用LSTM結合BRNN來建立模型。

RNN可以疊多層起來變成深度的RNN模型，本來RNN每一個順序都只有連接一個神經元，但也可以在每一個序順接處多個神經元來建立深度的RNN模型，甚至結合GRU和LSTM與BRNN來建立複雜的RNN模型。不過因為深度的RNN在訓練是非常耗資源的，所以不太常見到超過3層的RNN模型。

參考資料:
Deep Learning Course 5 - Sequece Models

第一次使用Keras就上手

發表於 2017-12-05 更新於 2021-06-21 分類於 Machine Learning 閱讀次數： Disqus：

最近正在學習Andrea在Coursera上開的Deep Learning課程，之前工作關係有接觸到keras，而且使用起來還滿容易上手的，所以就嘗試拿了MNIST資料集來試玩看看

首先載入手寫辨識資料集mnist，這個資料集還滿廣泛被拿來使用的，而且在keras也可以直接載入，另外也會用到最基本的keras Sequential model。

from keras.datasets 
import mnistfrom keras.models 
import Sequentialfrom keras.layers 
import Denseimport numpy as np

1 2	model = Sequential() (x_train, y_train), (x_test, y_test) = mnist.load_data()

再來直接宣告一個sequential模型，並載入訓練和測試資料集

x_train = np.reshape(x_train, (x_train.shape[0], -1))/255
x_test = np.reshape(x_test, (x_test.shape[0], -1))/255

y_train = np.eye(10)[y_train.reshape(-1)]
y_test = np.eye(10)[y_test.reshape(-1)]

接著要先處理一下載入的資料，在x資料的部份要先將原本28×28的維度轉成1×784輸入，這裡可以使用numpy的reshape來處理，再來再將資料除上255作正規化。另外在label y資料集的部份則要作one-hot encoding，將每個標籤轉成長度為10的向量，並用0和1來表示屬於哪一個類別。

>>> x_train.shape
(60000, 784)
>>> x_test.shape
(60000, 10)
>>> y_train.shape
(10000, 784)
>>> y_test.shape
(10000, 10)

可以看到處理完後的資料維度

1 2	model.add(Dense(units=256, activation='relu', input_dim=28*28)) model.add(Dense(units=10, activation='softmax'))

再來加入兩個layer，即只使用一個hidden layer和一個output layer，其中hidden layer有256顆神經元，output layer有10顆，並透過softmax輸出結果

1
2
3

model.compile(loss='categorical_crossentropy',
              optimizer='Adam',              
              metrics=['accuracy'])

接著開始設定使用什麼loss function與最佳化的方法，還有要評估模型的指標

1	model.fit(x_train, y_train, epochs=10, batch_size=32)

接著就開始訓練，其中會設定訓練的週期與每一次的批數

>>> loss_and_metrics = model.evaluate(x_train, y_train, batch_size=128)
>>> print(loss_and_metrics)
loss=0.007, acc=0.998
>>> loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128)
>>> print(loss_and_metrics)
loss=0.08, acc=0.979

中間可以看到訓練的過程，在訓練完畢說可以透過evaluate來評估model在訓練資料集，還有測試資料集的正確率。

keras在建立模型非常方便使用，可以很容易的加入需要的hidden layer數，而且針對常使用的activation function, loss function和最佳化的方法都有支援，如果需要快速的建出模型來作應用非常的推薦。另外keras也有支援CNN還有RNN，下次會用別的資料來試試看囉！

參考資料:
Keras Getting Start

機器學習基石(Machine Learning Foundation)第十六講筆記

發表於 2017-11-01 更新於 2021-05-11 分類於線上課程筆記閱讀次數： Disqus：

上一堂提到validation的手法，透過留下用來驗證的資料模擬測試過程，並透過validation結果來選擇該使用什麼樣的模型。這一堂會提到三個在作機器學習時的小技巧。

Occam’s Razor在機器學習裡面意議是指不要對資料有過多的解釋，就是越簡單的解釋越好。以上面兩張圖的資料來看，左邊的模型符合直覺判斷，是一種比較容易而且簡單的解釋，那到底什麼樣的模型才叫簡單的模型，而為什麼簡單的模型就比較好呢？

簡單的hypothesis是指沒有過多的參數就是個簡單的hypothesis，而簡單的模型則是指模型包含了較少的hypothesis就是個簡單的模型，所以簡單在這裡就是指比較小的hypothesis和模型複雜度。而要得到簡單的解釋，除了一開始就使用簡單的模型之外，也可以在之前透過regularization來達成。

那為什麼簡單的模型就比較好呢？如果今天使用簡單的模型就可以將資料分類正確，那某種程度上也就代表著資料背後的關聯性或是規律性是簡單的；相反的如果使用很複雜的模型，可能就無法知道資料背後的關聯性，因為不管是有關聯性的資料，或是雜訊很多的資料，都可以被複雜的模型分的開。所以如果使用簡單的模型來解釋資料，可以很直覺的看到資料間的顯著性，但是如果使用複雜的模型就辨別不出來，所以建議一開始推薦先使用線性模型。

第二個技巧會談到樣本的抽樣誤差，這裡用一個美國總統選舉的例子，來說明如果抽樣和要學習的結果不一致，並帶出抽樣誤差問題。如果在抽樣時就發生抽樣誤差，那麼在學習時就會產生偏差的結果，這就是為什麼前面課堂有說到訓練和測試的樣本資料要抽樣自相同的分配，訓練和測試的資料抽自相同的分配，才會得到預期中的學習效果，這就是我們VC中的重要假設。

這裡舉了一個實際上發生過的問題，如果訓練資料和驗證資料有有時間前後依序性(即一個人看過的電影順序)，而非隨機取樣的話，如果透過隨機取樣來建立訓練資料和驗證資料，那麼在學習和驗證中就會有問題。這時候為了讓測試和驗證可以盡可能的接近，例如訓練時可以把時間依序性較後面的權重調高，或是抽比較多時間依序較後面的資料來作驗證。

再來第三個技巧則是談到之前說到偷看資料的問題，前面有說到如果偷看了資料，可能會把人腦學習到的，或是自己的偏差帶進機器學習裡面。

偷看資料其實比想像中更容易發生，不是只有用眼睛視覺化的偷看才叫偷看，而是你在處理資料的整個過程中，都算是間接的偷看了資料。如果使用這樣偷看過的資料，都會受到自己的主觀影響。假設今天有一組八年的交易資料，使用前六年當訓練，後兩年當測試。其中在將資料作放縮(Data Scaling)的資料處理過程中，如果不是將前六年作縮放，預測完再還原，而是直接將八年的資料都作放縮的話，就會得到紅色這條上升趨線。這樣將會得到一個太過於樂觀的學習結果，如果將這個結果用來實際投資可能會大大的失準。

除了直接的視覺化偷看，或是使用統計分析間接的偷看，其實作在研究上也會發生。例如針對相同問題，不同的論文會都使用更好的模型來作的比以前好，這樣的過程就有點像你的論文間接的偷看了前面論文的結果，這樣就有點像某種程度的overfit了。正是所謂的如果你拷問資料過久了，他就會招拱一個好的hypothesis，但是這個hypothesis應該用測試資料可能效果不保證會好。

但是完全不偷看其實很不容易，只能盡量的降低這中間的干擾，比如說小心的使用validation，或是把測試資料好好的先收好。所以要時時注意的是，記得要用專業知識來建立模型，而不是先偷看了資料來作決策。另外要時時存著懷疑每次作出來的結果，並懷疑這樣的分析結果是不是有受過汙染。

這堂課教到很多和三有關的東西，第一個是三個和機器學習相關的領域，Data Mining是希望在大量資料中找到找到有用或是重要的關聯，人工智慧是要讓機器作出有智慧的事情(像是自動駕駛)，機器學習可以說是實現人工智慧的方法，統計則是為了去對母體作出推論，所以統計方法也被大量的使用在機器學習上。

在機器學習背後理論的保證，如果只有一個hypothesis的情況下，Hoeffding可以情供測試驗證的保證，當有多個hypothesis的情況下，Multi-Bin Hoeffding可以提供在有限多個選擇下的保證，如果是無限多個選擇下，VC則是可以提供在無限多個hypothesis是供理論上的保證。

在機器學習模型部份，PLA/pocket可以提供在線性可分下處理二元分類問題，在衡量上為讓0/1 err最小化，linear regression則是可以處理數值預測問題，在衡量上使用squared err最小化，logistic regression則可以處理軟性二元分類問題，在衡量上使用cross entropy最小化。

另外還有學到三個重要的技巧，Feature Transform可以將簡單的線性模型轉成高維度的複雜模型，會得到較好的Ein但是也會付出較高的VC代價，Regularization則是相反，透過加上regularizer來讓VC代價變小，但是也會讓Ein變大，Validation則是在沒辦法拿到測試資料的情況下，留下一部份的資料當作驗證資料。

最後則是這堂課學到的三個注意的地方，要注意簡單模型是好的，而且要注意抽樣的偏差，最後要記得不能提看資料。

再來後面的課程還會上到如何使用不同的轉換方法，以即不同的規則化方法，或是在缺少label的情況下該如何進行訓練。

總結這堂課程學到了很多機器學習背後的論理依據，而許多不同的機器學習方法將在另一堂機器學習技法課程教授！

參考資料:
Machine Learning Foundation 16