迷途塵世的書僮筆記: 2016/10/7 Machine Learning

期中考可以帶A4小抄
---

上次結束掉ch1, decision theory和information theory在ML的角色
上了Entropy及延伸出來的KL-divergence概念
主要用來測量一個機率分布是不是夠理想, 有多理想
也就是說, 我們所假設的機率分布p(x), 與我們實際觀測到的機率分布q(x)到底差距多遠
---
今天開始上Ch2 Probability Distribution (課程手稿講義p.19)
本次介紹在三種資料下的model, 以及其各自適用的機率分布,
重點在於介紹該如何從先驗機率(prior)推導至後驗機率(posterior)
以及證明各自的先驗(prior)機率模型及後驗(posterior)機率模型會剛好相同,
這也表示, 貝式learning方法可以支援sequential learning

三種資料:
1. {0,1} 整數 -> binomial
2. {....,-2,-1,0,1,2,....} 整數 -> multinomial
3. {3.14159, 1, -1, ....}實數 -> Gaussian

第二種例如text mining, 第三種例如signal
以上所提的三種model: binomial, multinomial, Gaussian指的是likelihood所取用的model
我們發現
type_1的prior取用Beta時,
其"conjugate prior", 也就是posterier, 也會是 Beta;
type_2的prior取用Dirchlet時,
其"conjugate prior", 也就是posterier, 也會是 Dirchlet;
type_3的prior取用Gaussian-Gamma時,
其"conjugate prior", 也就是posterier, 也會是 Gaussian-Gamma;

其公式為:
posterier = likelihood * prior
P( 未知參數 | data, 超參數 )
= P( data |未知參數 ) * P( 未知參數 | 超參數 )
超參數是指一個在計算過程中假設為固定的參數, 也是我們真正可以learn到的東西

整堂課就在進行以上所述的證明,
我們藉由不斷調整prior(簡單一點說, 就是tune機率分布的參數),
以學習到更正確的先驗機率
藉此提高prediction的準確率

其prediction公式為:
p(x=1|data) = 積分 { p(x=1|未知參數) * posterier }
----