2016年9月29日 星期四

2016/9/30 machine learning


上禮拜為了交加簽單提早走,沒點到名,
一直以為這堂選上的課會被drop掉,頗崩潰

- - -

突然想起我今天這堂課好像沒簽到任何名字之類的...
是沒點名,還是我沒點到名?

----
ECM5901 最佳化理論與應用 Optimization Theory and Application
4BCD-EDB26  授課教師:劉俊宏
可以去旁聽
- - -

今天下課有問老師問題

問說那個λ對於conatrains的意義
結果馬上被身後一個大陸口音的同學打岔
要我回去自己查Lagrange multiplier
我查了維基百科
突然想起,這不是線性代數第一堂課老師有教過的函數逼近法嗎?
真糟糕,全都還給老師了

- - -

13:10-14:00
review last course
(1)decision theory
Find misclassification rate
<meth 1>當各種分類錯誤的嚴重性(權重)相同,使用最簡單的畫出函數找交點
<meth 2>最小化expected loss--minimize Baye's risk
    當分類錯誤嚴重性不同,例如:肺癌誤診不嚴重,應檢出而未檢出較嚴重
    使用loss matrix做加權

三種方法(歷史演進):
1. Discriminate function
2. Generative model
3. Discriminative model -> ch4 logistic regression

14:20-16:10
(2)Information Theorem
這一節講Entropy, 基本上就是定義成負亂度
所以data越可以預測,越整齊,與model變異越小,Entropy就越大
然後我們目的是要最大化Entropy

介紹了一種constrained optimitor
基本上就是Lagrange multiplier的一種實現形式
推導出最佳化的機率分布是高斯分布

接下來他把Entropy的概念應用在Kullback–Leibler divergence
簡單的說就是有一個理想的機率分布p(x)
我們用一個函數q(x)去近似它
KL divergence是實際的Entropy減去理想的Entropy,也就是理想與現實的差距

接下來要證明 KL(  p(x) ||  q(x) ) 恆大於等於0
這個證明暫且跳過

再來,這個q(x)要怎麼挑?
那就是使用統計裡的max. likelihood方法
q(x)裡一定有一些待定的參數,假設是θ
那麼我們就可以在q(x|θ) 裡固定x找最大機率的q(x|θ)
得到的θ就是估計的θ,就可以決定q
這個θ也可以用最小化KL(  p(x) ||  q(x|θ) )去估計得到
    




沒有留言:

張貼留言