[非監督]t-SNE降維

Manifold learning

Manifold的概念是低維空間的數據被塞在高維空間中,我們的目的就是將X(高維數據)與Z(低維度的數據)做轉換。

LLE(locally linear embedding)

x^i表示自己,x^j表示鄰居,{自己}減去{自己的所有鄰居}與{w的線性組合},然後我們對每一筆數據都做一次求它們的MSE,然後要越小越好。


高維空間的x可以轉成低維空間的z,它們的w是不變的。
每一個點與點(鄰居)間的euclidean distance(歐式距離)必須要很小,結果才成立,所以我們選不同數量的K(他們的鄰居),會有不同的結果。

t-SNE(t-distributed stochastic neighbor embedding)

前面的LLE確實會把同的類別放在一起,但它不會把不同的類別分開,而t-SNE將不同類別區別開來,主要用於可視化。

SNE

先來講講SNE,給定一個N個高維的數據 x_1,...,x_N(多個特徵),SNE的式子如下圖,||?||是求歐式距離\sigma是標準差,SNE將數據點之間高維的歐氏距離轉換為條件概率(表示相似度),即用條件概率P(j|i)表示點x^{j}到點x^{i}的相似度。令p(i|i)为0,因為我們關注的是點兩兩之間的相似度。參數σ_i,對於不同的點xi取值不一樣,後續會討論如何設置。
\frac{ e^{ {自己與鄰居的歐式距離}^{2} /2 \sigma^{2} } }{ e^{ {自己與所有鄰居的歐式距離}^{2} /2 \sigma^{2} } } ,有normization的效果。

這邊假定轉換後的低維下y_i (對應高維x_i) 和y_j (對應高維x_j)的條件概率為q(j∣i),而我們可以指定標準差\sigma = \frac{1}{ \sqrt{2} },令q(i∣i)=0。


我們的總體目標是選擇 Y 中的一個數據點,然後其令條件概率分佈 q 近似於 p。這一步可以通過最小化兩個分佈之間的 KL 散度(損失函數)而實現,這一過程可以定義為:

我們希望能最小化該損失函數,所以我們可以使用梯度下降進行迭代更新。

  • 常態分怖的關係
    上面可以看做是常態分怖x^{i}為 \mu,對於鄰近的點P(j|i)機率較高,\sigma決定由中心\mu向外遠離的點機率下降的速度。
    σ^{i} 是以x^{i}為中心的高斯分佈的方差。因為數據點的稠密程度不同,因此這個方差選用單個固定值是不合理的,例如在密度高的區域適合選用較小的方差值。

  • 如何求σ
    我們定義一個constant叫"困惑度(perplexity)",將前面的機率代入這個式子,用來二分搜索來找這個合適的σ,困惑度通常設於5到50之間,H( P_{i} )P_{i}的熵(entropy)。
    想了解不同perplexity的變化可以參考這篇:
    https://cloud.tencent.com/developer/article/1143644

  • SNE的問題
    由於KL散度並不具有對稱性,所以數據點對距離之間的不同類型的錯誤在權重上是不均勻的。簡單來說,從P到Q的度量通常並不等於從Q到P的度量。

t-SNE

t-SNE通常只用在降維做可視化。
t-SNE重點解決了兩個問題,一個是SNE的不對稱問題(用聯合概率分佈替代條件概率分佈),另一個是不同類別之間簇的Crowding(擁擠)問題(引入t分佈)。

  • 不對稱問題
    首先使用聯合概率分佈來替代條件概率分佈,使得∀i,j,p_{ij}=p_{ji},q_{ij}=q_{ji}
    但會有另一個問題,如果數據點x_i離群簇非常遠,則∥ x_{i} − x_{j} ∥^2的值會很大,而p_{ij}會相應變得非常小,也就是說x_i的位置很遠這件事情對損失函數影響很小(沒有足夠的懲罰)。

為了解決這個問題,聯合概率分佈定義修正為:


代回原先的式子,式子的梯度計算因此而簡化了不少,也解決了不對稱的問題。

  • Crowding問題
    t-sne解決這個問題的方式是t分佈,準確地說是自由度為1的t分佈,也就是柯西分佈。 t分佈具有長尾特性,相比於正太分佈,柯西分佈在尾部趨向於0的速度更慢。因此t-sne在低為空間中引入這種分佈,既能解決擁擠問題,又能解決優化問題。
    使用t分怖後如下:



實作



推薦閱讀:
http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf

參考李宏毅老師ML課程
參考t-SNE完整笔记

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容