亚洲综合AV天堂网帅,欧美日韩网站网址,北条麻纪成人影片

編者按：數(shù)據(jù)科學(xué)家Rakshith Vasudev簡要解釋了one hot編碼這一機器學(xué)習(xí)中極為常見的技術(shù)。

圖片來源：imgur

你可能在有關(guān)機器學(xué)習(xí)的很多文檔、文章、論文中接觸到“one hot編碼”這一術(shù)語。本文將科普這一概念，介紹one hot編碼到底是什么。

一句話概括：one hot編碼是將類別變量轉(zhuǎn)換為機器學(xué)習(xí)算法易于利用的一種形式的過程。

通過例子可能更容易理解這個概念。

假設(shè)我們有一個迷你數(shù)據(jù)集：

其中，類別值是分配給數(shù)據(jù)集中條目的數(shù)值編號。比如，如果我們在數(shù)據(jù)集中新加入一個公司，那么我們會給這家公司一個新類別值4。當(dāng)獨特的條目增加時，類別值將成比例增加。

在上面的表格中，類別值從1開始，更符合日常生活中的習(xí)慣。實際項目中，類別值從0開始（因為大多數(shù)計算機系統(tǒng)計數(shù)），所以，如果有N個類別，類別值為0至N-1.

sklear的LabelEncoder可以幫我們完成這一類別值分配工作。

現(xiàn)在讓我們繼續(xù)討論one hot編碼，將以上數(shù)據(jù)集one hot編碼后，我們得到的表示如下：

在我們繼續(xù)之前，你可以想一下為什么不直接提供標簽編碼給模型訓(xùn)練就夠了？為什么需要one hot編碼？

標簽編碼的問題是它假定類別值越高，該類別更好。“等等，什么！”

讓我解釋一下：根據(jù)標簽編碼的類別值，我們的迷你數(shù)據(jù)集中VW > Acura > Honda。比方說，假設(shè)模型內(nèi)部計算平均值（神經(jīng)網(wǎng)絡(luò)中有大量加權(quán)平均運算），那么1 + 3 = 4，4 / 2 = 2. 這意味著：VW和Honda平均一下是Acura。毫無疑問，這是一個糟糕的方案。該模型的預(yù)測會有大量誤差。

我們使用one hot編碼器對類別進行“二進制化”操作，然后將其作為模型訓(xùn)練的特征，原因正在于此。

當(dāng)然，如果我們在設(shè)計網(wǎng)絡(luò)的時候考慮到這點，對標簽編碼的類別值進行特別處理，那就沒問題。不過，在大多數(shù)情況下，使用one hot編碼是一個更簡單直接的方案。

另外，如果原本的標簽編碼是有序的，那one hot編碼就不合適了——會丟失順序信息。

最后，我們用一個例子總結(jié)下本文：

假設(shè)“花”的特征可能的取值為daffodil（水仙）、lily（百合）、rose（玫瑰）。one hot編碼將其轉(zhuǎn)換為三個特征：is_daffodil、is_lily、is_rose，這些特征都是二進制的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴