首發(fā)：AI公園公眾號
作者：Andre Ye
編譯：ronghuaiyang

導讀

為什么半監(jiān)督學習是機器學習的未來。

監(jiān)督學習是人工智能領域的第一種學習類型。從它的概念開始，無數(shù)的算法，從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡，都已經(jīng)被研究用來提高精確度和預測能力。
然而，一個重大突破揭示了添加“無監(jiān)督數(shù)據(jù)”可以提高模型泛化和性能。事實上，在非常多的場景中，帶有標簽的數(shù)據(jù)并不容易獲得。半監(jiān)督學習可以在標準的任務中實現(xiàn)SOTA的效果，只需要一小部分的有標記數(shù)據(jù) —— 數(shù)百個訓練樣本。
在這個我們對半監(jiān)督學習的探索中，我們會有：

_半監(jiān)督學習簡介_。什么是半監(jiān)督學習，它與其他學習方法相比如何，半監(jiān)督學習算法的框架/思維過程是什么？
_算法：Semi-Supervised GANs_。與傳統(tǒng)GANs的比較，過程的解釋，半監(jiān)督GANs的性能。
_用例和機器學習的未來_。為什么半監(jiān)督學習會有如此大的需求，哪里可以應用。

半監(jiān)督學習介紹

半監(jiān)督學習算法代表了監(jiān)督和非監(jiān)督算法的中間地帶。雖然沒有正式定義為機器學習的“第四個”元素(監(jiān)督、無監(jiān)督、強化)，但它將前兩個方面結合成一種自己的方法。
這些算法操作的數(shù)據(jù)有一些標簽，但大部分是沒有標簽的。傳統(tǒng)上，人們要么選擇有監(jiān)督學習的方式，只對帶有標簽的數(shù)據(jù)進行操作，這將極大地減小數(shù)據(jù)集的規(guī)模，要么，就會選擇無監(jiān)督學習的方式，丟棄標簽保留數(shù)據(jù)集的其余部分，然后做比如聚類之類的工作。

這在現(xiàn)實世界中是很常見的。由于標注是很昂貴的，特別是大規(guī)模數(shù)據(jù)集，特別是企業(yè)用途的，可能只有幾個標簽。例如，考慮確定用戶活動是否具有欺詐性。在100萬用戶中，該公司知道有1萬用戶是這樣的，但其他9萬用戶可能是惡意的，也可能是良性的。半監(jiān)督學習允許我們操作這些類型的數(shù)據(jù)集，而不必在選擇監(jiān)督學習或非監(jiān)督學習時做出權衡。
一般來說，半監(jiān)督學習算法在這個框架上運行：

半監(jiān)督機器學習算法使用有限的標記樣本數(shù)據(jù)集來訓練自己，從而形成一個“部分訓練”的模型。
部分訓練的模型對未標記的數(shù)據(jù)進行標記。由于樣本標記數(shù)據(jù)集有許多嚴重的限制(例如，在現(xiàn)實數(shù)據(jù)中的選擇偏差)，標記的結果被認為是“偽標簽”數(shù)據(jù)。
結合標記和偽標簽數(shù)據(jù)集，創(chuàng)建一個獨特的算法，結合描述和預測方面的監(jiān)督和非監(jiān)督學習。

半監(jiān)督學習利用分類過程來識別數(shù)據(jù)資產，利用聚類過程將其分成不同的部分。

算法：Semi-Supervised GAN

半監(jiān)督的GAN，簡稱為SGAN，是[生成對抗網(wǎng)絡](https://medium.com/analy tics-... -an-直覺解釋-革命概念-2f962c858b95)架構的一個變體，用于解決半監(jiān)督學習問題。
在傳統(tǒng)的GAN中，判別器被訓練來預測由生成器模型生成的圖像是真實的還是假的，允許它從圖像中學習判別特征，即使沒有標簽。盡管大多數(shù)人通常在GANs中使用訓練很好的生成器，可以生成和數(shù)據(jù)集中相似的圖像，判別器還是可以通過以轉移學習作為起點在相同的數(shù)據(jù)集上建立分類器，允許監(jiān)督任務從無監(jiān)督訓練中受益。由于大部分的圖像特征已經(jīng)被學習，因此進行分類的訓練時間和準確率會更好。
然而，在SGAN中，判別器同時接受兩種模式的訓練：無監(jiān)督和監(jiān)督。

在無監(jiān)督模式中，需要區(qū)分真實圖像和生成的圖像，就像在傳統(tǒng)的GAN中一樣。
在監(jiān)督模式中，需要將一幅圖像分類為幾個類，就像在標準的神經(jīng)網(wǎng)絡分類器中一樣。

為了同時訓練這兩種模式，判別器必須輸出1 + _n_個節(jié)點的值，其中1表示“真或假”節(jié)點，_n_是預測任務中的類數(shù)。
在半監(jiān)督GAN中，對判別器模型進行更新，預測K+1個類，其中K為預測問題中的類數(shù)，并為一個新的“_假_”類添加額外的類標簽。它涉及到同時訓練無監(jiān)督分類任務和有監(jiān)督分類任務的判別器模型。整個數(shù)據(jù)集都可以通過SGAN進行傳遞 —— 當一個訓練樣本有標簽時，判別器的權值將被調整，否則，分類任務將被忽略，判別器將調整權值以更好地區(qū)分真實的圖像和生成的圖像。

雖然允許SGAN進行無監(jiān)督訓練，允許模型從一個非常大的未標記數(shù)據(jù)集中學習非常有用的特征提取，但有監(jiān)督學習允許模型利用提取的特征并將其用于分類任務。其結果是一個分類器可以在像MNIST這樣的標準問題上取得令人難以置信的結果，即使是在非常非常少的標記樣本(數(shù)十到數(shù)百個)上進行訓練。
SGAN巧妙地結合了無監(jiān)督和監(jiān)督學習的方面，強強聯(lián)合，以最小的標簽量，產生難以置信的結果。

用例和機器學習的未來

在一個可用數(shù)據(jù)量呈指數(shù)級增長的時代，無監(jiān)督數(shù)據(jù)根本不能停下來等待標注。無數(shù)真實世界的數(shù)據(jù)場景會像這樣出現(xiàn) —— 例如，YouTube視頻或網(wǎng)站內容。從爬蟲引擎和內容聚合系統(tǒng)到圖像和語音識別，半監(jiān)督學習被廣泛應用。
半監(jiān)督學習將監(jiān)督學習和非監(jiān)督學習的過擬合和“不擬合”傾向(分別)結合起來的能力，創(chuàng)建了一個模型，在給出最小數(shù)量的標記數(shù)據(jù)和大量的未標記數(shù)據(jù)的情況下，可以出色地執(zhí)行分類任務。除了分類任務，半監(jiān)督算法還有許多其他用途，如增強聚類和異常檢測。盡管這一領域本身相對較新，但由于在當今的數(shù)字領域中發(fā)現(xiàn)了巨大的需求，算法一直在不斷地被創(chuàng)造和完善。
半監(jiān)督學習確實是機器學習的未來。

—END—

英文原文：https://toward sdatascience.co...

推薦閱讀