艹B一区二区,美女在线视频福利,亚洲天堂欧美少妇

7月28-29日，由中國人工智能學(xué)會和深圳市羅湖區(qū)人民政府共同主辦，馬上科普承辦的“2018 中國人工智能大會（CCAI 2018）”完美收官。

大會第一天上午，中國人工智能學(xué)會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長楊強(qiáng)教授作題為《GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策》的主題演講。

以下是根據(jù)速記整理的大會講座實(shí)錄。

楊強(qiáng)教授中國人工智能學(xué)會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長

今天我也非常高興來到這里和大家分享最近的一段心得。剛才聽了幾位非常精彩的演講。大家都在為AI的進(jìn)步激動了一把，我也同樣小小地激動了一把，因?yàn)楝F(xiàn)在確實(shí)是未來已來。但是，我們面對未來，總還是有小小的隱憂，因?yàn)槲磥硪彩俏粗?，也有隱憂。我們對什么未知，為什么有隱憂？

人工智能曾經(jīng)有過三個(gè)高峰，現(xiàn)在是處在第三個(gè)高峰，這中間有兩次低谷。我們研究一下：為什么會出現(xiàn)低谷？第一個(gè)高峰的出現(xiàn)是因?yàn)榇蠹铱吹搅巳斯ぶ悄艿南Ｍ?，也就是自動?a target="_blank">算法對提高效率的希望，但是到后來卻發(fā)現(xiàn)算法的能力不夠，因此就產(chǎn)生失望，進(jìn)而導(dǎo)致了第一個(gè)低谷。然后算法跟上來了，但是這時(shí)卻發(fā)現(xiàn)算力和數(shù)據(jù)不夠，專家系統(tǒng)的設(shè)計(jì)跟不上工業(yè)的成長需求，這就引發(fā)了AI的第二個(gè)低谷。之后大家又看到，現(xiàn)在算法和算力都有提升，而且有了大數(shù)據(jù)的出現(xiàn)，AI的難題終于可以解決了?，F(xiàn)在的一個(gè)說法是我們處于大數(shù)據(jù)時(shí)代，所以這一波的人工智能一定會成功。這個(gè)感覺來自一個(gè)很強(qiáng)的推動力，就是AlphaGo的成功。最初的2016年版的AlphaGo使用了30萬個(gè)棋局訓(xùn)練，是大數(shù)據(jù)的成功。下面的這幅照片，是上周我們在國際人工智能大會IJCAI上，在瑞典為AlphaGo團(tuán)隊(duì)頒了一個(gè)國際人工智能獎（MINSKY AWARD）。之所以如此受到AlphaGo的鼓舞，是因?yàn)槲覀兟?lián)想到，既然AlphaGo在圍棋上都有如此大的突破，那么人工智能是不是在各行各業(yè)都會突飛猛進(jìn)？

我們問：AlphaGo 的這種大數(shù)據(jù)真的出現(xiàn)在各行各業(yè)了？了解到的情況卻讓我們非常失望，遠(yuǎn)遠(yuǎn)不是！更多的應(yīng)用領(lǐng)域有的只是小數(shù)據(jù)，或者質(zhì)量很差的數(shù)據(jù)。上面這個(gè)“人工智能到處可用”的錯(cuò)誤的認(rèn)知會導(dǎo)致很嚴(yán)重的商業(yè)后果。最近聽到一個(gè)IBM沃森應(yīng)用失敗的消息。大家知道，IBM沃森是一個(gè)非常有名的系統(tǒng)。這個(gè)系統(tǒng)是個(gè)問答（QA）系統(tǒng)，給一個(gè)問題Q，它能很精準(zhǔn)找到答案A。具體過程大概就是這樣：比如我們給了上面一個(gè)問題，沃森就用一個(gè)高維的表示來表達(dá)這個(gè)問題Q。大家可以把這種表示想象成物理學(xué)里的光譜，就是一束光打過來，用棱鏡分解成不同頻率的光，就看到了光譜。有了這個(gè)光譜以后，可以和答案庫里對應(yīng)答案，它的概率也應(yīng)該相應(yīng)的高，這就是可能的答案。這個(gè)流程應(yīng)該說非常簡單，但問題就是要有一個(gè)很健全的答案庫。IBM在電視大賽上取得了成功之后，就把這個(gè)應(yīng)用在一些聽起來比較好的垂直領(lǐng)域——醫(yī)療領(lǐng)域。但是，最近的消息是在一個(gè)美國的癌癥治療中心，發(fā)現(xiàn)這個(gè)應(yīng)用非常不理想，從而導(dǎo)致了這個(gè)項(xiàng)目的失敗。我們看一看在醫(yī)療領(lǐng)域，這些領(lǐng)域里的問題和答案來自哪里？比如收入有病癥、基因序列、病理報(bào)告、各種各樣的檢測、各種論文，沃森的任務(wù)是利用這些數(shù)據(jù)來做診斷，幫助醫(yī)生。但是，經(jīng)過一段時(shí)間的實(shí)踐發(fā)現(xiàn)，這個(gè)大數(shù)據(jù)的來源遠(yuǎn)遠(yuǎn)不夠，導(dǎo)致系統(tǒng)的效果差。那么，在醫(yī)療領(lǐng)域，我、缺乏哪些數(shù)據(jù)？我們需要很多有標(biāo)注的數(shù)據(jù)。但是，我們知道，醫(yī)生的時(shí)間是非常昂貴，不可能像一些其他計(jì)算機(jī)視覺應(yīng)用一樣，大眾、普通人都可以來做標(biāo)注。在醫(yī)療這樣專業(yè)領(lǐng)域，只有專家才能做決策，但是專家的時(shí)間非常寶貴，就導(dǎo)致這種標(biāo)注的數(shù)據(jù)非常有限。有人估計(jì)了一下，把醫(yī)療數(shù)據(jù)放在第三方公司標(biāo)注，需要動用1萬人用長達(dá)10年的時(shí)間才能收集到有效的數(shù)據(jù)。這就說明，在這些領(lǐng)域，即使動用很多人來做標(biāo)注，數(shù)據(jù)也不夠。這就是我們面臨的現(xiàn)實(shí)。

那么可不可以把很多散落在各地、各個(gè)機(jī)構(gòu)的數(shù)據(jù)合并成大數(shù)據(jù)？現(xiàn)實(shí)是，我們訓(xùn)練預(yù)測模型時(shí)，需要有一部分的特征，即原始特征叫做X。比如，在手機(jī)應(yīng)用里，有用戶信息的維度，也有產(chǎn)品特征的維度，這些可以看作是X維度。但要用這些維度做用戶行為預(yù)測模型，同時(shí)還要有行為標(biāo)注列Y 。 Y就是我們要知道的答案。比如在金融領(lǐng)域，Y就是用戶的信用；在營銷領(lǐng)域，Y就是用戶的購買愿望；而在教育領(lǐng)域，Y就是學(xué)生學(xué)到知識的程度等。X+Y才有了真正的訓(xùn)練數(shù)據(jù)，就像對不同圖像里的物體進(jìn)行標(biāo)注一樣。

但是，在現(xiàn)實(shí)當(dāng)中，卻往往遇到這樣的情況：有些企業(yè)只有X，只有一些沒有標(biāo)注的數(shù)據(jù)，即使不斷地在收數(shù)據(jù)，但也只是部分的數(shù)字化；有些企業(yè)可能有Y，有標(biāo)注，通過一些手段或者應(yīng)用本身就是帶有標(biāo)注的，但是，它們對應(yīng)的數(shù)據(jù)樣本也不多。那么這些企業(yè)能不能把它們的數(shù)據(jù)很容易地合并，變成有用的訓(xùn)練數(shù)據(jù)？我們發(fā)現(xiàn)，這樣做是越來越難了，因?yàn)槠髽I(yè)中間是有道墻的，形成數(shù)據(jù)源的隔離。數(shù)據(jù)源隔離這種現(xiàn)象是很多的。舉個(gè)例子，我現(xiàn)在在“微眾銀行”學(xué)習(xí)AI和金融的結(jié)合，這里有大量的應(yīng)用，比如智慧零售。在零售領(lǐng)域的數(shù)據(jù)來自很多產(chǎn)品的數(shù)據(jù)、用戶購買商品的數(shù)據(jù)等。但是，零售業(yè)卻缺乏其他一些數(shù)據(jù)，比如他們并不是知道用戶的購買能力，或者支付習(xí)慣等。那么這些發(fā)展智慧零售的機(jī)構(gòu)能不能把自己的數(shù)據(jù)和銀行的數(shù)據(jù)直接合并？答案是不行的。

這里有幾個(gè)原因。首先公司間的數(shù)據(jù)合作要考慮利益的交換，然后不同部門和機(jī)構(gòu)的行政批準(zhǔn)流程也許很不一樣；同時(shí)，現(xiàn)代社會對于用戶隱私的要求也越來越高，公眾的訴求和監(jiān)管的要求也是不允許數(shù)據(jù)簡單“粗暴”地進(jìn)行交換的。因此很多數(shù)據(jù)的共享性很差。這些原因就導(dǎo)致了在很多需要機(jī)器學(xué)習(xí)模型的領(lǐng)域，數(shù)據(jù)標(biāo)注不足、標(biāo)簽大量缺失等問題。

所以，我們的問題是，雖然理想中的AI是有大數(shù)據(jù)的支持，但是現(xiàn)實(shí)中遇見的卻是一個(gè)個(gè)數(shù)據(jù)孤島。我的看法是，如果這個(gè)問題解決不好就有可能導(dǎo)致再一次的AI低谷。而這個(gè)問題的重要性，還遠(yuǎn)遠(yuǎn)沒有引起人工智能從業(yè)者們的關(guān)注。

下面總結(jié)一下。隱私、安全和滿足監(jiān)管的要求為AI帶來了一個(gè)前所未有的挑戰(zhàn)，這個(gè)挑戰(zhàn)導(dǎo)致大部分企業(yè)只擁有小數(shù)據(jù)。我可以先給一個(gè)結(jié)論：我們AI界現(xiàn)在并沒有很好地應(yīng)對這些挑戰(zhàn)，并沒有用大量的時(shí)間和精力去設(shè)計(jì)保護(hù)隱私安全和滿足法律法規(guī)的機(jī)器學(xué)習(xí)框架來應(yīng)對這些挑戰(zhàn)?？梢钥匆幌庐?dāng)下的媒體，他們的宣傳機(jī)器大部分時(shí)間都在傳播這樣一類新聞，就是某某機(jī)構(gòu)、某某大牛又創(chuàng)造出一種新算法，又可以把某個(gè)指標(biāo)，比如準(zhǔn)確率做到更好。指標(biāo)的提高固然很重要，但是，這不是人工智能當(dāng)下最重要的需求，因?yàn)檫@并沒有解決社會和企業(yè)的痛點(diǎn)。我認(rèn)為當(dāng)下更應(yīng)該關(guān)心的是，在隱私、安全和監(jiān)管要求下，如何讓AI系統(tǒng)，更加高效、準(zhǔn)確地共同使用各自的數(shù)據(jù)，能夠在小數(shù)據(jù)（很少的樣本和特征）和弱監(jiān)督（有很少的標(biāo)注）的條件下做更好的模型。

那么，監(jiān)管對于數(shù)據(jù)的交換管得嚴(yán)不嚴(yán)？非常嚴(yán)，而且越來越嚴(yán)。首先帶大家看一下歐盟最近引入的一個(gè)新的法案《通用數(shù)據(jù)保護(hù)條例》（General Data Protection Regulation，GDPR）。也許在座的一些同事已經(jīng)了解了，但是我相信大多數(shù)的同事是第一次聽到這個(gè)法案。這是什么法案？和以往的行業(yè)規(guī)范不同，這是一個(gè)真正可以執(zhí)行的法律，違背它的后果是非常嚴(yán)重的，因?yàn)榱P款可以高達(dá)被罰機(jī)構(gòu)的全球營收的4%，非常高。GDPR在今年5月25日生效，里面有很多條款都是用來保護(hù)用戶隱私和數(shù)據(jù)安全。比如，過去下載一個(gè)APP時(shí)，會看到要我們表示同意的文件，而這里的一些法律解釋，往往會用晦澀的法律語言來描述，并且用很小的字體展示。那么，這在現(xiàn)在根據(jù)GDPR是不允許的，因?yàn)镚DPR要求這樣的文件一定要用清晰可理解的語言來解釋。同樣，經(jīng)營者要允許用戶來表達(dá)數(shù)據(jù)“被遺忘”的愿望，即“我不希望你記住我過去的數(shù)據(jù)，并希望從現(xiàn)在起，你不要利用我的數(shù)據(jù)來建?！?。這些條款最近已經(jīng)被用在Facebook和Google上，使他們成為基于這個(gè)法案的第一批被告，而且罰款是巨額的。

我們看一下GDPR對人工智能有哪些影響。首先，有一條款說：對使用自動化模型決策全面禁止。我們看這一條覺得非常不可理解。也就是說，如果你有一個(gè)全面自動化的機(jī)器學(xué)習(xí)模型，用來決策做用戶相關(guān)的商業(yè)活動，在決策過程中沒有任何人的參與，如果機(jī)器去使用這個(gè)決策，這也是違法的。做機(jī)器學(xué)習(xí)的聽到這個(gè)要求就嚇出一身冷汗。另外，用戶也可以對模型的決策提出質(zhì)疑，而且有權(quán)去要求模型對其的決策進(jìn)行解釋。也就是說，現(xiàn)在可解釋模型已經(jīng)變成了法案，以至于一個(gè)著名機(jī)器學(xué)習(xí)的教授，是華盛頓大學(xué)的教授 Domingos，我很尊敬的一位學(xué)者，發(fā)了一個(gè)推特：5月25日以后，深度學(xué)習(xí)就非法了。因?yàn)樯疃葘W(xué)習(xí)到目前為止是黑箱，是不可解釋的。還有用戶有權(quán)知道數(shù)據(jù)使用的目的，而且可以反悔，可以撤回?cái)?shù)據(jù)。大家想想這對人工智能有多么大的影響！

研究界和企業(yè)現(xiàn)在滿足這樣或類似法規(guī)的程度如何？我覺得幾乎是零。我們經(jīng)常用到的做法，是在使用用戶數(shù)據(jù)時(shí)都讓用戶劃個(gè)鉤，表示“同意”。但往往收集數(shù)據(jù)的一方并不是建立模型的一方，在企業(yè)中，大家習(xí)慣在一個(gè)地方收集數(shù)據(jù)，把數(shù)據(jù)轉(zhuǎn)移到另外一個(gè)地方去處理和清洗，然后可能再把數(shù)據(jù)拿到另一個(gè)地方去建立模型，再把模型賣給第三方去應(yīng)用。現(xiàn)在這個(gè)過程要非常小心，因?yàn)閿?shù)據(jù)只要出了收集方就可能犯法。第三方使用模型的目的，也許產(chǎn)生原始數(shù)據(jù)的用戶完全不知道，這就很有可能觸犯GDPR的法律。在計(jì)算機(jī)、大數(shù)據(jù)、數(shù)據(jù)挖掘里有一個(gè)著名理論，叫做差分隱私理論（Differential Privacy），就是希望通過在數(shù)據(jù)里加噪音，直到第三方不能區(qū)分任何個(gè)體為止。也就是說，有很高的概率，數(shù)據(jù)不能還原到一個(gè)個(gè)體，以此來保護(hù)用戶隱私。這種在過去被認(rèn)為是保護(hù)隱私的技術(shù)可能在GDPR下就不使用了。例如，如果我是A方，收集了一些數(shù)據(jù)，在里面加一些噪音，根據(jù)差分隱私理論，可以把數(shù)據(jù)的使用權(quán)賣給B，只要B在一定概率下不能區(qū)分任何個(gè)體用戶，這在過去被認(rèn)為是滿足法案的，但是現(xiàn)在不行了，為什么？因?yàn)樵谝欢赡苄砸韵?，用戶的隱私還是可以被泄露的，只要有這個(gè)可能性，數(shù)據(jù)的交易就有可能是被判違法的。所以，數(shù)據(jù)的這種在企業(yè)間的交換，無論加噪音與否，本身就違反了《通用數(shù)據(jù)保護(hù)條例》。

那么，GDPR是歐盟建立的，和我們有什么關(guān)系？我看到，最近對隱私和安全的考慮是一個(gè)世界的趨勢，歐盟引入了這個(gè)法律，不能說明天美國和世界其他地方就不引入這個(gè)法律。同樣，中國對數(shù)據(jù)的監(jiān)管也是非常嚴(yán)格的，對用戶數(shù)據(jù)的隱私保護(hù)也已經(jīng)有相關(guān)的法案，而且越來越細(xì)化。這個(gè)趨勢是世界性的。

我們的數(shù)據(jù)本來就已經(jīng)是孤島的形式了，解決孤島一個(gè)直接方案就是把數(shù)據(jù)從A遷移到C，再從B遷移到C，然后再在C加以聚合。但是，現(xiàn)在這樣做很可能就是違法的，即法律不允許我們粗暴地來做數(shù)據(jù)聚合這件事。那么我們可以合法地做些什么，來解決這個(gè)數(shù)據(jù)孤島問題？這個(gè)問題應(yīng)該足夠引起人工智能學(xué)者和從業(yè)者的深思，因?yàn)楹芸赡苓@個(gè)困境就是導(dǎo)致下一個(gè)人工智能冬天的導(dǎo)火索。所以，我們倡議把研究的重點(diǎn)轉(zhuǎn)移到如何解決數(shù)據(jù)孤島的問題。這里我們提出一個(gè)可能的解決方案，叫做聯(lián)邦遷移學(xué)習(xí)。什么是聯(lián)邦學(xué)習(xí)，什么又是遷移學(xué)習(xí)？

我們所希望看到的是，假設(shè)有三個(gè)不同的企業(yè)A、B和C，每個(gè)企業(yè)都有不同數(shù)據(jù)。比如，第一個(gè)企業(yè)A有一些用戶特征數(shù)據(jù)；第二個(gè)企業(yè)B有其他的一些用戶特征數(shù)據(jù)，同時(shí)也包括一些標(biāo)注數(shù)據(jù)；第三個(gè)企業(yè)C是一個(gè)銀行，可能有有關(guān)金融的特征和標(biāo)注數(shù)據(jù)。這三個(gè)企業(yè)按照GDPR準(zhǔn)則是不能粗暴地把三方數(shù)據(jù)加以合并，因?yàn)樗麄兊挠脩舨]有同意這樣做。假設(shè)在三方各自建立一個(gè)模型，而這個(gè)行為已經(jīng)獲得各自用戶的認(rèn)可。我們希望做到的是各個(gè)企業(yè)的自有數(shù)據(jù)不出本地，就像劃地為牢一樣，把自己圍一個(gè)圈，圍起來。然后，系統(tǒng)可以通過加密機(jī)制下的參數(shù)交換方式，在不違反法規(guī)情況下，建立一個(gè)虛擬的共有模型。這個(gè)虛擬模型就好像大家把數(shù)據(jù)聚合在一起一樣，但是數(shù)據(jù)本身不移動，也不泄露隱私，模型在各自的區(qū)域還是為本地的目標(biāo)服務(wù)。在這樣一個(gè)機(jī)制下，各個(gè)參與者的身份和地位相同，這就是為什么這個(gè)體系叫做“聯(lián)邦學(xué)習(xí)”。

我們建立這個(gè)機(jī)制，不是只把參數(shù)從A轉(zhuǎn)到C、從C轉(zhuǎn)到B那么簡單，實(shí)際上對最后模型的效果是有要求的——既要安全，又要有效。安全是指數(shù)據(jù)在本地不能移出，而模型的參數(shù)被第三方處理時(shí)不僅要加密，而且要保證不能被反推原始用戶的任何特征；效果高是指所謂的Lossless，就是效果要符合無損失原則，在A、B 和C的模型效果要和把數(shù)據(jù)真正聚合在一起一樣。這兩個(gè)要求對AI的從業(yè)者是一個(gè)挑戰(zhàn)。

那么，這個(gè)要求能不能做到？

首先看一下最近業(yè)界的一些進(jìn)展。谷歌最近提出了一個(gè)針對安卓手機(jī)模型更新的數(shù)據(jù)加密需求，建立的一種聯(lián)邦學(xué)習(xí)方案。比如，使用安卓手機(jī)時(shí)，會不斷匯聚數(shù)據(jù)到安卓云上進(jìn)行處理。聯(lián)邦學(xué)習(xí)就是針對這樣的過程，首先在每個(gè)終端上進(jìn)行模型建設(shè)，參與者的特征相同，但他們做的模型可能很弱，雖然功能都一樣。然后在云端把單個(gè)的模型加以聚合形成大的模型，大的模型再分發(fā)到各自終端里。參與者特征相同，樣本不同，這樣不斷的聚合使得模型加以更新；同時(shí)通過加密算法，使得云端并沒有解密終端傳來的模型，同樣別的終端也沒有辦法解密鄰居的數(shù)據(jù)。

另外一種聯(lián)邦學(xué)習(xí)是假設(shè)我們有原始數(shù)據(jù)和一個(gè)建立好的模型，那么在應(yīng)用這個(gè)模型到原始數(shù)據(jù)時(shí)會不會泄露隱私？這里有個(gè)算法叫做CryptoDL,是應(yīng)用同態(tài)加密算法于多項(xiàng)式形態(tài)的激活函數(shù)。這樣的好處是可以把原始數(shù)據(jù)加密，然后用這個(gè)模型做決策，得到的結(jié)果也是一個(gè)加密的結(jié)果。我們把加密的結(jié)果傳到終端，終端可以解密實(shí)施。在整個(gè)過程中，通過這個(gè)加密機(jī)制，模型并不知道自己在做什么決策。所以說，這是在應(yīng)用Inference時(shí)使用的。

剛才講的例子都是把數(shù)據(jù)橫向分段，橫向的每段都是不同的用戶樣本，他們的特征是一樣，在這樣風(fēng)格下來學(xué)習(xí)得到的一塊塊數(shù)據(jù)。還有一種分割的方法就是按照特征來分段，可以看作是縱向分段，對應(yīng)于兩個(gè)不同機(jī)構(gòu)，機(jī)構(gòu)A和機(jī)構(gòu)B它們的特征不一樣。那么，我們希望在一個(gè)虛擬的第三方能夠把這些特征，在加密的狀態(tài)下加以聚合，以增強(qiáng)各自模型的能力。這種聯(lián)邦學(xué)習(xí)，因?yàn)榧用芩惴ǖ脑?，只能對某些類的模型使用，比如邏輯回歸模型。當(dāng)時(shí)對很多其他模型，我們還不知道行不行。最近經(jīng)過研究發(fā)現(xiàn)，聯(lián)邦學(xué)習(xí)對于樹型結(jié)構(gòu)模型也是可以用的。例如，在這有一個(gè)企業(yè)、有一個(gè)數(shù)據(jù)集，那邊也有一個(gè)企業(yè)和一個(gè)數(shù)據(jù)集，通過這種加密技術(shù)可以使兩邊的樹都得到成長。有了樹模型以后就很自然可以發(fā)展到森林模型?！拔⒈娿y行”的AI團(tuán)隊(duì)就設(shè)計(jì)了一個(gè)這樣的新框架，提出了一個(gè)叫做SecureBoost的算法框架，并使用在多方協(xié)同建模的問題上。其效果是建立了中心的虛擬模型以后，可以分發(fā)到兩邊的參與者，效果和把數(shù)據(jù)聚合在一處建模相比并沒有損失，而且過程都不泄露用戶隱私。

上面所述的“聯(lián)邦學(xué)習(xí)”的優(yōu)點(diǎn)是，在不具體交換原數(shù)據(jù)的情況下，以及對用戶ID的差值不泄露的情況下，A和B兩邊可以參與聯(lián)邦學(xué)習(xí)的網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)里就可以建立一個(gè)共同模型，這個(gè)模型的參數(shù)可以分別獨(dú)立持有。也就是說，兩邊的模型都可以得到成長，但是它們卻不直接互相溝通。這樣用戶的樣本和用戶的特征都不泄露，已經(jīng)滿足GDPR大部分的要求。不同企業(yè)和機(jī)構(gòu)可以形成一個(gè)“朋友圈”，在其中用這種聯(lián)邦學(xué)習(xí)一起建模。聯(lián)邦的意思就是各個(gè)數(shù)據(jù)的擁有體，大家是平等的，并不是一個(gè)是作為老大的云端，大家都是做小弟的終端。

以上的討論是假設(shè)不同數(shù)據(jù)的樣本有一部分是共享的。但是，有時(shí)不同企業(yè)的數(shù)據(jù)樣本并不一樣，在這種情況下遇到的小數(shù)據(jù)，弱監(jiān)督的問題，即數(shù)據(jù)標(biāo)注卻很少的問題也可以解決嗎？一個(gè)方法就是我們一直研究的遷移學(xué)習(xí)。

我的學(xué)生戴文淵所領(lǐng)導(dǎo)的“第四范式公司”，這個(gè)AI公司在企業(yè)服務(wù)領(lǐng)域，利用AI的技術(shù)為企業(yè)客戶提高營銷效果。下面這個(gè)例子是他們所做的一次實(shí)踐。假設(shè)需要營銷車貸。車貸屬于大額貸款，而這種大額貸款的樣本卻很少，找新渠道成功辦理的客戶，在一定的時(shí)間內(nèi)還不到100。我們在這樣小的數(shù)據(jù)集上很難建模。與此相反的情況是，有很多小額貸款對應(yīng)著大量用戶。那么有沒有辦法用小量的數(shù)據(jù)建立非常好的模型，然后遷移到大額貸款的用戶上去發(fā)現(xiàn)大額貸款的用戶？第四范式使用了遷移學(xué)習(xí)，利用在千萬級微信公眾號中的小額貸款的樣本建立模型，再利用遷移學(xué)習(xí)適配于大額貸款的領(lǐng)域，營銷效果非常好。

什么叫遷移學(xué)習(xí)？生活中我們學(xué)騎自行車，再學(xué)騎摩托車就很容易，為什么？因?yàn)槿擞羞@個(gè)能力，人是可以舉一反三的，通過很少的例子就可以把一個(gè)具體的體驗(yàn)通用化。為什么人可以做到這一點(diǎn)？因?yàn)槲覀兛梢哉业絻蓚€(gè)領(lǐng)域的共性。比如在深圳開車，司機(jī)在車的左邊；在香港開車，司機(jī)是在車的右邊。我們?nèi)绾文軌?秒鐘就從深圳開車轉(zhuǎn)到香港開車？一個(gè)車過了關(guān)以后，怎樣馬上適應(yīng)右邊開車方式？我們想一想道理，怎樣找到兩邊開車的共性？共性就是司機(jī)相對于路的位置，如果司機(jī)是坐在路靠中間的位置，不管是在香港還是在深圳都適用，只要保證司機(jī)靠近路中間就可以，這是一個(gè)很實(shí)用的遷移學(xué)習(xí)例子，大家不妨試試。也就是說，開車可能很繁雜，有很多特征，但是我們卻找到了一個(gè)共性，所以學(xué)會了在深圳開車，也能很快學(xué)會在香港開車。

具體到工業(yè)上應(yīng)用，例如，我們很關(guān)心用戶的輿情，當(dāng)賣了一個(gè)產(chǎn)品后非常關(guān)心用戶的反饋，在網(wǎng)上、在社交網(wǎng)絡(luò)有很多的留言，我們希望一鍵式對留言進(jìn)行總結(jié)。如有關(guān)書店的，對這本書可能是Great，非常好看；有些說boring，非常無趣。75%是贊的，25%是踩的。這些反饋就對書店決策者非常有用，對電商上產(chǎn)品的排名也非常有用。這個(gè)決策在同一個(gè)領(lǐng)域是機(jī)器學(xué)習(xí)模型進(jìn)行的，我們對這一段文字進(jìn)行自然語言處理，然后建立分類模型，對新來的輿情進(jìn)行分類。

假設(shè)有一個(gè)數(shù)據(jù)很多的有關(guān)輿情的訓(xùn)練數(shù)據(jù)已經(jīng)建立好在一方企業(yè)A，這樣就可以在A端建立一個(gè)模型。它看到一段新的用戶反饋，就可以在A端判斷是“贊”還是“踩”。當(dāng)?shù)揭粋€(gè)新的領(lǐng)域或企業(yè)B，假設(shè)沒有任何標(biāo)注數(shù)據(jù)，我們就無能為力了，因?yàn)闆]有標(biāo)注，沒有辦法做這個(gè)模型。但是，如果這兩個(gè)領(lǐng)域有一定關(guān)聯(lián)，比方“圖書”和“餐廳”這兩個(gè)領(lǐng)域也許會有一些關(guān)聯(lián)，我們就會將這邊模型中間共同部分遷移到右邊來，遷移到餐館評價(jià)。

這種遷移學(xué)習(xí)怎么做？可以設(shè)計(jì)兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)看上去也非常復(fù)雜，但是實(shí)際上邏輯很簡單優(yōu)美，是我一個(gè)博士生李正同學(xué)設(shè)計(jì)的。這里給大家分享一下，分左邊和右邊。左邊是一個(gè)專家，在本領(lǐng)域的專家。比如在圖書領(lǐng)域的專家，輸入從下面來，就可以判斷輸出從上面出來。下面輸入可能是一段用戶評論，上面就是正向和負(fù)向的判斷。但是沒有標(biāo)注的那個(gè)怎么辦？我們可以找一些關(guān)鍵字，這些關(guān)鍵字是兩個(gè)因素決定的。首先要找到共享的關(guān)鍵字，就是通過這些字是沒有辦法區(qū)分領(lǐng)域A和B的，并且這個(gè)關(guān)鍵字又能很快告訴你輿情的趨向；同時(shí)不能夠區(qū)分領(lǐng)域，這些字就是很有用的通用字，我們把它叫做“橋接”或者PIVOT。把這兩個(gè)要求放在一起，根據(jù)這些關(guān)鍵字就很容易地把模型從左邊A遷移到右邊B。

經(jīng)過效果的演示最后發(fā)現(xiàn)，果然是在不同領(lǐng)域，遷移效果最好的就是剛才提出的模型，和手工模型相比也好很多。圖中，黑體字是用戶表達(dá)的評論，藍(lán)色字是我們找出來的橋接詞，就是二個(gè)領(lǐng)域共有的詞。用這些詞我們可以建立一個(gè)非常好的遷移學(xué)習(xí)模型，在一個(gè)新領(lǐng)域數(shù)據(jù)不多或者標(biāo)注數(shù)據(jù)不多的情況下也可以建立。

回到一開始講的聯(lián)邦學(xué)習(xí)的應(yīng)用，可以把我剛才講的應(yīng)用分為四種分類的子應(yīng)用，第一種情況是數(shù)據(jù)分別在兩個(gè)不同的企業(yè)，它們特征相近、樣本也相同，這是個(gè)簡單情況，在本地建模就好，不需要溝通。第二種情況，如果特征一樣、樣本不一樣，要讓兩個(gè)領(lǐng)域之間能夠協(xié)同，可以引入Google這樣的聯(lián)邦學(xué)習(xí)方式，不斷更新一個(gè)總模型，再分發(fā)到各個(gè)終端去；如果特征不一樣、樣本一樣就可以引入縱向的聯(lián)邦學(xué)習(xí)和同態(tài)加密技術(shù)，在一些邏輯回歸或樹形模型上加密、合并、更新；如果特征、樣本都不一樣的兩個(gè)企業(yè)，它們中間的交集很少，這時(shí)就要為它進(jìn)行遷移學(xué)習(xí)的建模，并在建模當(dāng)中保證不能反推用戶個(gè)體信息。

舉一個(gè)銀行的例子。我們做一個(gè)試驗(yàn)，比如在智慧零售這個(gè)領(lǐng)域有一些產(chǎn)品的數(shù)據(jù)，有一些用戶購買能力的數(shù)據(jù)，有一些用戶購買取向的數(shù)據(jù)，或者有產(chǎn)品特點(diǎn)的數(shù)據(jù)，但是這些數(shù)據(jù)在三個(gè)不同的地方、三個(gè)不同的企業(yè)。在過去，這種零售部門沒有辦法把數(shù)據(jù)加以聚合，現(xiàn)在用聯(lián)邦學(xué)習(xí)的方法就可以對三者共同建模，一開始的智慧零售那個(gè)需求就得到了滿足，大家可以以用戶模型分別進(jìn)行商業(yè)活動，而不違背用戶隱私的原則。

總結(jié)一下，上面介紹了一個(gè)新的保護(hù)數(shù)據(jù)的技術(shù)方案，叫做“聯(lián)邦遷移學(xué)習(xí)”，來解決數(shù)據(jù)聚合建模這個(gè)問題。我們保證在不泄露隱私的情況下，大家共同建模、共同受益。

我們知道，一個(gè)新的技術(shù)手段往往只占整個(gè)商業(yè)流程的5%~10%，更需要引入很多運(yùn)營、產(chǎn)品和營銷操作。下面簡要介紹如何做出一個(gè)基于聯(lián)邦遷移學(xué)習(xí)的新的數(shù)據(jù)商業(yè)模式，建立一個(gè)共同成長的大數(shù)據(jù)AI生態(tài)。

我們在建了模型以后，還需要一個(gè)商業(yè)聯(lián)盟來進(jìn)行聯(lián)邦學(xué)習(xí)。這樣的聯(lián)盟應(yīng)該有N個(gè)實(shí)體，它們加入了聯(lián)盟以后，就像一個(gè)朋友圈一樣能夠利用各自的數(shù)據(jù)聯(lián)合建立模型?，F(xiàn)在想設(shè)計(jì)這樣一個(gè)聯(lián)盟，它需要做兩件事，第一件事是在一個(gè)垂直領(lǐng)域使用一個(gè)聯(lián)邦遷移學(xué)習(xí)的技術(shù)，比如金融領(lǐng)域的聯(lián)邦遷移學(xué)習(xí)；還有一個(gè)很重要的題目，就是可以用區(qū)塊鏈技術(shù)建立一個(gè)讓參與各方都滿意的一個(gè)共識機(jī)制來估計(jì)大家的貢獻(xiàn)，以此獎勵對聯(lián)盟有作用的機(jī)構(gòu)。也就是說，如果A家說我為B家貢獻(xiàn)了多少，B家說我為C家貢獻(xiàn)了多少，大家可以建立一個(gè)機(jī)制，以達(dá)到某種共識，這個(gè)共識可以通過區(qū)塊鏈來運(yùn)營組織，維持這樣的共識。這樣的一個(gè)機(jī)制就是我們所說的一個(gè)激勵機(jī)制，即 incentive。我們既要有上面的共識機(jī)制，又要有下面底層聯(lián)邦學(xué)習(xí)的技術(shù)設(shè)計(jì)，這樣可以設(shè)計(jì)出多個(gè)垂直領(lǐng)域的聯(lián)邦遷移學(xué)習(xí)聯(lián)盟。比如，如果和金融機(jī)構(gòu)合作就把這樣一個(gè)金融聯(lián)邦遷移學(xué)習(xí)聯(lián)盟；而在醫(yī)療領(lǐng)域，可以建立一個(gè)醫(yī)藥聯(lián)邦遷移學(xué)習(xí)聯(lián)盟。

總之，目前AI的發(fā)展并不是大家所想的那么樂觀。因?yàn)楝F(xiàn)在社會大眾和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)的安全、隱私非常重視，面對這個(gè)重視程度AI界還做得遠(yuǎn)遠(yuǎn)不夠。今后用簡單粗暴方式進(jìn)行多方數(shù)據(jù)的聚合是不可能的。那么，AI的路應(yīng)該怎么走？可以有不同的答案。我這里介紹的是一個(gè)技術(shù)手段——聯(lián)邦遷移學(xué)習(xí)——也許是一個(gè)出路。同時(shí)，我們也有一個(gè)建立商業(yè)聯(lián)盟的建議，就是建立一個(gè)聯(lián)邦學(xué)習(xí)的企業(yè)和機(jī)構(gòu)聯(lián)盟，監(jiān)管部門可以作為其中一個(gè)單元，把監(jiān)管的要求變成解決方案的一部分，讓大家共同成長。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50455

瀏覽量
267519
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
67

文章
8569

瀏覽量
137358

原文標(biāo)題：CCAI2018演講實(shí)錄丨楊強(qiáng)：GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策

文章出處：【微信號：CAAI-1981，微信公眾號：中國人工智能學(xué)會】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策

評論