日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策

MqC7_CAAI_1981 ? 來源:未知 ? 作者:胡薇 ? 2018-08-17 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

7月28-29日,由中國人工智能學(xué)會和深圳市羅湖區(qū)人民政府共同主辦,馬上科普承辦的“2018 中國人工智能大會(CCAI 2018)”完美收官。

大會第一天上午,中國人工智能學(xué)會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長楊強(qiáng)教授作題為《GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策》的主題演講。

以下是根據(jù)速記整理的大會講座實(shí)錄。

楊強(qiáng)教授 中國人工智能學(xué)會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長

今天我也非常高興來到這里和大家分享最近的一段心得。剛才聽了幾位非常精彩的演講。大家都在為AI的進(jìn)步激動了一把,我也同樣小小地激動了一把,因?yàn)楝F(xiàn)在確實(shí)是未來已來。但是,我們面對未來,總還是有小小的隱憂,因?yàn)槲磥硪彩俏粗?,也有隱憂。我們對什么未知, 為什么有隱憂?

人工智能曾經(jīng)有過三個(gè)高峰,現(xiàn)在是處在第三個(gè)高峰,這中間有兩次低谷。我們研究一下:為什么會出現(xiàn)低谷?第一個(gè)高峰的出現(xiàn)是因?yàn)榇蠹铱吹搅巳斯ぶ悄艿南M?,也就是自動?a target="_blank">算法對提高效率的希望,但是到后來卻發(fā)現(xiàn)算法的能力不夠,因此就產(chǎn)生失望,進(jìn)而導(dǎo)致了第一個(gè)低谷。然后算法跟上來了,但是這時(shí)卻發(fā)現(xiàn)算力和數(shù)據(jù)不夠,專家系統(tǒng)的設(shè)計(jì)跟不上工業(yè)的成長需求,這就引發(fā)了AI的第二個(gè)低谷。之后大家又看到,現(xiàn)在算法和算力都有提升,而且有了大數(shù)據(jù)的出現(xiàn),AI的難題終于可以解決了?,F(xiàn)在的一個(gè)說法是我們處于大數(shù)據(jù)時(shí)代,所以這一波的人工智能一定會成功。這個(gè)感覺來自一個(gè)很強(qiáng)的推動力,就是AlphaGo的成功。最初的2016年版的AlphaGo使用了30萬個(gè)棋局訓(xùn)練,是大數(shù)據(jù)的成功。下面的這幅照片,是上周我們在國際人工智能大會IJCAI上,在瑞典為AlphaGo團(tuán)隊(duì)頒了一個(gè)國際人工智能獎 (MINSKY AWARD)。之所以如此受到AlphaGo的鼓舞,是因?yàn)槲覀兟?lián)想到,既然AlphaGo在圍棋上都有如此大的突破,那么人工智能是不是在各行各業(yè)都會突飛猛進(jìn)?

我們問:AlphaGo 的這種大數(shù)據(jù)真的出現(xiàn)在各行各業(yè)了?了解到的情況卻讓我們非常失望,遠(yuǎn)遠(yuǎn)不是!更多的應(yīng)用領(lǐng)域有的只是小數(shù)據(jù),或者質(zhì)量很差的數(shù)據(jù)。 上面這個(gè)“人工智能到處可用”的錯(cuò)誤的認(rèn)知會導(dǎo)致很嚴(yán)重的商業(yè)后果。最近聽到一個(gè)IBM沃森應(yīng)用失敗的消息。大家知道,IBM沃森是一個(gè)非常有名的系統(tǒng)。這個(gè)系統(tǒng)是個(gè)問答(QA)系統(tǒng),給一個(gè)問題Q,它能很精準(zhǔn)找到答案A。具體過程大概就是這樣:比如我們給了上面一個(gè)問題,沃森就用一個(gè)高維的表示來表達(dá)這個(gè)問題Q。大家可以把這種表示想象成物理學(xué)里的光譜,就是一束光打過來,用棱鏡分解成不同頻率的光,就看到了光譜。有了這個(gè)光譜以后,可以和答案庫里對應(yīng)答案,它的概率也應(yīng)該相應(yīng)的高,這就是可能的答案。這個(gè)流程應(yīng)該說非常簡單,但問題就是要有一個(gè)很健全的答案庫。IBM在電視大賽上取得了成功之后,就把這個(gè)應(yīng)用在一些聽起來比較好的垂直領(lǐng)域——醫(yī)療領(lǐng)域。 但是,最近的消息是在一個(gè)美國的癌癥治療中心,發(fā)現(xiàn)這個(gè)應(yīng)用非常不理想,從而導(dǎo)致了這個(gè)項(xiàng)目的失敗。我們看一看在醫(yī)療領(lǐng)域,這些領(lǐng)域里的問題和答案來自哪里?比如收入有病癥、基因序列、病理報(bào)告、各種各樣的檢測、各種論文,沃森的任務(wù)是利用這些數(shù)據(jù)來做診斷,幫助醫(yī)生。但是,經(jīng)過一段時(shí)間的實(shí)踐發(fā)現(xiàn),這個(gè)大數(shù)據(jù)的來源遠(yuǎn)遠(yuǎn)不夠,導(dǎo)致系統(tǒng)的效果差。那么,在醫(yī)療領(lǐng)域,我、缺乏哪些數(shù)據(jù)?我們需要很多有標(biāo)注的數(shù)據(jù)。但是,我們知道,醫(yī)生的時(shí)間是非常昂貴,不可能像一些其他計(jì)算機(jī)視覺應(yīng)用一樣,大眾、普通人都可以來做標(biāo)注。在醫(yī)療這樣專業(yè)領(lǐng)域,只有專家才能做決策,但是專家的時(shí)間非常寶貴,就導(dǎo)致這種標(biāo)注的數(shù)據(jù)非常有限。有人估計(jì)了一下,把醫(yī)療數(shù)據(jù)放在第三方公司標(biāo)注,需要動用1萬人用長達(dá)10年的時(shí)間才能收集到有效的數(shù)據(jù)。這就說明,在這些領(lǐng)域,即使動用很多人來做標(biāo)注,數(shù)據(jù)也不夠。這就是我們面臨的現(xiàn)實(shí)。

那么可不可以把很多散落在各地、各個(gè)機(jī)構(gòu)的數(shù)據(jù)合并成大數(shù)據(jù)?現(xiàn)實(shí)是,我們訓(xùn)練預(yù)測模型時(shí),需要有一部分的特征,即原始特征叫做X。比如,在手機(jī)應(yīng)用里,有用戶信息的維度,也有產(chǎn)品特征的維度,這些可以看作是X維度。但要用這些維度做用戶行為預(yù)測模型,同時(shí)還要有行為標(biāo)注列Y 。 Y就是我們要知道的答案。比如在金融領(lǐng)域,Y就是用戶的信用;在營銷領(lǐng)域,Y就是用戶的購買愿望;而在教育領(lǐng)域,Y就是學(xué)生學(xué)到知識的程度等。X+Y才有了真正的訓(xùn)練數(shù)據(jù),就像對不同圖像里的物體進(jìn)行標(biāo)注一樣。

但是,在現(xiàn)實(shí)當(dāng)中,卻往往遇到這樣的情況:有些企業(yè)只有X,只有一些沒有標(biāo)注的數(shù)據(jù),即使不斷地在收數(shù)據(jù),但也只是部分的數(shù)字化;有些企業(yè)可能有Y,有標(biāo)注,通過一些手段或者應(yīng)用本身就是帶有標(biāo)注的,但是,它們對應(yīng)的數(shù)據(jù)樣本也不多。那么這些企業(yè)能不能把它們的數(shù)據(jù)很容易地合并,變成有用的訓(xùn)練數(shù)據(jù)?我們發(fā)現(xiàn),這樣做是越來越難了,因?yàn)槠髽I(yè)中間是有道墻的,形成數(shù)據(jù)源的隔離。數(shù)據(jù)源隔離這種現(xiàn)象是很多的。舉個(gè)例子,我現(xiàn)在在“微眾銀行”學(xué)習(xí)AI和金融的結(jié)合,這里有大量的應(yīng)用,比如智慧零售。在零售領(lǐng)域的數(shù)據(jù)來自很多產(chǎn)品的數(shù)據(jù)、用戶購買商品的數(shù)據(jù)等。但是,零售業(yè)卻缺乏其他一些數(shù)據(jù),比如他們并不是知道用戶的購買能力,或者支付習(xí)慣等。那么這些發(fā)展智慧零售的機(jī)構(gòu)能不能把自己的數(shù)據(jù)和銀行的數(shù)據(jù)直接合并?答案是不行的。

這里有幾個(gè)原因。首先公司間的數(shù)據(jù)合作要考慮利益的交換,然后不同部門和機(jī)構(gòu)的行政批準(zhǔn)流程也許很不一樣;同時(shí),現(xiàn)代社會對于用戶隱私的要求也越來越高,公眾的訴求和監(jiān)管的要求也是不允許數(shù)據(jù)簡單“粗暴”地進(jìn)行交換的。因此很多數(shù)據(jù)的共享性很差。這些原因就導(dǎo)致了在很多需要機(jī)器學(xué)習(xí)模型的領(lǐng)域,數(shù)據(jù)標(biāo)注不足、標(biāo)簽大量缺失等問題。

所以,我們的問題是,雖然理想中的AI是有大數(shù)據(jù)的支持,但是現(xiàn)實(shí)中遇見的卻是一個(gè)個(gè)數(shù)據(jù)孤島。我的看法是,如果這個(gè)問題解決不好就有可能導(dǎo)致再一次的AI低谷。而這個(gè)問題的重要性,還遠(yuǎn)遠(yuǎn)沒有引起人工智能從業(yè)者們的關(guān)注。

下面總結(jié)一下。隱私、安全和滿足監(jiān)管的要求為AI帶來了一個(gè)前所未有的挑戰(zhàn),這個(gè)挑戰(zhàn)導(dǎo)致大部分企業(yè)只擁有小數(shù)據(jù)。我可以先給一個(gè)結(jié)論:我們AI界現(xiàn)在并沒有很好地應(yīng)對這些挑戰(zhàn),并沒有用大量的時(shí)間和精力去設(shè)計(jì)保護(hù)隱私安全和滿足法律法規(guī)的機(jī)器學(xué)習(xí)框架來應(yīng)對這些挑戰(zhàn)??梢钥匆幌庐?dāng)下的媒體,他們的宣傳機(jī)器大部分時(shí)間都在傳播這樣一類新聞,就是某某機(jī)構(gòu)、某某大牛又創(chuàng)造出一種新算法,又可以把某個(gè)指標(biāo),比如準(zhǔn)確率做到更好。指標(biāo)的提高固然很重要,但是,這不是人工智能當(dāng)下最重要的需求,因?yàn)檫@并沒有解決社會和企業(yè)的痛點(diǎn)。我認(rèn)為當(dāng)下更應(yīng)該關(guān)心的是,在隱私、安全和監(jiān)管要求下,如何讓AI系統(tǒng),更加高效、準(zhǔn)確地共同使用各自的數(shù)據(jù),能夠在小數(shù)據(jù)(很少的樣本和特征)和弱監(jiān)督(有很少的標(biāo)注)的條件下做更好的模型。

那么,監(jiān)管對于數(shù)據(jù)的交換管得嚴(yán)不嚴(yán)?非常嚴(yán),而且越來越嚴(yán)。首先帶大家看一下歐盟最近引入的一個(gè)新的法案《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)。也許在座的一些同事已經(jīng)了解了,但是我相信大多數(shù)的同事是第一次聽到這個(gè)法案。這是什么法案?和以往的行業(yè)規(guī)范不同,這是一個(gè)真正可以執(zhí)行的法律,違背它的后果是非常嚴(yán)重的,因?yàn)榱P款可以高達(dá)被罰機(jī)構(gòu)的全球營收的4%,非常高。GDPR在今年5月25日生效,里面有很多條款都是用來保護(hù)用戶隱私和數(shù)據(jù)安全。比如,過去下載一個(gè)APP時(shí),會看到要我們表示同意的文件,而這里的一些法律解釋,往往會用晦澀的法律語言來描述,并且用很小的字體展示。那么,這在現(xiàn)在根據(jù)GDPR是不允許的,因?yàn)镚DPR要求這樣的文件一定要用清晰可理解的語言來解釋。同樣,經(jīng)營者要允許用戶來表達(dá)數(shù)據(jù)“被遺忘”的愿望,即“我不希望你記住我過去的數(shù)據(jù),并希望從現(xiàn)在起,你不要利用我的數(shù)據(jù)來建?!?。這些條款最近已經(jīng)被用在Facebook和Google上,使他們成為基于這個(gè)法案的第一批被告,而且罰款是巨額的。

我們看一下GDPR對人工智能有哪些影響。首先,有一條款說:對使用自動化模型決策全面禁止。我們看這一條覺得非常不可理解。也就是說,如果你有一個(gè)全面自動化的機(jī)器學(xué)習(xí)模型,用來決策做用戶相關(guān)的商業(yè)活動,在決策過程中沒有任何人的參與,如果機(jī)器去使用這個(gè)決策,這也是違法的。做機(jī)器學(xué)習(xí)的聽到這個(gè)要求就嚇出一身冷汗。另外,用戶也可以對模型的決策提出質(zhì)疑,而且有權(quán)去要求模型對其的決策進(jìn)行解釋。也就是說,現(xiàn)在可解釋模型已經(jīng)變成了法案,以至于一個(gè)著名機(jī)器學(xué)習(xí)的教授,是華盛頓大學(xué)的教授 Domingos,我很尊敬的一位學(xué)者,發(fā)了一個(gè)推特:5月25日以后,深度學(xué)習(xí)就非法了。因?yàn)樯疃葘W(xué)習(xí)到目前為止是黑箱,是不可解釋的。還有用戶有權(quán)知道數(shù)據(jù)使用的目的,而且可以反悔,可以撤回?cái)?shù)據(jù)。大家想想這對人工智能有多么大的影響!

研究界和企業(yè)現(xiàn)在滿足這樣或類似法規(guī)的程度如何?我覺得幾乎是零。我們經(jīng)常用到的做法,是在使用用戶數(shù)據(jù)時(shí)都讓用戶劃個(gè)鉤,表示“同意”。但往往收集數(shù)據(jù)的一方并不是建立模型的一方,在企業(yè)中,大家習(xí)慣在一個(gè)地方收集數(shù)據(jù),把數(shù)據(jù)轉(zhuǎn)移到另外一個(gè)地方去處理和清洗,然后可能再把數(shù)據(jù)拿到另一個(gè)地方去建立模型,再把模型賣給第三方去應(yīng)用。現(xiàn)在這個(gè)過程要非常小心,因?yàn)閿?shù)據(jù)只要出了收集方就可能犯法。第三方使用模型的目的,也許產(chǎn)生原始數(shù)據(jù)的用戶完全不知道,這就很有可能觸犯GDPR的法律。在計(jì)算機(jī)、大數(shù)據(jù)、數(shù)據(jù)挖掘里有一個(gè)著名理論,叫做差分隱私理論(Differential Privacy),就是希望通過在數(shù)據(jù)里加噪音,直到第三方不能區(qū)分任何個(gè)體為止。也就是說,有很高的概率,數(shù)據(jù)不能還原到一個(gè)個(gè)體,以此來保護(hù)用戶隱私。這種在過去被認(rèn)為是保護(hù)隱私的技術(shù)可能在GDPR下就不使用了。例如,如果我是A方,收集了一些數(shù)據(jù),在里面加一些噪音,根據(jù)差分隱私理論,可以把數(shù)據(jù)的使用權(quán)賣給B,只要B在一定概率下不能區(qū)分任何個(gè)體用戶,這在過去被認(rèn)為是滿足法案的,但是現(xiàn)在不行了,為什么?因?yàn)樵谝欢赡苄砸韵?,用戶的隱私還是可以被泄露的,只要有這個(gè)可能性,數(shù)據(jù)的交易就有可能是被判違法的。所以,數(shù)據(jù)的這種在企業(yè)間的交換,無論加噪音與否,本身就違反了《通用數(shù)據(jù)保護(hù)條例》。

那么,GDPR是歐盟建立的,和我們有什么關(guān)系?我看到,最近對隱私和安全的考慮是一個(gè)世界的趨勢,歐盟引入了這個(gè)法律,不能說明天美國和世界其他地方就不引入這個(gè)法律。同樣,中國對數(shù)據(jù)的監(jiān)管也是非常嚴(yán)格的,對用戶數(shù)據(jù)的隱私保護(hù)也已經(jīng)有相關(guān)的法案,而且越來越細(xì)化。這個(gè)趨勢是世界性的。

我們的數(shù)據(jù)本來就已經(jīng)是孤島的形式了,解決孤島一個(gè)直接方案就是把數(shù)據(jù)從A遷移到C,再從B遷移到C,然后再在C加以聚合。但是,現(xiàn)在這樣做很可能就是違法的,即法律不允許我們粗暴地來做數(shù)據(jù)聚合這件事。那么我們可以合法地做些什么,來解決這個(gè)數(shù)據(jù)孤島問題?這個(gè)問題應(yīng)該足夠引起人工智能學(xué)者和從業(yè)者的深思,因?yàn)楹芸赡苓@個(gè)困境就是導(dǎo)致下一個(gè)人工智能冬天的導(dǎo)火索。所以,我們倡議把研究的重點(diǎn)轉(zhuǎn)移到如何解決數(shù)據(jù)孤島的問題。這里我們提出一個(gè)可能的解決方案,叫做聯(lián)邦遷移學(xué)習(xí)。什么是聯(lián)邦學(xué)習(xí),什么又是遷移學(xué)習(xí)?

我們所希望看到的是,假設(shè)有三個(gè)不同的企業(yè)A、B和C,每個(gè)企業(yè)都有不同數(shù)據(jù)。比如,第一個(gè)企業(yè)A有一些用戶特征數(shù)據(jù);第二個(gè)企業(yè)B有其他的一些用戶特征數(shù)據(jù),同時(shí)也包括一些標(biāo)注數(shù)據(jù);第三個(gè)企業(yè)C是一個(gè)銀行,可能有有關(guān)金融的特征和標(biāo)注數(shù)據(jù)。這三個(gè)企業(yè)按照GDPR準(zhǔn)則是不能粗暴地把三方數(shù)據(jù)加以合并,因?yàn)樗麄兊挠脩舨]有同意這樣做。假設(shè)在三方各自建立一個(gè)模型,而這個(gè)行為已經(jīng)獲得各自用戶的認(rèn)可。我們希望做到的是各個(gè)企業(yè)的自有數(shù)據(jù)不出本地,就像劃地為牢一樣,把自己圍一個(gè)圈,圍起來。然后,系統(tǒng)可以通過加密機(jī)制下的參數(shù)交換方式,在不違反法規(guī)情況下,建立一個(gè)虛擬的共有模型。這個(gè)虛擬模型就好像大家把數(shù)據(jù)聚合在一起一樣,但是數(shù)據(jù)本身不移動,也不泄露隱私,模型在各自的區(qū)域還是為本地的目標(biāo)服務(wù)。在這樣一個(gè)機(jī)制下,各個(gè)參與者的身份和地位相同,這就是為什么這個(gè)體系叫做“聯(lián)邦學(xué)習(xí)”。

我們建立這個(gè)機(jī)制,不是只把參數(shù)從A轉(zhuǎn)到C、從C轉(zhuǎn)到B那么簡單,實(shí)際上對最后模型的效果是有要求的——既要安全,又要有效。安全是指數(shù)據(jù)在本地不能移出,而模型的參數(shù)被第三方處理時(shí)不僅要加密,而且要保證不能被反推原始用戶的任何特征;效果高是指所謂的Lossless,就是效果要符合無損失原則,在A、B 和C的模型效果要和把數(shù)據(jù)真正聚合在一起一樣。這兩個(gè)要求對AI的從業(yè)者是一個(gè)挑戰(zhàn)。

那么,這個(gè)要求能不能做到?

首先看一下最近業(yè)界的一些進(jìn)展。谷歌最近提出了一個(gè)針對安卓手機(jī)模型更新的數(shù)據(jù)加密需求,建立的一種聯(lián)邦學(xué)習(xí)方案。比如,使用安卓手機(jī)時(shí),會不斷匯聚數(shù)據(jù)到安卓云上進(jìn)行處理。聯(lián)邦學(xué)習(xí)就是針對這樣的過程,首先在每個(gè)終端上進(jìn)行模型建設(shè),參與者的特征相同,但他們做的模型可能很弱,雖然功能都一樣。然后在云端把單個(gè)的模型加以聚合形成大的模型,大的模型再分發(fā)到各自終端里。參與者特征相同,樣本不同,這樣不斷的聚合使得模型加以更新;同時(shí)通過加密算法,使得云端并沒有解密終端傳來的模型,同樣別的終端也沒有辦法解密鄰居的數(shù)據(jù)。

另外一種聯(lián)邦學(xué)習(xí)是假設(shè)我們有原始數(shù)據(jù)和一個(gè)建立好的模型,那么在應(yīng)用這個(gè)模型到原始數(shù)據(jù)時(shí)會不會泄露隱私?這里有個(gè)算法叫做CryptoDL,是應(yīng)用同態(tài)加密算法于多項(xiàng)式形態(tài)的激活函數(shù)。這樣的好處是可以把原始數(shù)據(jù)加密,然后用這個(gè)模型做決策,得到的結(jié)果也是一個(gè)加密的結(jié)果。我們把加密的結(jié)果傳到終端,終端可以解密實(shí)施。在整個(gè)過程中,通過這個(gè)加密機(jī)制,模型并不知道自己在做什么決策。所以說,這是在應(yīng)用Inference時(shí)使用的。

剛才講的例子都是把數(shù)據(jù)橫向分段,橫向的每段都是不同的用戶樣本,他們的特征是一樣,在這樣風(fēng)格下來學(xué)習(xí)得到的一塊塊數(shù)據(jù)。還有一種分割的方法就是按照特征來分段,可以看作是縱向分段,對應(yīng)于兩個(gè)不同機(jī)構(gòu),機(jī)構(gòu)A和機(jī)構(gòu)B它們的特征不一樣。那么,我們希望在一個(gè)虛擬的第三方能夠把這些特征,在加密的狀態(tài)下加以聚合,以增強(qiáng)各自模型的能力。這種聯(lián)邦學(xué)習(xí),因?yàn)榧用芩惴ǖ脑?,只能對某些類的模型使用,比如邏輯回歸模型。 當(dāng)時(shí)對很多其他模型,我們還不知道行不行。最近經(jīng)過研究發(fā)現(xiàn),聯(lián)邦學(xué)習(xí)對于樹型結(jié)構(gòu)模型也是可以用的。例如,在這有一個(gè)企業(yè)、有一個(gè)數(shù)據(jù)集,那邊也有一個(gè)企業(yè)和一個(gè)數(shù)據(jù)集,通過這種加密技術(shù)可以使兩邊的樹都得到成長。有了樹模型以后就很自然可以發(fā)展到森林模型?!拔⒈娿y行”的AI團(tuán)隊(duì)就設(shè)計(jì)了一個(gè)這樣的新框架,提出了一個(gè)叫做SecureBoost的算法框架,并使用在多方協(xié)同建模的問題上。其效果是建立了中心的虛擬模型以后,可以分發(fā)到兩邊的參與者,效果和把數(shù)據(jù)聚合在一處建模相比并沒有損失,而且過程都不泄露用戶隱私。

上面所述的“聯(lián)邦學(xué)習(xí)”的優(yōu)點(diǎn)是,在不具體交換原數(shù)據(jù)的情況下,以及對用戶ID的差值不泄露的情況下,A和B兩邊可以參與聯(lián)邦學(xué)習(xí)的網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)里就可以建立一個(gè)共同模型,這個(gè)模型的參數(shù)可以分別獨(dú)立持有。也就是說,兩邊的模型都可以得到成長,但是它們卻不直接互相溝通。這樣用戶的樣本和用戶的特征都不泄露,已經(jīng)滿足GDPR大部分的要求。不同企業(yè)和機(jī)構(gòu)可以形成一個(gè)“朋友圈”,在其中用這種聯(lián)邦學(xué)習(xí)一起建模。聯(lián)邦的意思就是各個(gè)數(shù)據(jù)的擁有體,大家是平等的,并不是一個(gè)是作為老大的云端,大家都是做小弟的終端。

以上的討論是假設(shè)不同數(shù)據(jù)的樣本有一部分是共享的。但是,有時(shí)不同企業(yè)的數(shù)據(jù)樣本并不一樣,在這種情況下遇到的小數(shù)據(jù),弱監(jiān)督的問題,即數(shù)據(jù)標(biāo)注卻很少的問題也可以解決嗎?一個(gè)方法就是我們一直研究的遷移學(xué)習(xí)。

我的學(xué)生戴文淵所領(lǐng)導(dǎo)的“第四范式公司”,這個(gè)AI公司在企業(yè)服務(wù)領(lǐng)域,利用AI的技術(shù)為企業(yè)客戶提高營銷效果。下面這個(gè)例子是他們所做的一次實(shí)踐。假設(shè)需要營銷車貸。車貸屬于大額貸款,而這種大額貸款的樣本卻很少,找新渠道成功辦理的客戶,在一定的時(shí)間內(nèi)還不到100。我們在這樣小的數(shù)據(jù)集上很難建模。與此相反的情況是,有很多小額貸款對應(yīng)著大量用戶。那么有沒有辦法用小量的數(shù)據(jù)建立非常好的模型,然后遷移到大額貸款的用戶上去發(fā)現(xiàn)大額貸款的用戶?第四范式使用了遷移學(xué)習(xí),利用在千萬級微信公眾號中的小額貸款的樣本建立模型, 再利用遷移學(xué)習(xí)適配于大額貸款的領(lǐng)域,營銷效果非常好。

什么叫遷移學(xué)習(xí)?生活中我們學(xué)騎自行車,再學(xué)騎摩托車就很容易,為什么?因?yàn)槿擞羞@個(gè)能力,人是可以舉一反三的,通過很少的例子就可以把一個(gè)具體的體驗(yàn)通用化。為什么人可以做到這一點(diǎn)?因?yàn)槲覀兛梢哉业絻蓚€(gè)領(lǐng)域的共性。比如在深圳開車,司機(jī)在車的左邊;在香港開車,司機(jī)是在車的右邊。我們?nèi)绾文軌?秒鐘就從深圳開車轉(zhuǎn)到香港開車?一個(gè)車過了關(guān)以后,怎樣馬上適應(yīng)右邊開車方式?我們想一想道理,怎樣找到兩邊開車的共性?共性就是司機(jī)相對于路的位置,如果司機(jī)是坐在路靠中間的位置,不管是在香港還是在深圳都適用,只要保證司機(jī)靠近路中間就可以,這是一個(gè)很實(shí)用的遷移學(xué)習(xí)例子,大家不妨試試。也就是說,開車可能很繁雜,有很多特征,但是我們卻找到了一個(gè)共性,所以學(xué)會了在深圳開車,也能很快學(xué)會在香港開車。

具體到工業(yè)上應(yīng)用,例如,我們很關(guān)心用戶的輿情,當(dāng)賣了一個(gè)產(chǎn)品后非常關(guān)心用戶的反饋,在網(wǎng)上、在社交網(wǎng)絡(luò)有很多的留言,我們希望一鍵式對留言進(jìn)行總結(jié)。如有關(guān)書店的,對這本書可能是Great,非常好看;有些說boring,非常無趣。75%是贊的,25%是踩的。這些反饋就對書店決策者非常有用,對電商上產(chǎn)品的排名也非常有用。這個(gè)決策在同一個(gè)領(lǐng)域是機(jī)器學(xué)習(xí)模型進(jìn)行的,我們對這一段文字進(jìn)行自然語言處理,然后建立分類模型,對新來的輿情進(jìn)行分類。

假設(shè)有一個(gè)數(shù)據(jù)很多的有關(guān)輿情的訓(xùn)練數(shù)據(jù)已經(jīng)建立好在一方企業(yè)A,這樣就可以在A端建立一個(gè)模型。它看到一段新的用戶反饋,就可以在A端判斷是“贊”還是“踩”。當(dāng)?shù)揭粋€(gè)新的領(lǐng)域或企業(yè)B,假設(shè)沒有任何標(biāo)注數(shù)據(jù),我們就無能為力了,因?yàn)闆]有標(biāo)注,沒有辦法做這個(gè)模型。但是,如果這兩個(gè)領(lǐng)域有一定關(guān)聯(lián),比方“圖書”和“餐廳”這兩個(gè)領(lǐng)域也許會有一些關(guān)聯(lián),我們就會將這邊模型中間共同部分遷移到右邊來,遷移到餐館評價(jià)。

這種遷移學(xué)習(xí)怎么做?可以設(shè)計(jì)兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)看上去也非常復(fù)雜,但是實(shí)際上邏輯很簡單優(yōu)美,是我一個(gè)博士生李正同學(xué)設(shè)計(jì)的。這里給大家分享一下,分左邊和右邊。左邊是一個(gè)專家,在本領(lǐng)域的專家。比如在圖書領(lǐng)域的專家,輸入從下面來,就可以判斷輸出從上面出來。下面輸入可能是一段用戶評論,上面就是正向和負(fù)向的判斷。但是沒有標(biāo)注的那個(gè)怎么辦?我們可以找一些關(guān)鍵字,這些關(guān)鍵字是兩個(gè)因素決定的。首先要找到共享的關(guān)鍵字,就是通過這些字是沒有辦法區(qū)分領(lǐng)域A和B的,并且這個(gè)關(guān)鍵字又能很快告訴你輿情的趨向;同時(shí)不能夠區(qū)分領(lǐng)域,這些字就是很有用的通用字,我們把它叫做“橋接”或者PIVOT。把這兩個(gè)要求放在一起,根據(jù)這些關(guān)鍵字就很容易地把模型從左邊A遷移到右邊B。

經(jīng)過效果的演示最后發(fā)現(xiàn),果然是在不同領(lǐng)域,遷移效果最好的就是剛才提出的模型,和手工模型相比也好很多。圖中,黑體字是用戶表達(dá)的評論,藍(lán)色字是我們找出來的橋接詞,就是二個(gè)領(lǐng)域共有的詞。用這些詞我們可以建立一個(gè)非常好的遷移學(xué)習(xí)模型,在一個(gè)新領(lǐng)域數(shù)據(jù)不多或者標(biāo)注數(shù)據(jù)不多的情況下也可以建立。

回到一開始講的聯(lián)邦學(xué)習(xí)的應(yīng)用,可以把我剛才講的應(yīng)用分為四種分類的子應(yīng)用,第一種情況是數(shù)據(jù)分別在兩個(gè)不同的企業(yè),它們特征相近、樣本也相同,這是個(gè)簡單情況,在本地建模就好,不需要溝通。第二種情況,如果特征一樣、樣本不一樣,要讓兩個(gè)領(lǐng)域之間能夠協(xié)同,可以引入Google這樣的聯(lián)邦學(xué)習(xí)方式,不斷更新一個(gè)總模型,再分發(fā)到各個(gè)終端去;如果特征不一樣、樣本一樣就可以引入縱向的聯(lián)邦學(xué)習(xí)和同態(tài)加密技術(shù),在一些邏輯回歸或樹形模型上加密、合并、更新;如果特征、樣本都不一樣的兩個(gè)企業(yè),它們中間的交集很少,這時(shí)就要為它進(jìn)行遷移學(xué)習(xí)的建模,并在建模當(dāng)中保證不能反推用戶個(gè)體信息。

舉一個(gè)銀行的例子。我們做一個(gè)試驗(yàn),比如在智慧零售這個(gè)領(lǐng)域有一些產(chǎn)品的數(shù)據(jù),有一些用戶購買能力的數(shù)據(jù),有一些用戶購買取向的數(shù)據(jù),或者有產(chǎn)品特點(diǎn)的數(shù)據(jù),但是這些數(shù)據(jù)在三個(gè)不同的地方、三個(gè)不同的企業(yè)。在過去,這種零售部門沒有辦法把數(shù)據(jù)加以聚合,現(xiàn)在用聯(lián)邦學(xué)習(xí)的方法就可以對三者共同建模,一開始的智慧零售那個(gè)需求就得到了滿足,大家可以以用戶模型分別進(jìn)行商業(yè)活動,而不違背用戶隱私的原則。

總結(jié)一下,上面介紹了一個(gè)新的保護(hù)數(shù)據(jù)的技術(shù)方案,叫做“聯(lián)邦遷移學(xué)習(xí)”,來解決數(shù)據(jù)聚合建模這個(gè)問題。我們保證在不泄露隱私的情況下,大家共同建模、共同受益。

我們知道,一個(gè)新的技術(shù)手段往往只占整個(gè)商業(yè)流程的5%~10%,更需要引入很多運(yùn)營、產(chǎn)品和營銷操作。下面簡要介紹如何做出一個(gè)基于聯(lián)邦遷移學(xué)習(xí)的新的數(shù)據(jù)商業(yè)模式,建立一個(gè)共同成長的大數(shù)據(jù)AI生態(tài)。

我們在建了模型以后,還需要一個(gè)商業(yè)聯(lián)盟來進(jìn)行聯(lián)邦學(xué)習(xí)。這樣的聯(lián)盟應(yīng)該有N個(gè)實(shí)體,它們加入了聯(lián)盟以后,就像一個(gè)朋友圈一樣能夠利用各自的數(shù)據(jù)聯(lián)合建立模型?,F(xiàn)在想設(shè)計(jì)這樣一個(gè)聯(lián)盟,它需要做兩件事,第一件事是在一個(gè)垂直領(lǐng)域使用一個(gè)聯(lián)邦遷移學(xué)習(xí)的技術(shù),比如金融領(lǐng)域的聯(lián)邦遷移學(xué)習(xí);還有一個(gè)很重要的題目,就是可以用區(qū)塊鏈技術(shù)建立一個(gè)讓參與各方都滿意的一個(gè)共識機(jī)制來估計(jì)大家的貢獻(xiàn),以此獎勵對聯(lián)盟有作用的機(jī)構(gòu)。也就是說,如果A家說我為B家貢獻(xiàn)了多少,B家說我為C家貢獻(xiàn)了多少,大家可以建立一個(gè)機(jī)制,以達(dá)到某種共識,這個(gè)共識可以通過區(qū)塊鏈來運(yùn)營組織,維持這樣的共識。這樣的一個(gè)機(jī)制就是我們所說的一個(gè)激勵機(jī)制,即 incentive。我們既要有上面的共識機(jī)制,又要有下面底層聯(lián)邦學(xué)習(xí)的技術(shù)設(shè)計(jì),這樣可以設(shè)計(jì)出多個(gè)垂直領(lǐng)域的聯(lián)邦遷移學(xué)習(xí)聯(lián)盟。比如,如果和金融機(jī)構(gòu)合作就把這樣一個(gè)金融聯(lián)邦遷移學(xué)習(xí)聯(lián)盟;而在醫(yī)療領(lǐng)域,可以建立一個(gè)醫(yī)藥聯(lián)邦遷移學(xué)習(xí)聯(lián)盟。

總之,目前AI的發(fā)展并不是大家所想的那么樂觀。因?yàn)楝F(xiàn)在社會大眾和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)的安全、隱私非常重視,面對這個(gè)重視程度AI界還做得遠(yuǎn)遠(yuǎn)不夠。今后用簡單粗暴方式進(jìn)行多方數(shù)據(jù)的聚合是不可能的。那么,AI的路應(yīng)該怎么走?可以有不同的答案。我這里介紹的是一個(gè)技術(shù)手段——聯(lián)邦遷移學(xué)習(xí)——也許是一個(gè)出路。同時(shí),我們也有一個(gè)建立商業(yè)聯(lián)盟的建議,就是建立一個(gè)聯(lián)邦學(xué)習(xí)的企業(yè)和機(jī)構(gòu)聯(lián)盟,監(jiān)管部門可以作為其中一個(gè)單元,把監(jiān)管的要求變成解決方案的一部分,讓大家共同成長。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50455

    瀏覽量

    267519
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8569

    瀏覽量

    137358

原文標(biāo)題:CCAI2018演講實(shí)錄丨楊強(qiáng):GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學(xué)習(xí)的對策

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    GDPR是什么

    2023年,愛爾蘭數(shù)據(jù)保護(hù)委員會對Meta開出了12億歐元的GDPR罰款,原因是把歐盟用戶數(shù)據(jù)傳輸?shù)矫绹?wù)器處理。這不是針對大公司的特例,GDPR對任何觸達(dá)歐盟用戶的業(yè)務(wù)都適用,包括中國跨境賣家
    的頭像 發(fā)表于 04-23 16:25 ?180次閱讀

    晶科鑫受邀參與AI實(shí)戰(zhàn)和小龍蝦智能體分享交流會

    3月27日下午,由深圳市電子商會主辦,深圳市電子商會壓電專委會與華南晶體聯(lián)誼會承辦的AI實(shí)戰(zhàn)和小龍蝦智能體分享交流會圓滿落幕。
    的頭像 發(fā)表于 04-01 10:05 ?556次閱讀

    無質(zhì)量損失的數(shù)據(jù)遷移:Nikon SLM Solutions信賴3Dfindit企業(yè)版

    制造和航空航天,其中整個(gè)渦輪機(jī)部件都可以通過3D打印實(shí)現(xiàn)。 使用3Dfindit企業(yè)版進(jìn)行數(shù)據(jù)遷移在引入新的PLM和CAD軟件時(shí),Nikon SLM Solutions曾面臨著數(shù)據(jù)遷移挑戰(zhàn)。雖然可以
    發(fā)表于 11-25 10:06

    融合AI的OpenHarmony應(yīng)用軟件開發(fā):ai學(xué)習(xí)自律輔助軟件

    *附件:ai study.zip*附件:融合AI的OpenHarmony應(yīng)用軟件開發(fā):ai學(xué)習(xí)自律輔助軟件.pdf 基于開源鴻蒙編寫的ai
    發(fā)表于 11-12 15:38

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    流體芯片 ⑤AI計(jì)算平臺 ⑥基于AI的自主決策系統(tǒng) ⑦基于AI的自主學(xué)習(xí)系統(tǒng) 2、面臨的挑戰(zhàn) ①需要造就一個(gè)跨學(xué)科、全面性覆蓋的知識庫和科學(xué)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來:提升算力還是智力

    、浪費(fèi)資源與破壞環(huán)境 二、用小模型代替大模型 1、強(qiáng)化學(xué)習(xí) 2、指令調(diào)整 3、合成數(shù)據(jù) 三、終身學(xué)習(xí)遷移學(xué)習(xí) 1、終身學(xué)習(xí) 終身
    發(fā)表于 09-14 14:04

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    當(dāng)今社會,AI已經(jīng)發(fā)展很迅速了,但是你了解AI的發(fā)展歷程嗎?本章作者將為我們打開AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 從2017年開始生成式AI
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及一些新型的算法和思路。第四章是全面介紹半導(dǎo)體芯產(chǎn)業(yè)的前沿技
    發(fā)表于 09-05 15:10

    汽車行業(yè) GDPR 誤區(qū) TOP5,帶您一文厘清!

    因汽車智能化發(fā)展,ADAS 技術(shù)依賴海量視頻數(shù)據(jù)采集,歐盟GDPR作為全球嚴(yán)規(guī),對企業(yè)處理歐盟公民數(shù)據(jù)要求嚴(yán)格且違規(guī)罰款重!本文對行業(yè)常見的 5 個(gè) GDPR 誤區(qū)進(jìn)行逐一拆解,助力企業(yè)規(guī)避數(shù)據(jù)違規(guī)風(fēng)險(xiǎn)!
    的頭像 發(fā)表于 08-27 13:36 ?765次閱讀
    汽車行業(yè) <b class='flag-5'>GDPR</b> 誤區(qū) TOP5,帶您一文厘清!

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    計(jì)算、神經(jīng)符號計(jì)算,終身學(xué)習(xí)遷移學(xué)習(xí)。 此外,書中提出“小模型替代大模型”的思路,通過強(qiáng)化學(xué)習(xí)、指令調(diào)整、合成數(shù)據(jù)等技術(shù),在降低算力消耗的同時(shí)保持智能水平,為
    發(fā)表于 07-28 13:54

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)

    視覺開發(fā)板開箱即用的離線AI能力,分類列出學(xué)習(xí)課程知識點(diǎn)和實(shí)操參考,希望能夠幫助大家快速掌握離線 AI 智能硬件的基礎(chǔ)知識與實(shí)戰(zhàn)技能,同時(shí)了解相關(guān)AI技術(shù)在實(shí)際場景的應(yīng)用情況。正文按入
    發(fā)表于 07-04 11:14

    新思科技攜手是德科技推出AI驅(qū)動的射頻設(shè)計(jì)遷移流程

    新思科技與是德科技宣布聯(lián)合推出人工智能(AI)驅(qū)動的射頻設(shè)計(jì)遷移流程,旨在加速從臺積公司N6RF+向N4P工藝的遷移,以滿足當(dāng)今要求嚴(yán)苛的無線集成電路應(yīng)用對性能的需求。全新的射頻設(shè)計(jì)遷移
    的頭像 發(fā)表于 06-27 17:36 ?1767次閱讀

    2025年汽車行業(yè)趨勢解讀:AI在汽車軟件開發(fā)中的應(yīng)用、代碼安全挑戰(zhàn)等(附Perforce QAC / Klocwork工具推薦)

    隨著AI技術(shù)深入嵌入式系統(tǒng),汽車軟件已成為智能出行的核心要素。根據(jù)Perforce發(fā)布的《2025年汽車軟件開發(fā)現(xiàn)狀報(bào)告》,全球650多名汽車從業(yè)者共同揭示了AI在汽車行業(yè)的演進(jìn)趨勢、挑戰(zhàn)與應(yīng)
    的頭像 發(fā)表于 06-13 15:03 ?1877次閱讀
    2025年汽車行業(yè)趨勢解讀:<b class='flag-5'>AI</b>在汽車軟件開發(fā)中的應(yīng)用、代碼安全<b class='flag-5'>挑戰(zhàn)</b>等(附Perforce QAC / Klocwork工具推薦)

    微小泄漏零容忍:結(jié)束線連接器氣密性檢測的挑戰(zhàn)對策

    我們在使用結(jié)束線連接器氣密檢測的時(shí)候會遇到很多問題,那在氣密檢測中遇到這些挑戰(zhàn),我們該如何去解決呢,下面是一些挑戰(zhàn)和解決對策
    的頭像 發(fā)表于 06-04 14:17 ?583次閱讀
    微小泄漏零容忍:結(jié)束線連接器氣密性檢測的<b class='flag-5'>挑戰(zhàn)</b>與<b class='flag-5'>對策</b>

    如何精準(zhǔn)提取MOSFET溝道遷移

    溝道有效遷移率(μeff)是CMOS器件性能的關(guān)鍵參數(shù)。傳統(tǒng)測量方法在高k介質(zhì)、漏電介質(zhì)與高速應(yīng)用中易出現(xiàn)誤差。本文介紹了UFSP(Ultra-Fast Single Pulse)技術(shù)如何準(zhǔn)確提取遷移率,克服這些挑戰(zhàn)。
    的頭像 發(fā)表于 05-19 14:28 ?2195次閱讀
    如何精準(zhǔn)提取MOSFET溝道<b class='flag-5'>遷移</b>率
    金湖县| 葵青区| 广昌县| 龙游县| 河北区| 阿尔山市| 资溪县| 道真| 合川市| 泽州县| 澄城县| 桐梓县| 加查县| 海阳市| 如皋市| 行唐县| 塔城市| 宜黄县| 建德市| 千阳县| 甘孜| 额尔古纳市| 阿拉善左旗| 冀州市| 长岛县| 于都县| 阳新县| 宝坻区| 光山县| 略阳县| 象山县| 柞水县| 辉南县| 荆门市| 唐海县| 灵丘县| 江孜县| 井研县| 长丰县| 莲花县| 拜城县|