日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Transformers的企業(yè)數(shù)據(jù)挑戰(zhàn)解決方案

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-05-16 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大數(shù)據(jù)、新算法和快速計(jì)算是使現(xiàn)代 AI 革命成為可能的三個(gè)主要因素。然而,數(shù)據(jù)給企業(yè)帶來(lái)了許多挑戰(zhàn):數(shù)據(jù)標(biāo)記困難、數(shù)據(jù)治理效率低下、數(shù)據(jù)可用性有限、數(shù)據(jù)隱私等。

綜合生成的數(shù)據(jù)是解決這些挑戰(zhàn)的潛在解決方案,因?yàn)樗ㄟ^從模型中采樣來(lái)生成數(shù)據(jù)點(diǎn)。連續(xù)采樣可以生成無(wú)限多的數(shù)據(jù)點(diǎn),包括標(biāo)簽。這允許跨團(tuán)隊(duì)或外部共享數(shù)據(jù)。

生成合成數(shù)據(jù)還可以在不影響質(zhì)量或真實(shí)性的情況下提供一定程度的數(shù)據(jù)隱私。成功的合成數(shù)據(jù)生成涉及在保持隱私的同時(shí)捕獲分布,并有條件地生成新數(shù)據(jù),然后這些數(shù)據(jù)可用于建立更穩(wěn)健的模型或用于時(shí)間序列預(yù)測(cè)。

在這篇文章中,我們以 NVIDIA NeMo 為例,解釋如何用 transformer 模型人工生成合成數(shù)據(jù)。我們解釋了如何在 machine learning 算法中使用合成生成的數(shù)據(jù)作為真實(shí)數(shù)據(jù)的有效替代品,以保護(hù)用戶隱私,同時(shí)做出準(zhǔn)確的預(yù)測(cè)。

變壓器:更好的合成數(shù)據(jù)發(fā)生器

Deep learning 生成模型自然適合對(duì)復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)建模。兩種流行的生成模型在過去取得了一些成功:可變自動(dòng)編碼器( VAE )和生成對(duì)抗網(wǎng)絡(luò)( GAN )。

然而,合成數(shù)據(jù)生成的 VAE 和 GAN 模型存在已知問題:

GAN 模型中的 模式崩潰問題 會(huì)導(dǎo)致生成的數(shù)據(jù)錯(cuò)過訓(xùn)練數(shù)據(jù)分布中的某些模式。

由于非自回歸損失, VAE 模型難以生成尖銳的數(shù)據(jù)點(diǎn)。

Transformer Models 最近在自然語(yǔ)言處理( NLP )領(lǐng)域取得了巨大的成功。 transformer 模型的自我注意編碼和解碼架構(gòu)已被證明在建模數(shù)據(jù)分布方面是準(zhǔn)確的,并且可擴(kuò)展到更大的數(shù)據(jù)集。例如, NVIDIA Megatron-Turing NLG 模型使用 530B 參數(shù)獲得了優(yōu)異的結(jié)果。

GPT

OpenAI’s GPT3 使用 transformer 模型的解碼器部分,具有 175B 參數(shù)。 GPT3 已廣泛應(yīng)用于多個(gè)行業(yè)和領(lǐng)域,從生產(chǎn)力和教育到創(chuàng)意和游戲。

GPT 模型被證明是一種優(yōu)越的生成模型。如你所知,任何聯(lián)合概率分布都可以根據(jù) 概率鏈規(guī)則 分解成一系列條件概率分布的乘積。 GPT 自回歸損失直接模擬圖 1 所示的數(shù)據(jù)聯(lián)合概率分布。

pYYBAGKBqOSALrmNAACWRyhquH0232.png

圖 1 GPT 模型訓(xùn)練

在圖 1 中, GPT 模型訓(xùn)練使用自回歸損失。它與概率鏈規(guī)則有一對(duì)一的映射。 GPT 直接建模數(shù)據(jù)的聯(lián)合概率分布。

由于表格數(shù)據(jù)由不同類型的數(shù)據(jù)(如行或列)組成, GPT 可以理解跨多個(gè)表格行和列的聯(lián)合數(shù)據(jù)分布,并生成合成數(shù)據(jù),就好像它是 NLP 文本數(shù)據(jù)一樣。我們的 experiments 表明, GPT 模型確實(shí)可以生成更高質(zhì)量的表格合成數(shù)據(jù)。

更高質(zhì)量的表格數(shù)據(jù)標(biāo)記器

盡管 GPT 具有優(yōu)越性,但使用 GPT 對(duì)表格數(shù)據(jù)建模仍存在許多挑戰(zhàn): GPT 模型的數(shù)據(jù)輸入是令牌 ID 序列。對(duì)于 NLP 數(shù)據(jù)集,可以使用 byte-pair encoding ( BPE )標(biāo)記器將文本數(shù)據(jù)轉(zhuǎn)換為標(biāo)記 ID 序列。

對(duì)于表格數(shù)據(jù)集,使用通用 GPT BPE 標(biāo)記器 是很自然的;然而,這種方法存在一些問題。

首先,當(dāng) GPT BPE 標(biāo)記器將表格數(shù)據(jù)拆分為標(biāo)記時(shí),同一列不同行的標(biāo)記數(shù)通常不是固定的,因?yàn)闃?biāo)記數(shù)是由單個(gè)子項(xiàng)的出現(xiàn)頻率決定的。這意味著,如果使用普通 NLP 標(biāo)記器,表中的列信息將丟失。

NLP 標(biāo)記器的另一個(gè)問題是,列中的長(zhǎng)字符串將由大量標(biāo)記組成??紤]到 GPT 對(duì)令牌序列建模的能力有限,這是一種浪費(fèi)。例如,商戶名稱 三井工程造船公司 需要 7 個(gè)令牌來(lái)使用 BPE 令牌化器對(duì)其進(jìn)行編碼([448969019424122216656168941766])。

正如 TabFormer paper 中所討論的,一個(gè)可行的解決方案是為考慮表的結(jié)構(gòu)信息的表格數(shù)據(jù)構(gòu)建一個(gè)專門的標(biāo)記器。 TabFormer 標(biāo)記化器為每列使用一個(gè)標(biāo)記,如果該列的標(biāo)記數(shù)較小,則可能導(dǎo)致精度損失,如果標(biāo)記數(shù)過大,則可能導(dǎo)致泛化能力較弱。

我們通過使用多個(gè)標(biāo)記對(duì)列進(jìn)行編碼來(lái)改進(jìn)它。

poYBAGKBqOaADEuKAABMrQlhRR4977.png

圖 2 將浮點(diǎn)數(shù)轉(zhuǎn)換為令牌 ID 序列

圖 2 顯示了將浮點(diǎn)數(shù)轉(zhuǎn)換為令牌 ID 序列的步驟。首先,我們可逆地將浮點(diǎn)數(shù)轉(zhuǎn)換為正整數(shù)。然后,它被轉(zhuǎn)換成一個(gè)具有位置基 B 的數(shù)字,其中 B 是一個(gè)超參數(shù)?;?B 號(hào)越大,表示該數(shù)字所需的令牌就越少。

然而,更大的基數(shù) B 犧牲了新數(shù)字的通用性。在最后一步中,數(shù)字被映射到唯一的令牌 ID 。要將令牌 ID 轉(zhuǎn)換為浮點(diǎn)數(shù),請(qǐng)按相反順序運(yùn)行以下步驟。然后,浮點(diǎn)數(shù)解碼精度由令牌的數(shù)量和位置基的選擇決定 B 。

基于 NeMo 框架的伸縮模型訓(xùn)練

NeMo 是用于培訓(xùn) 對(duì)話人工智能 模型的框架。在 NeMo 存儲(chǔ)庫(kù)內(nèi)的 released code 中,我們的表格數(shù)據(jù)標(biāo)記器支持整數(shù)和分類數(shù)據(jù),處理 NaN 值,并支持不同的標(biāo)量轉(zhuǎn)換以最小化數(shù)字之間的差異。有關(guān)更多信息,請(qǐng)參閱我們的 源代碼實(shí)現(xiàn) 。

您可以使用特殊的表格數(shù)據(jù)標(biāo)記器來(lái)訓(xùn)練任何大小的表格合成數(shù)據(jù)生成 GPT 模型。由于內(nèi)存限制,大型模型可能難以訓(xùn)練。 NeMo megatron 是一個(gè)用于在 NeMo 中訓(xùn)練大型語(yǔ)言模型的工具包,并提供 張量模型并行和管道模型并行 和 張量模型并行和管道模型并行 。

這使得 transformer 模型的訓(xùn)練具有數(shù)十億個(gè)參數(shù)。除了模型并行性之外,您還可以在培訓(xùn)期間應(yīng)用數(shù)據(jù)并行性,以充分利用集群中的所有 GPU 。根據(jù) OpenAI 的 自然語(yǔ)言的尺度律 和 深度學(xué)習(xí)模型的過度參數(shù)化理論 ,考慮到訓(xùn)練數(shù)據(jù)的大小,建議訓(xùn)練大型模型以獲得合理的驗(yàn)證損失。

將 GPT 模型應(yīng)用于實(shí)際應(yīng)用

在我們最近的 GTC 談話 ,我們表明,經(jīng)過訓(xùn)練的大型 GPT 模型可以生成高質(zhì)量的合成數(shù)據(jù)。如果我們繼續(xù)對(duì)經(jīng)過訓(xùn)練的表格 GPT 模型進(jìn)行采樣,它可以產(chǎn)生無(wú)限多個(gè)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)都像原始數(shù)據(jù)一樣遵循聯(lián)合分布。生成的合成數(shù)據(jù)提供了與原始數(shù)據(jù)相同的分析見解,但沒有透露個(gè)人的私人信息。這使得安全的數(shù)據(jù)共享成為可能。

此外,如果您根據(jù)過去的數(shù)據(jù)對(duì)生成模型進(jìn)行調(diào)整,以生成未來(lái)的合成數(shù)據(jù),那么該模型實(shí)際上是在預(yù)測(cè)未來(lái)。這對(duì)金融服務(wù)行業(yè)中處理金融時(shí)間序列數(shù)據(jù)的客戶很有吸引力。 與 Cohen & Steers 合作 ,我們實(shí)施了一個(gè)表格 GPT 模型,以預(yù)測(cè)經(jīng)濟(jì)和市場(chǎng)指標(biāo),包括通貨膨脹、波動(dòng)性和股票市場(chǎng),并獲得高質(zhì)量的結(jié)果。

彭博社在 2022 年 GTC 上介紹了他們?nèi)绾螒?yīng)用我們提出的合成數(shù)據(jù)方法來(lái)分析信用卡交易數(shù)據(jù)的模式,同時(shí)保護(hù)用戶數(shù)據(jù)隱私。

運(yùn)用你的知識(shí)

在本文中,我們介紹了使用 NeMo 生成合成表格數(shù)據(jù)的想法,并展示了如何將其用于解決實(shí)際問題。

關(guān)于作者

Yi Dong 是 NVIDIA 的深度學(xué)習(xí)解決方案架構(gòu)師,負(fù)責(zé)提供金融服務(wù)業(yè)人工智能解決方案。易建聯(lián)獲得了博士學(xué)位。來(lái)自約翰·霍普金斯大學(xué)醫(yī)學(xué)院,研究計(jì)算神經(jīng)科學(xué)。易在計(jì)算機(jī)軟件工程、機(jī)器學(xué)習(xí)和金融領(lǐng)域擁有 10 年的工作經(jīng)驗(yàn)。易建聯(lián)喜歡閱讀深度學(xué)習(xí)的最新進(jìn)展,并將其應(yīng)用于解決財(cái)務(wù)問題。

Emanuel Scoullos 是 NVIDIA 金融服務(wù)和技術(shù)團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家,他專注于 FSI 內(nèi)的 GPU 應(yīng)用。此前,他在反洗錢領(lǐng)域的一家初創(chuàng)公司擔(dān)任數(shù)據(jù)科學(xué)家,應(yīng)用數(shù)據(jù)科學(xué)、分析和工程技術(shù)構(gòu)建機(jī)器學(xué)習(xí)管道。他獲得了博士學(xué)位。普林斯頓大學(xué)化學(xué)工程碩士和羅格斯大學(xué)化學(xué)工程學(xué)士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5708

    瀏覽量

    110174
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5301

    瀏覽量

    136144
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50426

    瀏覽量

    267392
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    交直流混合微電網(wǎng):混合架構(gòu)的設(shè)計(jì)挑戰(zhàn)解決方案

    聚焦混合架構(gòu)的設(shè)計(jì)挑戰(zhàn),結(jié)合工程實(shí)踐案例,提出針對(duì)性解決方案,為混合架構(gòu)的科學(xué)設(shè)計(jì)、高效運(yùn)行提供技術(shù)參考。
    的頭像 發(fā)表于 04-20 16:47 ?1043次閱讀
    交直流混合微電網(wǎng):混合架構(gòu)的設(shè)計(jì)<b class='flag-5'>挑戰(zhàn)</b>與<b class='flag-5'>解決方案</b>

    Mobileum和NOHOLD為電信企業(yè)客戶推出白標(biāo)AI助手解決方案

    全球領(lǐng)先的分析和網(wǎng)絡(luò)解決方案提供商Mobileum Inc. (“Mobileum”)與企業(yè)級(jí)AI助手平臺(tái)領(lǐng)軍企業(yè)NOHOLD宣布推出一款全新白標(biāo)AI助手解決方案,該
    的頭像 發(fā)表于 02-12 17:04 ?5197次閱讀

    數(shù)據(jù)解決方案如何實(shí)施

    數(shù)據(jù)解決方案實(shí)施的難點(diǎn)在于以下幾點(diǎn): ?1.很少有優(yōu)質(zhì)可用的數(shù)據(jù) ?在數(shù)聚股份看來(lái),這幾年數(shù)據(jù)交易機(jī)構(gòu)如雨后春筍,“數(shù)據(jù)變現(xiàn)”成為很多擁有
    的頭像 發(fā)表于 12-25 18:22 ?1187次閱讀

    Amphenol LTW:數(shù)據(jù)中心互連解決方案的創(chuàng)新先鋒

    Amphenol LTW:數(shù)據(jù)中心互連解決方案的創(chuàng)新先鋒 在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,數(shù)據(jù)中心的高效運(yùn)行至關(guān)重要。Amphenol LTW作為一家專注于為惡劣環(huán)境提供卓越互連
    的頭像 發(fā)表于 12-10 09:30 ?1080次閱讀

    Amphenol LTW:數(shù)據(jù)中心互連解決方案的創(chuàng)新先鋒

    在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,數(shù)據(jù)中心的高效運(yùn)行至關(guān)重要。Amphenol LTW(ALTW)作為一家專注于為惡劣環(huán)境提供卓越互連解決方案企業(yè),憑借其創(chuàng)新技術(shù)和豐富產(chǎn)品線,在
    的頭像 發(fā)表于 12-09 16:11 ?870次閱讀
    Amphenol LTW:<b class='flag-5'>數(shù)據(jù)</b>中心互連<b class='flag-5'>解決方案</b>的創(chuàng)新先鋒

    達(dá)實(shí)智能構(gòu)建企業(yè)辦公空間智慧場(chǎng)景解決方案

    為了給企業(yè)用戶提供優(yōu)質(zhì)的整體智能化方案服務(wù),達(dá)實(shí)智能搭建了以AIoT智能物聯(lián)網(wǎng)管控平臺(tái)為核心的 “1 + 4 + N ” 產(chǎn)品體系,用豐富的行業(yè)原生應(yīng)用,實(shí)現(xiàn)互聯(lián)互通和數(shù)據(jù)共享,讓數(shù)據(jù)
    的頭像 發(fā)表于 11-28 10:24 ?829次閱讀

    無(wú)質(zhì)量損失的數(shù)據(jù)遷移:Nikon SLM Solutions信賴3Dfindit企業(yè)

    Nikon SLM Solutions使用CADENAS解決方案遷移了8600多個(gè)零部件并優(yōu)化了設(shè)計(jì)工程流程 Nikon SLM Solutions公司依靠3Dfindit企業(yè)版實(shí)現(xiàn)了高效、高質(zhì)量
    發(fā)表于 11-25 10:06

    自動(dòng)駕駛數(shù)據(jù)采集時(shí)間同步指南:方法、挑戰(zhàn)、場(chǎng)景與康謀解決方案

    自動(dòng)駕駛數(shù)據(jù)采集面臨多傳感器協(xié)同與多總線協(xié)議割裂的挑戰(zhàn),時(shí)間同步精度直接影響系統(tǒng)安全與研發(fā)效率??抵\科技推出"全以太網(wǎng)+gPTP"方案,通過硬件級(jí)時(shí)間戳、多協(xié)議轉(zhuǎn)以太網(wǎng)聚合等技術(shù)
    的頭像 發(fā)表于 11-21 16:48 ?2371次閱讀

    長(zhǎng)電科技光電合封解決方案降低數(shù)據(jù)互連能耗

    今年以來(lái),光電合封(Co-packaged Optics,CPO)技術(shù)加速邁向產(chǎn)業(yè)化:國(guó)際巨頭推出交換機(jī)CPO方案降低數(shù)據(jù)互連能耗;國(guó)內(nèi)企業(yè)則在集成光引擎等產(chǎn)業(yè)領(lǐng)域?qū)崿F(xiàn)突破。作為先進(jìn)封裝技術(shù)的領(lǐng)軍
    的頭像 發(fā)表于 09-05 15:46 ?4731次閱讀

    無(wú)人超市解決方案 智慧新零售解決方案

    ?在零售行業(yè)競(jìng)爭(zhēng)日益激烈的當(dāng)下,傳統(tǒng)超市面臨著一系列難以回避的挑戰(zhàn),而無(wú)人超市解決方案正是為破解這些痛點(diǎn)而生?!鴤鹘y(tǒng)超市普遍存在人工成本高企的問題:從收銀員、導(dǎo)購(gòu)
    的頭像 發(fā)表于 08-22 10:22 ?1410次閱讀
    無(wú)人超市<b class='flag-5'>解決方案</b> 智慧新零售<b class='flag-5'>解決方案</b>

    PLC數(shù)據(jù)采集(工業(yè)設(shè)備與MES通信)解決方案

    無(wú)法正常聯(lián)網(wǎng)的情況;二是現(xiàn)場(chǎng)部署的PLC品牌眾多,給數(shù)據(jù)采集設(shè)備的兼容性帶來(lái)了極高挑戰(zhàn)。 針對(duì)這些痛點(diǎn),物通博聯(lián)提供基于網(wǎng)段隔離器+工業(yè)智能網(wǎng)關(guān)的解決方案,不僅能快速、穩(wěn)定、安全地完成PLC數(shù)
    的頭像 發(fā)表于 07-16 17:21 ?999次閱讀
    PLC<b class='flag-5'>數(shù)據(jù)</b>采集(工業(yè)設(shè)備與MES通信)<b class='flag-5'>解決方案</b>

    Analog Devices Inc. ADAQ4001 μModule?數(shù)據(jù)采集解決方案數(shù)據(jù)手冊(cè)

    Analog Devices Inc. ADAQ4001 μModule^?^ 數(shù)據(jù)采集解決方案是一套信號(hào)鏈解決方案,通過將元件選擇、優(yōu)化和布局的信號(hào)鏈設(shè)計(jì)挑戰(zhàn)從設(shè)計(jì)人員轉(zhuǎn)移到器件,縮短精密測(cè)量系統(tǒng)
    的頭像 發(fā)表于 07-01 15:25 ?995次閱讀
    Analog Devices Inc. ADAQ4001 μModule?<b class='flag-5'>數(shù)據(jù)采集解決方案</b><b class='flag-5'>數(shù)據(jù)</b>手冊(cè)

    雙碳目標(biāo)下的企業(yè)選擇:安科瑞EMS3.0智慧能效解決方案,幫助企業(yè)實(shí)現(xiàn)能效可視化管理

    一、行業(yè)背景 在全球能源結(jié)構(gòu)轉(zhuǎn)型與“雙碳”目標(biāo)加速推進(jìn)的背景下,企業(yè)能源管理正面臨效率提升、成本優(yōu)化和低碳發(fā)展的多重挑戰(zhàn)。安科瑞作為國(guó)內(nèi)領(lǐng)先的能效管理解決方案服務(wù)商,憑借多年技術(shù)積累與行業(yè)洞察,推出
    的頭像 發(fā)表于 06-20 17:02 ?806次閱讀
    雙碳目標(biāo)下的<b class='flag-5'>企業(yè)</b>選擇:安科瑞EMS3.0智慧能效<b class='flag-5'>解決方案</b>,幫助<b class='flag-5'>企業(yè)</b>實(shí)現(xiàn)能效可視化管理

    艾默生 SolaHD 通過 \"從地板到云端?\"解決方案和在線產(chǎn)品配置器推進(jìn)電能質(zhì)量管理

    備先進(jìn)的診斷功能。這一堅(jiān)實(shí)基礎(chǔ)可與云端系統(tǒng)實(shí)現(xiàn)無(wú)縫對(duì)接,使企業(yè)能夠靈活擴(kuò)展運(yùn)營(yíng)規(guī)模、獲取實(shí)時(shí)數(shù)據(jù)分析,并快速適應(yīng)不斷變化的市場(chǎng)需求。 SolaHD\"從設(shè)備層到云端?\"解決方案
    發(fā)表于 06-10 14:50

    Analog Devices Inc. ADAQ4370-4 μModule?數(shù)據(jù)采集解決方案

    Analog Devices Inc. ADAQ4370-4 μModule^?^ 數(shù)據(jù)采集(DAQ)解決方案是一款四通道、16位精密DAQ信號(hào)鏈解決方案。該器件將元件選擇的信號(hào)鏈設(shè)計(jì)挑戰(zhàn)
    的頭像 發(fā)表于 05-26 09:54 ?1267次閱讀
    Analog Devices Inc. ADAQ4370-4 μModule?<b class='flag-5'>數(shù)據(jù)采集解決方案</b>
    庐江县| 星子县| 肇源县| 彭山县| 晋州市| 韶关市| 四会市| 孝感市| 昌平区| 独山县| 英德市| 临洮县| 太和县| 建水县| 乐昌市| 开江县| 西乌珠穆沁旗| 都匀市| 都安| 泰州市| 龙泉市| 陆河县| 南溪县| 长白| 安平县| 巴马| 萨嘎县| 水城县| 神农架林区| 密山市| 临夏县| 南通市| 仁布县| 淮滨县| 小金县| 容城县| 多伦县| 永顺县| 赤水市| 涞水县| 阿坝|