日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌 | 大規(guī)模深度推薦模型的特征嵌入問題有解了!

WpOh_rgznai100 ? 來源:YXQ ? 2019-07-16 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:本文主要介紹下Google在大規(guī)模深度推薦模型上關(guān)于特征嵌入的最新論文。

一、背景

大部分的深度學習模型主要包含如下的兩大模塊:輸入模塊以及表示學習模塊。自從NAS[1]的出現(xiàn)以來,神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計上正在往數(shù)據(jù)驅(qū)動的自動機器學習方向演進。不過之前更多的研究都是聚焦在如何自動設(shè)計表示學習模塊而不是輸入模塊,主要原因是在計算機視覺等成熟領(lǐng)域原始輸入(圖像像素)已經(jīng)是浮點數(shù)了。

輸入模塊:負責將原始輸入轉(zhuǎn)換為浮點數(shù);表示學習模塊:根據(jù)輸入模塊的浮點值,計算得到模型的最終輸出;

而在推薦、搜索以及廣告工業(yè)界的大規(guī)模深度模型上,情況卻完全不同。因為包含大量高維稀疏的離散特征(譬如商品id,視頻id或者文章id)需要將這些類別特征通過embedding嵌入技術(shù)將離散的id轉(zhuǎn)換為連續(xù)的向量。而這些向量的維度大小往往被當做一個超參手動進行設(shè)定。

一個簡單的數(shù)據(jù)分析就能告訴我們嵌入向量維度設(shè)定的合理與否非常影響模型的效果。以YoutubeDNN[2]為例,其中使用到的VideoId的特征詞典大小是100萬,每一個特征值嵌入向量大小是256。僅僅一個VideoId的特征就包含了2.56億的超參,考慮到其他更多的離散類特征輸入模塊的需要學習的超參數(shù)量可想而知。相應(yīng)地,表示學習模塊主要包含三層全連接層。也就是說大部分的超參其實聚集在了輸入模塊,那自然就會對模型的效果有著舉足輕重的影響。

二、主要工作

Google的研究者們在最新的一篇論文[3]中提出了NIS技術(shù)(Neural Input Search),可以自動學習大規(guī)模深度推薦模型中每個類別特征最優(yōu)化的詞典大小以及嵌入向量維度大小。目的就是為了在節(jié)省性能的同時盡可能地最大化深度模型的效果。

并且,他們發(fā)現(xiàn)傳統(tǒng)的Single-size Embedding方式(所有特征值共享同樣的嵌入向量維度)其實并不能夠讓模型充分學習訓練數(shù)據(jù)。因此與之對應(yīng)地,提出了Multi-size Embedding方式讓不同的特征值可以擁有不同的嵌入向量維度。

在實際訓練中,他們使用強化學習來尋找每個特征值最優(yōu)化的詞典大小和嵌入向量維度。通過在兩大大規(guī)模推薦問題(檢索、排序)上的實驗驗證,NIS技術(shù)能夠自動學習到更優(yōu)化的特征詞典大小和嵌入維度并且?guī)碓赗ecall@1以及AUC等指標上的顯著提升。

三、Neural Input Search問題

NIS-SE問題:SE(Single-size Embedding)方式是目前常用的特征嵌入方式,所有特征值共享同樣的特征嵌入維度。NIS-SE問題就是在給定資源條件下,對于每個離散特征找到最優(yōu)化的詞典大小v和嵌入向量維度d。

這里面其實包含了兩部分的trade-off:一方面是各特征之間,更有用的特征應(yīng)該給予更多的資源;另一方面是每個特征內(nèi)部,詞典大小和嵌入向量維度之間。對于一個特征來說,更大的詞典可以有更大的覆蓋度,包含更多長尾的item;更多的嵌入向量維度則可以提升head item的嵌入質(zhì)量,因為head item擁有充分的訓練數(shù)據(jù)。而SE在資源限制下無法同時做到高覆蓋度和高質(zhì)量的特征嵌入。所以需要引入ME(Multi-size Embedding)。

NIS-ME問題:ME允許每個特征詞典內(nèi)不同的特征值可以有不同的嵌入向量維度。其實就是為了實現(xiàn)越頻繁的特征值擁有更大的嵌入特征維度,因為有更多的訓練數(shù)據(jù);而長尾的特征值則用更小的嵌入特征維度。引入ME為每一個類別離散特征找到最優(yōu)化的詞典大小和嵌入向量維度,就可以實現(xiàn)在長尾特征值上的高覆蓋度以及在頻繁特征值上的高質(zhì)量嵌入向量。下圖給出了embedding使用的場景例子中,SE和ME使用上的區(qū)別。

四、NIS解決方案

要想為每個類別離散特征手動找到最優(yōu)化的詞典大小和嵌入向量維度是很難的,因為推薦廣告工業(yè)界的大規(guī)模深度模型的訓練時很昂貴的。為了達到在一次訓練中就能自動找到最優(yōu)化的詞典大小和嵌入向量維度,他們改造了經(jīng)典的ENAS[4]:

首先針對深度模型的輸入模塊提出了一個新穎的搜索空間;

然后有一個單獨的Controller針對每一個離散特征選擇SE或者ME;

其次可以根據(jù)Controller決策后考慮模型準確度和資源消耗計算得到reward;

最后可以根據(jù)reward使用強化學習A3C[5]訓練Controller進行迭代。

搜索空間

Embedding Block的概念實際上就是原始Embedding矩陣的分塊。如下圖所示,假設(shè)原始Embedding矩陣大小是(10M,256),圖a將其分成了20個Embedding Block。Controller為每個特征有兩種選擇:圖b所示的SE以及圖c的所示的ME。

Reward函數(shù)

主模型是隨著Controller的選擇進行訓練的,因此Controller的參數(shù)實際上是根據(jù)在驗證集上前向計算的reward通過RL追求收益最大化而來??紤]到在限定資源下的深度模型訓練,這里的reward函數(shù)設(shè)計為同時考慮業(yè)務(wù)目標與資源消耗。對于推薦領(lǐng)域的兩大主要任務(wù):信息檢索和排序,信息檢索的目標可以使用Sampled Recall@1;而排序的目標則可以使用AUC。

五、實驗結(jié)果

他們在兩大大規(guī)模推薦模型問題:檢索和排序上進行了實驗。在同等資源消耗的情況下,NIS可以獲得顯著提升,詳細數(shù)據(jù)如下圖所示。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6259

    瀏覽量

    112019

原文標題:Google最新論文:大規(guī)模深度推薦模型的特征嵌入問題有解了!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎(chǔ)手寫大模型資料2026

    零基礎(chǔ)純代碼手寫大模型:從數(shù)學原理到工程實踐的技術(shù)解析 在深度學習框架高度封裝的今天,理解大模型底層原理的開發(fā)者愈發(fā)稀缺。本文將剝離復(fù)雜框架的依賴,從數(shù)學基礎(chǔ)出發(fā),解析如何用基礎(chǔ)代碼實現(xiàn)一個具備
    發(fā)表于 05-01 17:44

    黑馬-Java+AI新版V16零基礎(chǔ)就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    、Flink 做大規(guī)模特征變換,依賴 Spring Cloud Data Flow 編排特征流水線——這些組件天然與 Java 服務(wù)共享運行時與開發(fā)體感。設(shè)計要點在于將特征計算與模型
    發(fā)表于 05-01 11:29

    意法半導(dǎo)體為超大規(guī)模AI數(shù)據(jù)中心破解供電難題

    的高密度電力傳輸解決方案》白皮書,深度解析ST適配NVIDIA 800V DC架構(gòu)的高密功率傳輸方案,為超大規(guī)模AI數(shù)據(jù)中心破解供電難題!
    的頭像 發(fā)表于 04-07 15:46 ?332次閱讀
    意法半導(dǎo)體為超<b class='flag-5'>大規(guī)模</b>AI數(shù)據(jù)中心破解供電難題

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機器學習問題的強大工具。然而,這種能力往往伴隨著模型規(guī)模和計算復(fù)雜度的增加。當輸入維度較大(例如長時序窗口、高分辨率特征空間)
    的頭像 發(fā)表于 02-24 15:37 ?5501次閱讀
    面向<b class='flag-5'>嵌入</b>式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:<b class='flag-5'>模型</b>壓縮<b class='flag-5'>深度</b>解析

    晶晨攜手谷歌,助力端側(cè)大模型Gemini的硬件落地

    電子發(fā)燒友網(wǎng)報道 在科技飛速發(fā)展的當下,端側(cè)智能技術(shù)正以前所未有的速度滲透到各個領(lǐng)域。1月28日,晶晨股份透露,公司與谷歌有著長達十余年的深度合作基礎(chǔ)。作為谷歌新一代端側(cè)AI硬件(整合Gemini
    的頭像 發(fā)表于 01-29 10:44 ?2456次閱讀

    谷歌評論卡,碰一碰即可完成谷歌評論 #谷歌評論卡 #NFC標簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發(fā)布于 :2026年01月15日 17:02:00

    ALVA純視覺系統(tǒng)如何破解具身智能大規(guī)模落地的核心瓶頸

    在 2025 中國信通院深度觀察報告會上,許志遠副總工程師指出,具身智能正經(jīng)歷認知與物理智能的“雙螺旋”突破,但模型、數(shù)據(jù)、形態(tài)路線三大爭議未決,大規(guī)模落地尚處早期。若想突破現(xiàn)存瓶頸,亟需完成技術(shù)架構(gòu)、數(shù)據(jù)體系、商業(yè)化形態(tài)的三重
    的頭像 發(fā)表于 12-28 15:34 ?1303次閱讀
    ALVA純視覺系統(tǒng)如何破解具身智能<b class='flag-5'>大規(guī)模</b>落地的核心瓶頸

    泰凌微:布局端側(cè)AI,產(chǎn)品支持谷歌LiteRT、TVM開源模型

    ?電子發(fā)燒友網(wǎng)報道(文/李彎彎)泰凌微近日表示,公司與谷歌在智能家居、音頻等多個領(lǐng)域開展具體項目合作。其與谷歌已從單一的遙控器芯片供應(yīng),發(fā)展為涵蓋音頻、智能家居、端側(cè)AI等多領(lǐng)域的深度合作關(guān)系
    的頭像 發(fā)表于 12-15 08:21 ?1w次閱讀

    谷歌云發(fā)布最強自研TPU,性能比前代提升4倍

    精心設(shè)計,能夠輕松處理從大型模型訓練到實時聊天機器人運行以及AI智能體操作等各類復(fù)雜任務(wù)。 ? 谷歌在新聞稿中著重強調(diào),“Ironwood”是專為應(yīng)對最嚴苛的工作負載而打造的。無論是大規(guī)模模型
    的頭像 發(fā)表于 11-13 07:49 ?9061次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強自研TPU,性能比前代提升4倍

    谷歌AlphaEarth和維智時空AI大模型的技術(shù)路徑

    谷歌AlphaEarth和維智時空AI大模型在應(yīng)用場景和技術(shù)實現(xiàn)上各有側(cè)重,但兩者在底層技術(shù)理念上存在顯著共性。
    的頭像 發(fā)表于 10-22 14:48 ?1076次閱讀

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1426次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專家并行架構(gòu)設(shè)計

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源
    的頭像 發(fā)表于 09-06 15:21 ?1463次閱讀
    <b class='flag-5'>大規(guī)模</b>專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?1249次閱讀
    基于<b class='flag-5'>大規(guī)模</b>人類操作數(shù)據(jù)預(yù)訓練的VLA<b class='flag-5'>模型</b>H-RDT

    薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊真值表,薄型、多頻段、
    發(fā)表于 05-15 18:32
    薄型、多頻段、<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)前端模塊 skyworksinc

    帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊真值表,帶耦合器的
    發(fā)表于 05-09 18:35
    帶耦合器的<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)半雙工前端模塊 skyworksinc
    崇义县| 潼南县| 额济纳旗| 苏尼特右旗| 华坪县| 东莞市| 宁强县| 出国| 宿州市| 新安县| 阳朔县| 四会市| 来安县| 武平县| 遂昌县| 汾阳市| 富民县| 蒙城县| 宝丰县| 会宁县| 锦屏县| 淮北市| 贺兰县| 左云县| 新乡县| 乳源| 休宁县| 连平县| 禄劝| 吴桥县| 延寿县| 茂名市| 赫章县| 图木舒克市| 怀宁县| 襄汾县| 甘孜县| 开封市| 龙泉市| 泾阳县| 临邑县|