日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習算法那家強 因子分解機(FM算法)工業(yè)落地能力最強

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-12-31 00:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文 | 石塔西

源 | 夕小瑤的賣萌屋

盡管BERT為代表的預訓練模型大肆流行,但是身處工業(yè)界才會知道它落地有多難,尤其是QPS動輒幾百的在線推薦、搜索系統,哪怕在大廠也很難在線上系統見到它們。

今天就想反其道而行之,談談工業(yè)界搜索、推薦、廣告這類核心場景中落地能力最強的算法(之一):因子分解機(FM)。我不敢說它是最簡單的(FM的確很簡單),但是作為一個推薦算法調參工程師,掌握FM一定是性價比最高的。我推崇FM算法的原因,有以下三點:

功能齊全

眾所周知,推薦算法有三個應用領域:召回、粗排、精排。推薦算法千千萬,但是有的算法只能用于召回,有的算法只能用于排序。像FM這樣實現三個領域全覆蓋的多面手,目前為止,孤陋寡聞的我尚不知道有第二個。但是需要強調的是,我們不能只訓練一個FM排序模型 ,然后直接拿這個排序模型用于召回。盡管都是基于FM算法,但是FM召回與排序,有以下不同:

使用的特征不同

FM召回,由于未來要依賴Faiss進行線上檢索,所以不能使用user與doc的交叉特征。只有如此,我們才能獨立計算user embedding與doc embedding

FM排序,則沒有這方面的限制,可以使用user與doc的交叉特征。是的,你沒看錯。因為FM所實現自動二階交叉,僅能代表“共現”。但是user與doc之間還有其他形式的交叉,比如user tag與doc tag之間的重合度,喂入這樣的交叉,對于排序性能提升,仍然有很大幫助。

使用的樣本不同

訓練FM做排序時,必須使用“曝光未點擊”這樣的“真負”樣本。

訓練FM做召回時,起碼不能只使用“曝光未點擊”做負樣本。大部分的負樣本必須通過隨機采樣得到。個中原因見我的文章《負樣本為王:評Facebook的向量化召回算法》。

使用的Loss不同

FM排序時,由于負樣本是真實的,可以采用CTR預估那樣的point-wise loss

FM召回時,由于負樣本是隨機采樣得到的,存在一定的噪聲,最好采用BPR, hinge這樣的pair-wise loss。

性能優(yōu)異

推薦系統的兩大永恒主題,“記憶”與“擴展”,FM也能實現全覆蓋。

FM存在一階項,實際就是LR,能夠“記憶”高頻、常見模式

FM存在feature embedding。如我在《無中生有:論推薦算法中的Embedding思想》據說,Embedding是提升推薦算法“擴展性”的法寶。FM通過feature embedding,能夠自動挖掘低頻、長尾模式。在這一點上,基于embedding的二階交叉,并不比DNN的高階交叉,遜色多少。

便于上線

現在深度學習是推薦領域的寵兒,LR/FM/GBDT這樣的傳統機器學習算法,不招人待見。

DNN雖然性能優(yōu)異,但是它有一個致命缺點,就是上線困難。訓練的時候,各位調參俠,把各種酷炫的結構,什么attention, transformer, capsule,能加上的都給它加上,看著離線指標一路上漲,心里和臉上都樂開了花,卻全然無視旁邊的后端工程師恨得咬緊了牙根。模型越復雜,離線和線上指標未必就更好,但是線上的時間開銷肯定會增加,輕則影響算法與后端的同事關系(打工人何苦為難打工人),重則你那離線指標完美的模型壓根沒有上線的機會。雖說,目前已經有TF Serving這樣的線上serving框架,但是它也不是開箱即用的,也需要一系列的性能調優(yōu),才能滿足線上的實時性要求。

所以,如果你身處一個小團隊,后端工程人員的技術能力不強,DNN的線上實時預測,就會成為一個難題,這個時候,FM這樣的傳統機器學習算法,就凸顯出其優(yōu)勢。

FM排序,雖然理論上需要所有特征進行二階交叉,但是通過公式化簡,可以在 O(n)的時間復雜度下完成。n是樣本中非零的特征數目,由于推薦系統中的特征非常稀疏,所以預測速度是非常快的。

召回,由于候選集巨大,對于實時性的要求更高。很多基于DNN的召回算法,由于無法滿足線上實時生成user embedding的需求,只能退而離線生成user embedding ,對于用戶實時興趣的捕捉大打折扣。FM召回,這時就顯現其巨大的優(yōu)勢。事先把doc embedding計算好,存入Faiss建立索引,user embedding只需要把一系列的feature embedding相加就可以得到,再去faiss中進行top-k近鄰搜索。FM召回,可以實現基于用戶最新的實時興趣,從千萬量級候選doc中完成實時召回。

總結與參考

由于以上優(yōu)點,我心目中,將FM視為推薦、搜索領域的"瑞士軍刀"。風頭上雖然不及DNN那么搶眼,但是論在推薦系統中發(fā)揮的作用,絲毫不比DNN遜色,有時還能更勝一籌。FM有如此眾多的優(yōu)點,優(yōu)秀的調參俠+打工人,還等什么,還不趕快學起來。想迅速掌握FM,我推薦如下參考文獻:

掌握FM原理,推薦讀美團的博客《深入FFM原理與實踐》。FFM的部分可以忽略,在我看來,FFM更像是為了Kaggle專門訓練的比賽型選手,損失了FM的很多優(yōu)點。這就好比,奧運會上的射擊冠軍,未必能夠勝任當狙擊手一樣。

FM用于召回,推薦讀《推薦系統召回四模型之:全能的FM模型》。注意,如我所述,FM雖然萬能,但是FM排序與FM召回,在特征、樣本、Loss都存在不同,不可能訓練一個FM排序就能直接拿來做召回。這一點,《全能FM》一文沒有提到,需要讀者特別注意。

如果想親手實踐,可以嘗試alphaFM。該項目只不過是作者八小時之外的課外作品,卻被很多公司拿來投入線上實際生產環(huán)境,足見該項目性能之優(yōu)異和作者功力之深厚,令人佩服。強烈建議不滿足只當“調參俠”的同學,通讀一遍alphaFM的源代碼,一定收獲滿滿。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標題:談談工業(yè)界落地能力最強的機器學習算法

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4810

    瀏覽量

    98621
  • FM
    FM
    +關注

    關注

    1

    文章

    196

    瀏覽量

    61580
  • 機器學習
    +關注

    關注

    67

    文章

    8567

    瀏覽量

    137269
  • dnn
    dnn
    +關注

    關注

    0

    文章

    61

    瀏覽量

    9547

原文標題:談談工業(yè)界落地能力最強的機器學習算法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學科的技能,涵蓋數學基礎、編程能力、算法理論、工程實踐以及業(yè)務理解等多個方面。 以下是具體技能及學習建議: 線性代數核心內容:矩陣運算、特征值
    發(fā)表于 02-27 10:53

    深演智能入選2025大鯨榜GenAI最強落地公司

    近日,由虎嗅智庫發(fā)起的 “2025 大鯨榜?GenAI 最強落地公司” 評選結果正式揭曉。憑借在智能營銷領域的技術創(chuàng)新實力、規(guī)?;虡I(yè)落地成果及顯著的價值創(chuàng)造能力,深演智能成功入選企業(yè)
    的頭像 發(fā)表于 12-28 15:45 ?1224次閱讀

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    ,形成\"傳統視覺算法→深度學習建模→工業(yè)級部署\"的完整技術鏈,幫助學員掌握從0到1搭建缺陷檢測系統的能力,響應制造業(yè)\"提質降本增效\"的核心需求。 團購課程
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    ,形成\"傳統視覺算法→深度學習建?!?b class='flag-5'>工業(yè)級部署\"的完整技術鏈,幫助學員掌握從0到1搭建缺陷檢測系統的能力,響應制造業(yè)\"提質降本增效\"的核心需求。 團購課程
    發(fā)表于 12-03 13:50

    單片算法

    平滑濾波算法 設置一個數據緩存區(qū),每新采集一個數據便存入暫存區(qū)中,同時去掉一個最老數據,保存這N個數據始終是最新更新的數據。采用環(huán)型隊列結構可以方便地實現這種數據存放方式。 #define
    發(fā)表于 11-28 08:19

    SM4算法實現分享(一)算法原理

    SM4分組加密算法采用的是非線性迭代結構,以字為單位進行加密、解密運算,每次迭代稱為一輪變換,每輪變換包括S盒變換、非線性變換、線性變換、合成變換。加解密算法與密鑰擴展都是采用32輪非線性迭代結構
    發(fā)表于 10-30 08:10

    e203除法器算法改進(二)

    }表示i次的選商結果) 傳統的SRT-4算法選商的基本原理便是利用PD圖實現選商的過程。(針對SRT-4算法的冗余數字集設置為最小冗余度{-2,-1,0,1,2},冗余度因子$rho=2/3$)。 PD
    發(fā)表于 10-22 06:11

    曠視借助大模型與智能體推動算法落地

    當下,AI技術繁榮無比,但無數企業(yè)卻陷入“叫好不叫座”的困境:算法模型很先進,但一到真實的行業(yè)場景中就“水土不服”。問題究竟出在哪?大模型和智能體的興起,又為我們提供了怎樣的新解題思路?本文將深入探討算法落地的核心痛點,并闡述我
    的頭像 發(fā)表于 10-11 14:04 ?779次閱讀

    25年11月上海FPGA算法實現與應用技術高級研修分享

    進行了詳細的分解和論述,同時對數字中頻處理涉及的許多概念和應用場景進行闡述,不僅幫助大家結合工程設計去深入了解算法,也為后續(xù)的課程學習建立良好的基礎。   第二章: 離散傅里葉變換補充說明:結合現實中
    發(fā)表于 10-11 11:55

    思必馳聲音轉換算法通過國家備案

    近日,國家互聯網信息辦公室公告第十三批深度合成服務算法備案信息,思必馳聲音轉換算法通過備案,這也是思必馳第7項通過備案的算法,標志著思必馳在人工智能算法合規(guī)化與場景
    的頭像 發(fā)表于 09-18 14:05 ?1134次閱讀

    瑞芯微RK3576人體關鍵點識別算法(骨骼點)

    人體關鍵點識別是一種基于深度學習的對人進行檢測定位與姿勢估計的模型,廣泛應用于體育分析、動物行為監(jiān)測和機器人等領域,幫助機器實時解讀物理動作。本算法具有運行效率高、實時性
    的頭像 發(fā)表于 08-27 10:07 ?1183次閱讀
    瑞芯微RK3576人體關鍵點識別<b class='flag-5'>算法</b>(骨骼點)

    AI 驅動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統方法在處理復雜數據和構建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,
    的頭像 發(fā)表于 08-20 10:00 ?888次閱讀
    AI 驅動三維逆向:點云降噪<b class='flag-5'>算法</b>工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模<b class='flag-5'>能力</b>的前沿應用

    PPEC電源DIY套件:圖形化算法編程,解鎖電力電子底層算法實踐

    電源。這種方式不僅降低了開發(fā)門檻,還保留了對底層算法的控制能力,具有很強的實踐性和教育意義。 升級版開關電源DIY 套件核心組件含: PPEC 最小系統板(PPEC32F334RBT7 芯片
    發(fā)表于 08-14 11:30

    PID控制算法學習筆記資料

    用于新手學習PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    單片常用算法源碼下載!

    單片常用算法源碼下載!
    發(fā)表于 06-10 20:44
    墨竹工卡县| 平果县| 盘锦市| 疏附县| 武邑县| 柳江县| 无棣县| 精河县| 镇远县| 房山区| 华亭县| 剑河县| 商都县| 敖汉旗| 郯城县| 休宁县| 珲春市| 成安县| 和静县| 大丰市| 祁门县| 当阳市| 原平市| 湟源县| 越西县| 沅陵县| 新绛县| 朝阳区| 宁晋县| 同德县| 永川市| 瑞金市| 汾西县| 合水县| 临沭县| 开鲁县| 鱼台县| 达日县| 河间市| 潜山县| 义马市|