日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有關(guān)語(yǔ)義匹配和推理

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-14 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

先把論文放出來(lái):Enhanced LSTM for Natural Language Inference,說(shuō)實(shí)話這篇論文不算新了,但是在語(yǔ)義相似度方至今仍流傳著他的傳說(shuō),因此我還是把這篇論文拿著讀了起來(lái)。近期也是看了很多文章,但是終究不如讀論文來(lái)的過(guò)癮,大部分博客對(duì)這篇論文的模型核心做了很多介紹,但各個(gè)操作的出發(fā)點(diǎn)和一些獨(dú)到的見解卻寫的不多,這次我會(huì)在介紹ESIM的過(guò)程中討論一下。

當(dāng)然,還是建議大家好好品讀原論文,更有味道。

另外給點(diǎn)代碼,看論文不清楚的看看論文也挺好:

https://blog.csdn.net/wcy23580/article/details/84990923。

https://github.com/weekcup/ESIM。

有關(guān)語(yǔ)義匹配和推理

一般地,向量召回主要用的表征模型,但是表征模型沒(méi)有用到交互特征,因此匹配的準(zhǔn)確率上肯定比不過(guò)交互模型,所以一般工程上用表征模型召回,然后用交互模型來(lái)做精排,這樣能保證整個(gè)搜索系統(tǒng)的效果更加穩(wěn)定可靠(看到?jīng)],準(zhǔn)召分離的思路又來(lái)了),而交互模型這塊,比較可靠的基線,應(yīng)該就要數(shù)ESIM了。

ESIM里,我比較欣賞的是這幾點(diǎn):

LSTM抽取上下文信息。Tree-LSTM的嘗試也為信息抽取帶來(lái)啟發(fā)。

把Decomposable attention作為交互特征的思路有機(jī)組合起來(lái)了。

多種交互形式的特征concat起來(lái)。

當(dāng)然具體閱讀后,我還提煉了一些新的idea,在文末。有了這些思路,先讓我們來(lái)看看具體的模型,其實(shí)論文的行文里討論了很多思路,我們先來(lái)看整體論文思路,然后再來(lái)提煉里面的獨(dú)到之處。

模型整體

論文的模型其實(shí)沒(méi)有想象中的困難,在很早就把整篇論文給到了:

輸入層是embedding+LSTM的組合。

Local Inference Modeling層,用的Decomposable Attention來(lái)體現(xiàn)兩者的交互型。

Inference composition層則把上面一層的結(jié)果進(jìn)行多種組合計(jì)算,得到多種特征,說(shuō)白了就是比較。

輸出層就不多說(shuō)了,大家都懂的。

輸入層

一般的輸入層只會(huì)是簡(jiǎn)單的word2vector,但這里其實(shí)加了一個(gè)LSTM,還是雙向的,就是用來(lái)獲取各路信息。來(lái)看看代碼,這個(gè)還是比較清晰的:

i1=Input(shape=(SentenceLen,),dtype='float32') i2=Input(shape=(SentenceLen,),dtype='float32') x1=Embedding([CONFIG])(i1) x2=Embedding([CONFIG])(i2) x1=Bidirectional(LSTM(300,return_sequences=True))(x1) x2=Bidirectional(LSTM(300,return_sequences=True))(x2)

Local Inference Modeling

中文翻譯應(yīng)該是局部推理層,我的理解這一層是用于抽取局部信息的,作者用的方法應(yīng)該來(lái)源于這篇論文:A Decomposable Attention Model for Natural Language Inference,這里其實(shí)是一個(gè)計(jì)算交互特征的過(guò)程,即一一分析兩個(gè)句子之間每個(gè)位置的相似度,最簡(jiǎn)單的方式就是點(diǎn)乘,而這篇論文就是使用的這個(gè)最簡(jiǎn)單的方式:

然后再把權(quán)重分散到各個(gè)位置,其實(shí)形態(tài)就很像softmax了:

這個(gè)其實(shí)就是做了一個(gè)交叉,計(jì)算整個(gè)句子的權(quán)重,然后用類似softmax的形式整上,非常討巧,相信ESIM的成功很大程度上就和這個(gè)有關(guān)。

而這并沒(méi)結(jié)束,作者進(jìn)行了進(jìn)一步的強(qiáng)化,對(duì)比Decomposable Attention前后的變化,進(jìn)行了組合。

Inference Composition

推理層應(yīng)該是進(jìn)入最終預(yù)測(cè)之前的最后一層了。這一層的操作同樣沒(méi)那么簡(jiǎn)單,大部分人可能flatten、maxpool、avgpool之類的就直接全連接了,但是這里并不是,而是做了一系列的再提取和再處理,最終才完成預(yù)測(cè)向量的:

作者是真的把信息抽取和特征的組合做到了極致,對(duì)上面構(gòu)造的兩個(gè)組合特征再進(jìn)行了一次特征提取,用的依舊是熟悉的Bilstm,值得注意的是他操作的維度,來(lái)看一個(gè)ESIM的開源代碼吧:

classInferenceCompositionLayer(object): """ Layertocomposethelocalinferenceinformation. """ def__init__(self,hidden_units,max_length=100,dropout=0.5, activation='tanh',sequences=True): self.hidden_units=hidden_units self.max_length=max_length self.dropout=dropout self.activation=activation self.sequences=sequences def__call__(self,input): composition=Bidirectional(LSTM(self.hidden_units, activation=self.activation, return_sequences=self.sequences, recurrent_dropout=self.dropout, dropout=self.dropout))(input) reduction=TimeDistributed(Dense(self.hidden_units, kernel_initializer='he_normal', activation='relu'))(composition) returnDropout(self.dropout)(reduction)

這里用到另一個(gè)我沒(méi)見過(guò)的keras層,即TimeDistributed,有興趣可以了解下。

此后,非常精髓的使用avg-pool和max-pool的組合,有關(guān)池化,max和avg一直打得火熱,沒(méi)有人能給出非常穩(wěn)定的結(jié)論,因此作者就用了兩者的組合:

啟示

整篇文章其實(shí)沒(méi)有構(gòu)造出非常高端的結(jié)構(gòu),只是一些非常樸素的操作,但是綜合起來(lái)成了現(xiàn)在也非常推薦用的基線,是有很多有借鑒意義的東西的,我這里一一列舉,大家可以直接在里面選擇需要的來(lái)用。

BiLSTM似乎還挺好用的。當(dāng)然私以為CNN其實(shí)也可以嘗試的。

花式concat,多種信息抽取方式進(jìn)行組合,小孩子才做選擇,大人全都要。

attention的使用,其實(shí)有出處A Decomposable Attention Model for Natural Language Inference,思想其實(shí)是兩者一一對(duì)比得到交互矩陣,利用該交互矩陣構(gòu)造類似softmax的權(quán)重,為各自的關(guān)鍵信息進(jìn)行加權(quán),重點(diǎn)提取。

信息的對(duì)比來(lái)自于可以來(lái)自減和乘,減直接計(jì)算兩者的差距,類似歐氏距離,乘的使用則來(lái)源于余弦距離,既然要對(duì)比特征,那就把這兩個(gè)用到極致。

avg和max哪個(gè)好,別爭(zhēng)了,都用,哪個(gè)比較重要交給后面的全連接層來(lái)決定吧。

我的這篇文章里面沒(méi)有講tree-lstm,主要是因?yàn)槲覀兤綍r(shí)比較難用到,原因是這個(gè)樹不好構(gòu)建,需要依賴依存句法,但是的確是一個(gè)挺有意思的思想,只有真的去讀論文的人才能知道。

參考資料

論文原文:Enhanced LSTM for Natural Language Inference

論文解讀:https://blog.csdn.net/wcy23580/article/details/84990923

keras版本代碼:https://github.com/weekcup/ESIM/blob/master/src/model.py

依舊推薦大家直接去讀論文,文章對(duì)他為什么做這些操作有很明確的思想,其實(shí)在我看來(lái)這些思想比操作本身還要重要,畢竟思想是需要啟發(fā)的,在這些思想的指導(dǎo)下,我在思考解決方案的時(shí)候就能有參考,方案可以借鑒,但是這個(gè)思想的實(shí)現(xiàn)并不局限在一個(gè)方法上。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3834

    瀏覽量

    52291
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4977

    瀏覽量

    74427
  • eSIM
    +關(guān)注

    關(guān)注

    3

    文章

    291

    瀏覽量

    28445

原文標(biāo)題:【語(yǔ)義相似度】ESIM:語(yǔ)義相似度領(lǐng)域小模型的尊嚴(yán)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    神州信息2026語(yǔ)義金融與AI智能體白皮書正式發(fā)布

    4月21日至22日,第五屆中國(guó)國(guó)際軟件發(fā)展大會(huì)在北京國(guó)家會(huì)議中心隆重舉行。大會(huì)首日,神州信息正式發(fā)布《語(yǔ)義金融與AI智能體:本體論在現(xiàn)代銀行體系中的應(yīng)用白皮書(2026)》(以下簡(jiǎn)稱“白皮書”)。該
    的頭像 發(fā)表于 04-23 17:46 ?1475次閱讀

    【地平線征程 5 域控試用】激光雷達(dá)數(shù)據(jù)獲取與 BPU 推理實(shí)現(xiàn)

    :8192 字節(jié),確保能完整接收數(shù)據(jù)包 2.BPU 模型加載與推理 模型文件 : 路徑 : /userdata/test/model.hbm 類型 :Horizon 打包模型(.hbm) 模型
    發(fā)表于 04-20 21:31

    RDMA設(shè)計(jì)46:RoCE v2原語(yǔ)功能:?jiǎn)芜?b class='flag-5'>語(yǔ)義

    驗(yàn)證測(cè)試項(xiàng)與測(cè)試步驟 (2)單邊語(yǔ)義驗(yàn)證測(cè)試步驟3的關(guān)鍵波形如圖1所示,當(dāng)提交隊(duì)列非空時(shí),RoCE v2發(fā)送模塊提取提交隊(duì)列條目、組裝數(shù)據(jù)包并發(fā)送,符合設(shè)計(jì)預(yù)期,驗(yàn)證通過(guò)。圖1 SEND數(shù)據(jù)包組裝
    發(fā)表于 03-01 23:14

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報(bào)道 1月27日,國(guó)產(chǎn)GPU廠商曦望(Sunrise)重磅發(fā)布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計(jì)完成約30億元戰(zhàn)略融資后的首次集中公開亮相。2025年,曦望芯片交付量
    的頭像 發(fā)表于 01-28 17:38 ?9795次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?738次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    基于NVIDIA Alpamayo構(gòu)建具備推理能力的輔助駕駛汽車

    輔助駕駛研究領(lǐng)域正經(jīng)歷一場(chǎng)快速變革。視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA) 的出現(xiàn)正重塑該領(lǐng)域,這些模型為輔助駕駛決策賦予了類人的思維能力。這類模型可視為在語(yǔ)義空間中運(yùn)行的隱式世界
    的頭像 發(fā)表于 01-14 09:41 ?2358次閱讀
    基于NVIDIA Alpamayo構(gòu)建具備<b class='flag-5'>推理</b>能力的輔助駕駛汽車

    C語(yǔ)言中除數(shù)為0屬于什么錯(cuò)誤

    0 的錯(cuò)誤,以及援引數(shù)組元素時(shí)下標(biāo)溢出等。 靜態(tài)錯(cuò)誤又可以分為語(yǔ)法錯(cuò)誤和靜態(tài)語(yǔ)義錯(cuò)誤。語(yǔ)法錯(cuò)誤指有關(guān)語(yǔ)言結(jié)構(gòu)上的錯(cuò)誤,如單詞拼寫錯(cuò)誤、表達(dá)式中缺少操作數(shù)、括號(hào)不匹配等。靜態(tài)語(yǔ)義錯(cuò)誤指
    發(fā)表于 12-08 06:38

    Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

    在視覺(jué)語(yǔ)言導(dǎo)航(VLN)中,機(jī)器人長(zhǎng)期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無(wú)法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開,畫面節(jié)節(jié)推進(jìn),但模型并不知道自己在自然語(yǔ)言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認(rèn)為,引入語(yǔ)義進(jìn)展推理,是破解長(zhǎng)程導(dǎo)
    的頭像 發(fā)表于 12-03 09:27 ?475次閱讀
    Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)<b class='flag-5'>語(yǔ)義</b>進(jìn)展<b class='flag-5'>推理</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1466次閱讀

    微店關(guān)鍵詞搜索接口核心突破:動(dòng)態(tài)權(quán)重算法與語(yǔ)義引擎的實(shí)戰(zhàn)落地

    本文詳解微店搜索接口從基礎(chǔ)匹配到智能推薦的技術(shù)進(jìn)階路徑,涵蓋動(dòng)態(tài)權(quán)重、語(yǔ)義理解與行為閉環(huán)三大創(chuàng)新,助力商家提升搜索轉(zhuǎn)化率、商品曝光與用戶留存,實(shí)現(xiàn)技術(shù)驅(qū)動(dòng)的業(yè)績(jī)?cè)鲩L(zhǎng)。
    的頭像 發(fā)表于 10-15 14:38 ?565次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1525次閱讀

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士發(fā)布AI推理
    的頭像 發(fā)表于 08-15 09:45 ?1413次閱讀

    請(qǐng)問(wèn)如何在RK3588上使用npu,用onnx模型來(lái)推理

    請(qǐng)問(wèn)如何在瑞芯微 RK3588上使用npu,用onnx模型來(lái)推理。官網(wǎng)上介紹說(shuō)要把ONNX模型轉(zhuǎn)換成RKNN模型。但是我并不想這么干,請(qǐng)問(wèn)有什么辦法嗎?
    發(fā)表于 08-09 00:51

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(NLP)、深度
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和計(jì)算量的估計(jì)
    發(fā)表于 07-03 19:43
    博罗县| 顺义区| 准格尔旗| 仪陇县| 巨野县| 仁怀市| 宜兴市| 鄂州市| 高台县| 梁平县| 嘉禾县| 固始县| 澳门| 青阳县| 淮安市| 体育| 息烽县| 杭锦旗| 遂宁市| 沾益县| 郯城县| 海伦市| 辛集市| 湛江市| 常宁市| 五大连池市| 吉隆县| 六盘水市| 海南省| 沾化县| 昂仁县| 黄山市| 毕节市| 吉林省| 城步| 仙桃市| 郴州市| 白沙| 岳普湖县| 同德县| 东阳市|