日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

電子發(fā)燒友App

硬聲App

掃碼添加小助手

加入工程師交流群

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程15.6之子詞嵌入

PyTorch教程15.6之子詞嵌入

2023-06-05 | pdf | 0.13 MB | 次下載 | 免費(fèi)

資料介紹

在英語(yǔ)中,諸如“helps”、“helped”和“helping”之類的詞是同一個(gè)詞“help”的變形形式。“dog”與“dogs”的關(guān)系與“cat”與“cats”的關(guān)系相同,“boy”與“boyfriend”的關(guān)系與“girl”與“girlfriend”的關(guān)系相同。在法語(yǔ)和西班牙語(yǔ)等其他語(yǔ)言中,許多動(dòng)詞有超過(guò) 40 種變形形式,而在芬蘭語(yǔ)中,一個(gè)名詞可能有多達(dá) 15 種格。在語(yǔ)言學(xué)中,形態(tài)學(xué)研究詞的形成和詞的關(guān)系。然而,word2vec 和 GloVe 都沒(méi)有探索單詞的內(nèi)部結(jié)構(gòu)。

15.6.1。fastText 模型

回想一下單詞在 word2vec 中是如何表示的。在skip-gram模型和連續(xù)詞袋模型中,同一個(gè)詞的不同變形形式直接由不同的向量表示,沒(méi)有共享參數(shù)。為了使用形態(tài)信息,fastText 模型提出了一種子詞嵌入方法,其中一個(gè)子詞是一個(gè)字符n-gram Bojanowski等人,2017 年。與學(xué)習(xí)詞級(jí)向量表示不同,fastText 可以被視為子詞級(jí) skip-gram,其中每個(gè)中心由其子詞向量的總和表示。

讓我們舉例說(shuō)明如何使用單詞“where”為 fastText 中的每個(gè)中心詞獲取子詞。首先,在單詞的首尾添加特殊字符“<”和“>”,以區(qū)別于其他子詞的前綴和后綴。然后,提取字符n-克從字。例如,當(dāng)n=3,我們得到所有長(zhǎng)度為 3 的子詞:“”,以及特殊子詞“”?!?、“whe”、“her”、“ere”、“re>

在 fastText 中,對(duì)于任何單詞w, 表示為Gw其所有長(zhǎng)度在 3 到 6 之間的子字及其特殊子字的并集。詞匯表是所有詞的子詞的并集。出租zg是子詞的向量g在字典中,向量vw為詞w作為 skip-gram 模型中的中心詞的是其子詞向量的總和:

(15.6.1)vw=∑g∈Gwzg.

fastText 的其余部分與 skip-gram 模型相同。與skip-gram模型相比,fastText中的詞匯量更大,導(dǎo)致模型參數(shù)更多。此外,為了計(jì)算一個(gè)詞的表示,必須將其所有子詞向量相加,從而導(dǎo)致更高的計(jì)算復(fù)雜度。然而,由于具有相似結(jié)構(gòu)的詞之間的子詞共享參數(shù),稀有詞甚至詞匯表外的詞可能會(huì)在 fastText 中獲得更好的向量表示。

15.6.2。字節(jié)對(duì)編碼

在 fastText 中,所有提取的子詞都必須具有指定的長(zhǎng)度,例如36,因此無(wú)法預(yù)定義詞匯量大小。為了允許在固定大小的詞匯表中使用可變長(zhǎng)度的子詞,我們可以應(yīng)用一種稱為字節(jié)對(duì)編碼(BPE) 的壓縮算法來(lái)提取子詞 ( Sennrich et al. , 2015 )。

字節(jié)對(duì)編碼對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,以發(fā)現(xiàn)單詞中的常見(jiàn)符號(hào),例如任意長(zhǎng)度的連續(xù)字符。從長(zhǎng)度為 1 的符號(hào)開(kāi)始,字節(jié)對(duì)編碼迭代地合并最頻繁的一對(duì)連續(xù)符號(hào)以產(chǎn)生新的更長(zhǎng)的符號(hào)。請(qǐng)注意,為了提高效率,不考慮跨越單詞邊界的對(duì)。最后,我們可以使用子詞這樣的符號(hào)來(lái)分詞。字節(jié)對(duì)編碼及其變體已用于流行的自然語(yǔ)言處理預(yù)訓(xùn)練模型中的輸入表示,例如 GPT-2 Radford等人,2019 年和 RoBERTa Liu等人,2019 年. 下面,我們將說(shuō)明字節(jié)對(duì)編碼的工作原理。

首先,我們將符號(hào)詞匯表初始化為所有英文小寫(xiě)字符、一個(gè)特殊的詞尾符號(hào)'_'和一個(gè)特殊的未知符號(hào)'[UNK]'。

import collections

symbols = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
      'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
      '_', '[UNK]']
import collections

symbols = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
      'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
      '_', '[UNK]']

由于我們不考慮跨越單詞邊界的符號(hào)對(duì),我們只需要一個(gè)字典raw_token_freqs將單詞映射到它們?cè)跀?shù)據(jù)集中的頻率(出現(xiàn)次數(shù))。請(qǐng)注意,特殊符號(hào)'_'附加到每個(gè)單詞,以便我們可以輕松地從輸出符號(hào)序列(例如,“a_ tall er_ man”)中恢復(fù)單詞序列(例如,“a taller man”)。由于我們從僅包含單個(gè)字符和特殊符號(hào)的詞匯表開(kāi)始合并過(guò)程,因此在每個(gè)單詞中的每對(duì)連續(xù)字符之間插入空格(字典的鍵token_freqs)。換句話說(shuō),空格是單詞中符號(hào)之間的分隔符。

raw_token_freqs = {'fast_': 4, 'faster_': 3, 'tall_': 5, 'taller_': 4}
token_freqs = {}
for token, freq in raw_token_freqs.items():
  token_freqs[' '.join(list(token))] = raw_token_freqs[token]
token_freqs
{'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}
raw_token_freqs = {'fast_': 4, 'faster_': 3, 'tall_': 5, 'taller_': 4}
token_freqs = {}
for token, freq in raw_token_freqs.items():
  token_freqs[' '.join(list(token))] = raw_token_freqs[token]
token_freqs
{'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}

我們定義了以下get_max_freq_pair函數(shù),該函數(shù)返回單詞中出現(xiàn)頻率最高的一對(duì)連續(xù)符號(hào),其中單詞來(lái)自輸入字典的鍵token_freqs。

def get_max_freq_pair(token_freqs):
  pairs = collections.defaultdict(int)
  for token, freq in token_freqs.items():
    symbols = token.split()
    for i in range(len(symbols) - 1):
      # Key of `pairs` is a tuple of two consecutive symbols
      pairs[symbols[i], symbols[i + 1]] += freq
  return max(pairs, key=pairs.get) # Key of `pairs` with the max value
def get_max_freq_pair(token_freqs):
  pairs = collections.defaultdict(int)
  for token, freq in token_freqs.items():
    symbols = token.split()
    for i in range(len(symbols) - 1):
      # Key of `pairs` is a tuple of two consecutive symbols
      pairs[symbols[i], symbols[i + 1]] += freq
  return max(pairs, key=pairs.get) # Key of `pairs` with the max value

作為一種基于連續(xù)符號(hào)頻率的貪婪方法,字節(jié)對(duì)編碼將使用以下merge_symbols函數(shù)合并最頻繁的一對(duì)連續(xù)符號(hào)以產(chǎn)生新的符號(hào)。

def merge_symbols(max_freq_pair, token_freqs, symbols):
  symbols.append(''.join(max_freq_pair))
  new_token_freqs = dict()
  for token, freq in token_freqs.items():
    new_token = token.replace(' '.join(max_freq_pair),
                 ''.join(max_freq_pair))
    new_token_freqs[new_token] = token_freqs[token]
  return new_token_freqs
def merge_symbols(max_freq_pair, token_freqs, symbols):
  symbols.append(''.join(max_freq_pair))
  new_token_freqs = dict()
  for token, freq in token_freqs.items():
    new_token = token.replace(' '.join(max_freq_pair),
                 ''.join(max_freq_pair))
    new_token_freqs[new_token] = token_freqs[token]
  return new_token_freqs

現(xiàn)在我們?cè)谧值涞逆I上迭代執(zhí)行字節(jié)對(duì)編碼算法token_freqs。在第一次迭代中,出現(xiàn)頻率最高的一對(duì)連續(xù)符號(hào)是't''a',因此字節(jié)對(duì)編碼將它們合并以產(chǎn)生新的符號(hào)'ta'<

編碼 字節(jié) pytorch
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器 規(guī)格書(shū) Datasheet 佰祥電子
  2. 1.12 MB  |  5次下載  |  免費(fèi)
  3. 2HT81696H 內(nèi)置升壓的30W立體聲D類音頻功放數(shù)據(jù)手冊(cè)
  4. 1.21 MB   |  1次下載  |  免費(fèi)
  5. 3HTA6863 3W超低噪聲超低功耗單聲道D類音頻功率放大器數(shù)據(jù)手冊(cè)
  6. 0.87 MB   |  次下載  |  免費(fèi)
  7. 4南芯 Southchip SC8802C 充電控制器 規(guī)格書(shū) Datasheet 佰祥電子
  8. 88.16 KB  |  次下載  |  免費(fèi)
  9. 5矽力杰 Silergy SY7065 同步升壓轉(zhuǎn)換器 規(guī)格書(shū) Datasheet 佰祥電子
  10. 910.67 KB  |  次下載  |  免費(fèi)
  11. 6矽力杰 Silergy SY7066 同步升壓轉(zhuǎn)換器 規(guī)格書(shū) Datasheet 佰祥電子
  12. 989.14 KB  |  次下載  |  免費(fèi)
  13. 7WD6208A產(chǎn)品規(guī)格書(shū)
  14. 631.24 KB  |  次下載  |  免費(fèi)
  15. 8NB685 26 V,12 A,低靜態(tài)電流,大電流 同步降壓變換器數(shù)據(jù)手冊(cè)
  16. 1.64 MB   |  次下載  |  2 積分

本月

  1. 1EMC PCB設(shè)計(jì)總結(jié)
  2. 0.33 MB   |  12次下載  |  免費(fèi)
  3. 2PD取電芯片 ECP5702規(guī)格書(shū)
  4. 0.88 MB   |  5次下載  |  免費(fèi)
  5. 3矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器 規(guī)格書(shū) Datasheet 佰祥電子
  6. 1.12 MB  |  5次下載  |  免費(fèi)
  7. 4氮化鎵GaN FET/GaN HEMT 功率驅(qū)動(dòng)電路選型表
  8. 0.10 MB   |  3次下載  |  免費(fèi)
  9. 5PD取電芯片,可取5/9/12/15/20V電壓ECP5702數(shù)據(jù)手冊(cè)
  10. 0.88 MB   |  3次下載  |  免費(fèi)
  11. 6SY50655 用于高輸入電壓應(yīng)用的偽固定頻率SSR反激式穩(wěn)壓器英文資料
  12. 1.01 MB   |  3次下載  |  免費(fèi)
  13. 7怎么為半導(dǎo)體測(cè)試儀選擇精密放大器
  14. 0.65 MB   |  2次下載  |  免費(fèi)
  15. 8SY52341 次級(jí)側(cè)同步整流英文手冊(cè)
  16. 0.94 MB   |  2次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935137次下載  |  10 積分
  3. 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233095次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費(fèi)下載
  8. 340992  |  191469次下載  |  10 積分
  9. 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
  10. 158M  |  183360次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81606次下載  |  10 積分
  13. 7Keil工具M(jìn)DK-Arm免費(fèi)下載
  14. 0.02 MB  |  73832次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65991次下載  |  10 積分
罗平县| 北辰区| 宜君县| 浪卡子县| 巨鹿县| 华亭县| 蓝田县| 周口市| 抚宁县| 化德县| 烟台市| 阿拉尔市| 织金县| 富源县| 措勤县| 新泰市| 大方县| 洛阳市| 成武县| 阳朔县| 威信县| 柯坪县| 仪征市| 瑞安市| 英山县| 合江县| 米易县| 安国市| 阿拉善盟| 张家口市| 济宁市| 绍兴县| 罗源县| 萨迦县| 内黄县| 新田县| 望谟县| 南安市| 云阳县| 容城县| 文安县|