最近有開(kāi)發(fā)者自制了一套圖書(shū)推薦系統(tǒng),使用Word2Vec算法將書(shū)目表示為向量,可以同時(shí)獲得幾種書(shū)籍的推薦結(jié)果,并獲得書(shū)籍的TSNE圖及相似度最高的推薦。圖書(shū)數(shù)據(jù)來(lái)自GoodReads上的評(píng)價(jià)最高的前10000本書(shū)。開(kāi)發(fā)者表示,采用較小的batchsize和長(zhǎng)度可變的窗口可提升推薦相似度。
近日,有開(kāi)發(fā)人員自制了一套圖書(shū)推薦系統(tǒng),使用Word2Vec算法將書(shū)目表示為向量,可以同時(shí)獲得幾種書(shū)籍的推薦,并獲得書(shū)籍的TSNE圖以及相似度最高的推薦信息。訓(xùn)練數(shù)據(jù)來(lái)自GoodReads上的評(píng)價(jià)最高的前10000本書(shū)。
作者將這一系統(tǒng)在Reddit論壇上進(jìn)行了算法介紹和推薦效果圖分享,引發(fā)廣泛討論。我們不妨來(lái)看看這個(gè)自制薦書(shū)系統(tǒng)是怎么做的。

以下是作者自己給出的系統(tǒng)展示和介紹,最后是技術(shù)實(shí)現(xiàn)環(huán)節(jié)的相關(guān)討論。
下面的圖片來(lái)自兩個(gè)2D TSNE生成的圖書(shū)嵌入圖。第一部分是數(shù)據(jù)中最常出現(xiàn)的3000本書(shū)的TNSE(已經(jīng)過(guò)10000本書(shū)的數(shù)據(jù)訓(xùn)練),第二部分是全部10000本書(shū)的TSNE。
我做了兩個(gè)TSNE圖,因?yàn)殡S著書(shū)籍書(shū)目的增加,推薦的準(zhǔn)確度趨于下降,所以我想查看最常出現(xiàn)的書(shū)籍的分布圖,然后再處理其余的書(shū)。
首先最常出現(xiàn)的3000本書(shū)的TSNE圖,先給出幾個(gè)局部放大圖,最后放上全圖。
下圖為作于最近30-40年間的奇幻/古典奇幻類書(shū)

中間的部分大部分是漫畫(huà)書(shū),周?chē)且恍┛茖W(xué)類書(shū)籍

宇宙科幻類:

喜劇類(主要是電視?。?/p>

全圖

然后是全部10000本書(shū)的TSNE圖,同樣先給出幾個(gè)局部圖,最后是全圖。
歷史類書(shū)籍。圖左半部為美國(guó)史,右半部為世界通史

宇宙史和起源理論

兒童經(jīng)典書(shū)目

食品科學(xué)和新聞?lì)?/p>

Word2Vec薦書(shū)系統(tǒng)的技術(shù)實(shí)現(xiàn)
下面是一些技術(shù)上的實(shí)現(xiàn)要點(diǎn),對(duì)機(jī)器學(xué)習(xí)感興趣的小伙伴們可以關(guān)注一下。
1、使用較小的batch size
訓(xùn)練中使用batch size較?。?2和64)對(duì)于確保所有書(shū)籍向量的穩(wěn)健性非常重要。在更高的batch size(128、256和512)下,大多數(shù)向量具有相當(dāng)?shù)南嗨菩?,但似乎總是有一些?shū)的向量不具備相似性。
以《哈利·波特》2-7部的推薦結(jié)果為例,如果直接查看數(shù)據(jù),很容易知道與這些書(shū)相似度最高的書(shū)應(yīng)該是該系列中的其他《哈利·波特》書(shū),但最初推薦模型給出的相似圖書(shū)結(jié)果并非如此。但是,在把batch size設(shè)置為64后,推薦結(jié)果的相似度很快得到明顯改善。
由于平均窗口大小為112,并在20到200之間變化(取決于用戶閱讀的書(shū)籍?dāng)?shù)量),因此像《哈利·波特》這樣的系列叢書(shū)中的一些書(shū),很可能會(huì)與其他書(shū)籍匹配為相似了。
假設(shè)某系列叢書(shū)中共有7本書(shū),并且用戶對(duì)所有7本書(shū)都進(jìn)行了評(píng)分,該用戶還評(píng)價(jià)了112本其他書(shū),那么,其中一本《哈利·波特》書(shū)與另一本《哈利·波特》在該用戶的標(biāo)簽下實(shí)現(xiàn)配對(duì)的概率是6/112。
在這種情況下,由于word2vec試圖一次性優(yōu)化多個(gè)嵌入,因此對(duì)于窗口大小很小且恒定的情況,更高的batch size會(huì)比word2vec算法的應(yīng)用對(duì)結(jié)果優(yōu)化造成更加明顯的阻礙。
2、Softmax嵌入向量算術(shù)
到目前為止,上面的所有矢量算術(shù)示例都是我在書(shū)籍輸入嵌入上執(zhí)行加法和/或減法,然后針對(duì)softmax嵌入對(duì)結(jié)果矢量執(zhí)行相似性結(jié)果的情況。比結(jié)果向量與輸入嵌入進(jìn)行比較要穩(wěn)健得多。
3、可變長(zhǎng)度窗口(VLW)
最初的Word2Vec Cbow算法使用固定的窗口大小的單詞用作特定目標(biāo)的輸入。比如,如果窗口大小是目標(biāo)詞左側(cè)和右側(cè)的2個(gè)單詞,那么在這句“The cat in the hat”中,如果目標(biāo)詞(標(biāo)簽)是“in”,那么單詞'The ','cat','the'和'hat'將各自向量進(jìn)行平均,并將得到的結(jié)果向量作為輸入。
而在這個(gè)薦書(shū)系統(tǒng)中,窗口大小不可能是固定的。對(duì)于特定數(shù)據(jù)點(diǎn)(輸入),由用戶輸入的所有對(duì)全部書(shū)籍的評(píng)價(jià)都可能作為潛在的輸入,而且每個(gè)用戶瀏覽過(guò)的書(shū)籍?dāng)?shù)量彼此存在很大差異,因此窗口大小不可能恒定。
盡管窗口大小不是恒定的,但是平均輸入向量的數(shù)量是保持不變的。所有提供的數(shù)據(jù)都使用兩個(gè)平均向量作為輸入,這樣向量的算術(shù)屬性的穩(wěn)健性是最高的。改變輸入平均向量的數(shù)量,在相似性推薦屬性方面并沒(méi)有表現(xiàn)出明顯優(yōu)勢(shì)。
-
算法
+關(guān)注
關(guān)注
23文章
4810瀏覽量
98613 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137264
原文標(biāo)題:【Reddit今日最火】Lit2Vec圖書(shū)推薦系統(tǒng),自動(dòng)推薦適合你的AI好書(shū)!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
UHF RFID通道門(mén)圖書(shū)館應(yīng)用12個(gè)核心問(wèn)題全解答
融智興科技:RFID圖書(shū)管理標(biāo)簽技術(shù)解析與智慧圖書(shū)館應(yīng)用
pdf轉(zhuǎn)換成word文檔格式亂了
按圖搜索1688商品API接口技術(shù)實(shí)現(xiàn)指南
智慧圖書(shū)館國(guó)產(chǎn)化
PN27G01A-芯片里的“圖書(shū)館”
能耗管理系統(tǒng)怎么選?5 大核心功能幫你精準(zhǔn)控能
使用Word/Excel管理需求的10個(gè)痛點(diǎn)及解決方案Perforce ALM
RFID 系統(tǒng)與智能工具柜:重構(gòu)社康、圖書(shū)館與醫(yī)療行業(yè)的資產(chǎn)管理范式
PCl Express M.2規(guī)格書(shū)
門(mén)型展架 創(chuàng)新工坊553閃光系統(tǒng) 商業(yè)計(jì)劃書(shū).rar
圖書(shū)館WiFi總掉線?我的秘密武器居然是它.
SG2151B05-2規(guī)格書(shū)
RFID在圖書(shū)館自動(dòng)化中的應(yīng)用
自制Word2Vec圖書(shū)推薦系統(tǒng),幫你找到最想看的書(shū)!
評(píng)論