日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本分類的一個大型“真香現(xiàn)場”來了

深度學(xué)習(xí)自然語言處理 ? 來源:高能AI ? 作者:JayLou婁杰 ? 2021-02-05 11:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文本分類的一個大型“真香現(xiàn)場”來了:JayJay的推文《超強文本半監(jiān)督MixText》中告訴大家不要浪費沒有標注過的數(shù)據(jù),但還是需要有標注數(shù)據(jù)的!但今天介紹的這篇paper,文本分類居然不需要任何標注數(shù)據(jù)啦!哇,真香!

當(dāng)前的文本分類任務(wù)需要利用眾多標注數(shù)據(jù),標注成本是昂貴的。而半監(jiān)督文本分類雖然減少了對標注數(shù)據(jù)的依賴,但還是需要領(lǐng)域?qū)<沂謩舆M行標注,特別是在類別數(shù)目很大的情況下。

試想一下,我們?nèi)祟愂侨绾螌π侣勎谋具M行分類的?其實,我們不要任何標注樣本,只需要利用和分類類別相關(guān)的少數(shù)詞匯就可以啦,這些詞匯也就是我們常說的關(guān)鍵詞。

BUT!我們之前獲取分類關(guān)鍵詞的方式,大多還是需要靠人工標注數(shù)據(jù)、或者人工積累關(guān)鍵詞表的;而就算積累了某些關(guān)鍵詞,關(guān)鍵詞在不同上下文中也會代表不同類別。

那么,有沒有一種方式,可以讓文本分類不再需要任何標注數(shù)據(jù)呢?

本文JayJay就介紹一篇來自「伊利諾伊大學(xué)香檳分校韓家煒老師課題組」的EMNLP20論文《Text Classification Using Label Names Only: A Language Model Self-Training Approach》。

這篇論文的最大亮點就是:不需要任何標注數(shù)據(jù),只需利用標簽名稱,就在四個分類數(shù)據(jù)上獲得了近90%的準確率!

為此,論文提出一種LOTClass模型,即Label-name-OnlyTextClassification,LOTClass模型的主要亮點有:

不需要任何標注數(shù)據(jù),只需要標簽名稱!只依賴預(yù)訓(xùn)練語言模型(LM),不需要其他依賴!

提出了類別指示詞匯獲取方法和基于上下文的單詞類別預(yù)測任務(wù),經(jīng)過如此訓(xùn)練的LM進一步對未標注語料進行自訓(xùn)練后,可以很好泛化!

在四個分類數(shù)據(jù)集上,LOTClass明顯優(yōu)于各弱監(jiān)督模型,并具有與強半監(jiān)督和監(jiān)督模型相當(dāng)?shù)男阅堋?/p>

本文的組織結(jié)構(gòu)為:

c64932a0-603e-11eb-8b86-12bb97331649.png

LOTClass總體流程

LOTClass將BERT作為其backbone模型,其總體實施流程分為以下三個步驟:

標簽名稱替換:利用并理解標簽名稱,通過MLM生成類別詞匯;

類別預(yù)測:通過MLM獲取類別指示詞匯集合,并構(gòu)建基于上下文的單詞類別預(yù)測任務(wù),訓(xùn)練LM模型;

自訓(xùn)練:基于上述LM模型,進一步對未標注語料進行自訓(xùn)練后,以更好泛化!

下面我們就詳細介紹上述過程。

第一步:標簽名稱替換

在做文本分類的時候,我們可以根據(jù)標簽名稱聯(lián)想到與之相關(guān)聯(lián)的其他關(guān)鍵詞,這些關(guān)鍵詞代表其類別。當(dāng)然,這就需要我們從一個蘊含常識的模型去理解每個標簽的語義。很明顯,BERT等預(yù)訓(xùn)練LM模型就是一個首選!

論文采取的方法很直接:對于含標簽名稱的文本,通過MLM來預(yù)測其可以替換的其他相似詞匯。

如上圖展示了AG新聞?wù)Z料(體育新聞)中,對于標簽名稱“sports”,可通過MLM預(yù)測出替換「sports」的相似詞匯。

具體地,每一個標簽名稱位置通過MLM預(yù)測出TOP-50最相似的替換詞,然后再整體對每一個類別的標簽名稱(Label Name)根據(jù)詞頻大小、結(jié)合停用詞共選取TOP-100,最終構(gòu)建類型詞匯表(Category Vocabulary)。

通過上述方式找出了AG新聞?wù)Z料每一個類別-標簽名稱對應(yīng)的類別詞匯表,如上圖所示。

第二步:類別預(yù)測

像人類如何進行分類一樣,一種直接的方法是:利用上述得到的類型詞匯表,然后統(tǒng)計語料中類別詞匯出現(xiàn)的次數(shù)。但這種方式存在2個缺陷:

不同詞匯在不同的上下文中代表不同意思,不是所有在語料中出現(xiàn)的類型詞匯都指示該類型。在第一幅圖中,我們就可以清晰發(fā)現(xiàn):單詞「sports」在第2個句子并不代表體育主題。

類型詞匯表的覆蓋范圍有限:在特定上下文中,某些詞匯與類別關(guān)鍵詞具有相似的含義,但不包含在類別詞匯表中。

為了解決上述缺陷,論文構(gòu)建了一個新的MCP任務(wù)——基于MASK的類別預(yù)測任務(wù)(Masked Category Prediction,MCP),如下圖所示:

c95033c2-603e-11eb-8b86-12bb97331649.png

MCP任務(wù)共分為兩步:

獲取類別指示詞:上述已經(jīng)提到,類別詞匯表中不同的詞匯在不同上下文會指代不同類別。論文建立了一種獲取類別詞匯指示的方法(如上圖左邊所示):對于當(dāng)前詞匯,首先通過BERT的MLM任務(wù)預(yù)測當(dāng)前詞匯可替代的TOP50相似詞,然后TOP50相似詞與每個類別詞匯表進行比對,如果有超過20個詞在當(dāng)前類別詞匯表中,則選取當(dāng)前詞匯作為該類別下的「類別指示詞」。

進行遮蔽類別預(yù)測:通過上一步,遍歷語料中的每一個詞匯,我們就可得到類別指示詞集合和詞匯所對應(yīng)的標簽。對于類別指示詞集合中每一個的單詞,我們將其替換為「MASK」然后對當(dāng)前位置進行標簽分類訓(xùn)練。

值得注意的是:MASK類別指示詞、進行類別預(yù)測至關(guān)重要,因為這會迫使模型根據(jù)單詞上下文來推斷類別,而不是簡單地記住無上下文的類別關(guān)鍵字。通過MCP任務(wù),BERT將更好編碼類別判斷信息。

第三步:自訓(xùn)練

論文將通過MCP任務(wù)訓(xùn)練好的BERT模型,又對未標注語料進行了自訓(xùn)練。這樣做的原因為:

仍有大規(guī)模語料未被MCP任務(wù)利用,畢竟不是每一個語料樣本含有類別指示詞。

MCP任務(wù)進行類別預(yù)測不是在「CLS」位置,「CLS」位置更利于編碼全局信息并進行分類任務(wù)。

論文采取的自訓(xùn)練方式很簡單,如上圖所示,每50個batch通過軟標簽方式更新一次標簽類別。

LOTClass表現(xiàn)如何?

為了驗證LOTClass的效果,論文在4個分類數(shù)據(jù)集上與監(jiān)督、半監(jiān)督和弱監(jiān)督進行了對比。

對于弱監(jiān)督方法,則將整個訓(xùn)練集作為未標注數(shù)據(jù);對于半監(jiān)督方法,每個類別選舉10個樣本作為標注數(shù)據(jù);對于監(jiān)督方法,則全部訓(xùn)練集就是標注數(shù)據(jù)。

如上圖所示,沒有自訓(xùn)練的LOTClass方法就超過了一眾弱監(jiān)督方法,而利用自訓(xùn)練方法后LOTClass甚至在AG-News上可以與半監(jiān)督學(xué)習(xí)的SOTA——谷歌提出的UDA相媲美了,與有監(jiān)督的char-CNN方法也相差不多啦!自訓(xùn)練self-trainng為何如此強大?我們將在接下來的推文中會進一步介紹。

也許你還會問:LOTClass相當(dāng)于使用多少標注數(shù)據(jù)呢?

ce3feaa8-603e-11eb-8b86-12bb97331649.png

如上圖,論文給出了答案,那就是:LOTClass效果相當(dāng)于 每個類別使用48個標注文檔的有監(jiān)督BERT模型!

總結(jié)與展望:利用標簽名稱,真香!

首先對本文總結(jié)一下:本文提出的LOTClass模型僅僅利用標簽名稱,無需任務(wù)標注數(shù)據(jù)!在四個分類數(shù)據(jù)上獲得了近90%的準確率,與相關(guān)半監(jiān)督、有監(jiān)督方法相媲美!LOTClass模型總體實施流程分三個步驟:標簽名稱替換,MASK類別預(yù)測,自訓(xùn)練。

本文提出的LOTClass模型只是基于BERT,并沒有采取更NB的LM模型,每個類別最多使用3個單詞作為標簽名稱,沒有依賴其他工具(如回譯方式)。我們可以預(yù)測:隨著LM模型的升級,數(shù)據(jù)增強技術(shù)的使用,指標性能會更好!

利用標簽名稱,我們是不是還可以暢想一些“真香現(xiàn)場”呢?例如:

應(yīng)用于NER任務(wù):發(fā)現(xiàn)實體類別下的更多指示詞,如「PERSON」類別;嗯嗯,再好好想象怎么把那套MCP任務(wù)嵌入到NER任務(wù)中吧~

與半監(jiān)督學(xué)習(xí)更好協(xié)作:1)沒有標注數(shù)據(jù)時,可以通過LOTClass構(gòu)建初始標注數(shù)據(jù)再進行半監(jiān)督流程;2)將MCP任務(wù)設(shè)為半監(jiān)督學(xué)習(xí)的輔助任務(wù)。

原文標題:韓家煒課題組重磅發(fā)文:文本分類只需標簽名稱,不需要任何標注數(shù)據(jù)!

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95053
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267047

原文標題:韓家煒課題組重磅發(fā)文:文本分類只需標簽名稱,不需要任何標注數(shù)據(jù)!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的
    的頭像 發(fā)表于 02-10 15:58 ?470次閱讀
    機器學(xué)習(xí)特征工程:<b class='flag-5'>分類</b>變量的數(shù)值化處理方法

    Linux Shell文本處理神器合集:15工具+實戰(zhàn)例子,效率直接翻倍

    在 Linux 系統(tǒng)中,文本是數(shù)據(jù)交互的 “通用語言”—— 日志文件、配置文件、數(shù)據(jù)報表、程序輸出幾乎都以文本形式存在。手動編輯文本不僅繁瑣,還容易出錯,而掌握 Shell 文本處理工
    的頭像 發(fā)表于 02-03 15:42 ?2912次閱讀
    Linux Shell<b class='flag-5'>文本</b>處理神器合集:15<b class='flag-5'>個</b>工具+實戰(zhàn)例子,效率直接翻倍

    當(dāng)判斷前移到現(xiàn)場,AI 如何重構(gòu)大型工地的安全管理方式?

    隨著施工規(guī)模擴大與現(xiàn)場節(jié)奏加快,傳統(tǒng)工地安全管理逐漸暴露出判斷與響應(yīng)上的局限。本文從大型施工現(xiàn)場的實際變化出發(fā),分析了安全管理向現(xiàn)場 AI 判斷演進的必然性,并梳理了
    的頭像 發(fā)表于 01-23 17:26 ?2171次閱讀
    當(dāng)判斷前移到<b class='flag-5'>現(xiàn)場</b>,AI 如何重構(gòu)<b class='flag-5'>大型</b>工地的安全管理方式?

    天合儲能與Aer Soléir簽署意大利首個大型電池儲能項目合作協(xié)議

    近日,天合儲能與愛爾蘭可再生能源開發(fā)商Aer Soléir正式簽署了其在意大利首個大型電池儲能項目合作協(xié)議,雙方將共同建設(shè)位于都靈地區(qū)Rondissone的250 MW/1 GWh儲能電站。該項
    的頭像 發(fā)表于 01-22 17:30 ?1466次閱讀

    詳解DBC的Signal與JSON文本結(jié)合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動輸入狀態(tài)對應(yīng)數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結(jié)合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?442次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結(jié)合

    客戶案例分享 | 大型戶外音響系統(tǒng)上的“關(guān)鍵先生”:電氣連接的可靠保障

    演唱會動輒就是巡演文旅熱隨便就是人從眾這些熱潮涌動的背后常常有不可或缺的角色那便是戶外音響系統(tǒng)它的助力,讓現(xiàn)場邊角區(qū)的人也能如沐歌聲,音在耳畔如果說戶外音響系統(tǒng)是演出現(xiàn)場的幕后英雄
    的頭像 發(fā)表于 12-10 20:44 ?473次閱讀
    客戶案例分享 | <b class='flag-5'>大型</b>戶外音響系統(tǒng)上的“關(guān)鍵先生”:電氣連接的可靠保障

    PROFINET與CCLINK“破壁”融合,高端包裝機:真香!

    PROFINET與CCLINK“破壁”融合,高端包裝機:真香! 在工業(yè)自動化浪潮中,高端包裝機械正向著高速度、高精度、柔性化與智能化的方向飛速發(fā)展。然而,技術(shù)的快速迭代也帶來了“繼承”與“創(chuàng)新
    的頭像 發(fā)表于 11-27 15:03 ?407次閱讀
    PROFINET與CCLINK“破壁”融合,高端包裝機:<b class='flag-5'>真香</b>!

    京信通信立體方波賦形天線解決方案助力大型賽事通信保障

    體育場內(nèi)移動網(wǎng)絡(luò)信號嚴重擁塞。面對這痛點,京信通信憑借自主研發(fā)的立體方波賦形天線解決方案,成功助力江蘇運營商實現(xiàn)場館網(wǎng)絡(luò)"信號升格",為大型賽事通信保障樹立新標桿。
    的頭像 發(fā)表于 09-04 10:39 ?1062次閱讀

    國內(nèi)首個大型鋰鈉混合儲能項目發(fā)電量超1億度

    電子發(fā)燒友網(wǎng)綜合報道 在全球能源結(jié)構(gòu)向清潔低碳轉(zhuǎn)型的浪潮中,儲能技術(shù)作為連接間歇性新能源與穩(wěn)定電網(wǎng)的關(guān)鍵紐帶,正扮演著愈發(fā)重要的角色。 ? 近日,這領(lǐng)域迎來了具有里程碑意義的突破國內(nèi)首個大型鋰鈉
    的頭像 發(fā)表于 09-04 09:49 ?2881次閱讀

    聲智科技發(fā)布金融聲學(xué)AI模型

    在瞬息萬變的金融市場中,信息的獲取與解讀能力決定了投資的成敗。然而,傳統(tǒng)的文本分析手段,即使是依賴于先進的大型語言模型,也常常受限于精心設(shè)計的公司敘事和“言不由衷”的言辭。當(dāng)企業(yè)高管在財報電話會議上謹慎措辭時,真正的風(fēng)險信號可能被掩蓋。
    的頭像 發(fā)表于 08-30 16:26 ?1677次閱讀
    聲智科技發(fā)布金融聲學(xué)AI模型

    5個大型超聲波清洗機使用技巧,提升清洗效果

    的日益重視。在使用大型超聲波清洗機時,如何最大化清洗效果,成為了眾多用戶關(guān)注的重點。本文將為您介紹5實用技巧,幫助您提升超聲波清洗機的清洗效果。1.選擇合適的清洗
    的頭像 發(fā)表于 07-17 16:22 ?1021次閱讀
    5<b class='flag-5'>個大型</b>超聲波清洗機使用技巧,提升清洗效果

    耐達訊CAN轉(zhuǎn)EtherCAT網(wǎng)關(guān),變頻器通信升級的“真香”指南

    轉(zhuǎn)換融入高速網(wǎng)絡(luò),既提升性能又保護投資。當(dāng)通信成為效率短板時,這無疑是“真香”的選擇。用小網(wǎng)關(guān)讓老設(shè)備煥發(fā)新生,正是工程師的智慧。
    發(fā)表于 07-15 15:34

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?801次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗

    施耐德電氣變頻器用于永磁同步電機的現(xiàn)場測試

    的電機(Ld<<Lg),經(jīng)常碰到些失敗的案例。理論上,ATV71的派生版本ATV71S383可以用來開環(huán)控制永磁同步電機,但是由于其成本不接地氣,成為空中之月
    發(fā)表于 06-17 08:50

    海辰儲能與Schoenergie開啟德國首個大型儲能項目

    近日,海辰儲能與德國可持續(xù)能源綜合服務(wù)商 Schoenergie 達成里程碑式合作,正式啟動雙方在德首個大型電力級儲能系統(tǒng)項目。該合作不僅標志著海辰儲能在歐洲核心市場的戰(zhàn)略深耕,更以創(chuàng)新技術(shù)為德國能源轉(zhuǎn)型注入新動能。
    的頭像 發(fā)表于 05-14 18:07 ?1293次閱讀
    民县| 溧水县| 广南县| 南城县| 新津县| 舞钢市| 垦利县| 内丘县| 彭水| 大悟县| 乌鲁木齐县| 七台河市| 澄江县| 武强县| 淮北市| 恩施市| 巴林左旗| 桦川县| 永川市| 本溪| 江都市| 新野县| 绿春县| 灵武市| 宝坻区| 德令哈市| 耿马| 额尔古纳市| 南昌市| 大冶市| 资中县| 临高县| 永城市| 雷山县| 仁寿县| 鄂托克前旗| 监利县| 新河县| 修武县| 盐边县| 手机|