日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

性別偏見探索和緩解的中文數(shù)據(jù)集-CORGI-PM

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-02-10 13:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

介紹

大規(guī)模語言模型(LMs)已經成為了現(xiàn)在自然語言處理的關鍵技術,但由于訓練語料中常帶有主觀的性別偏見、歧視等,在大模型的使用過程中,它們時常會被放大,因此探測和緩解數(shù)據(jù)中的性別偏見變得越來越重要。

部分研究通過性別交換等自動標注方法,緩解性別偏見的語料庫;也有一些人工標注的性別偏見語料庫,但主要集中在單詞層面或語法層面的偏見,或只關注與性別歧視相關的話題,并主要以英文為主。因此,該論文提出了第一個用于性別偏見探測和緩解的句子級中文語料庫,采用一種自動方法(如圖1所示,對含有性別偏見得分高的詞的樣本進行召回,然后根據(jù)其句子級性別偏見概率對樣本進行重新排序和過濾),從現(xiàn)有的大規(guī)模中文語料庫中構建可能存在性別偏見的句子集,再通過精心設計的標注方案,對候選數(shù)據(jù)集進行進一步的標注,構建可以用于性別偏見檢測、分類和緩解三種任務的數(shù)據(jù)集。

67517690-a899-11ed-bfe3-dac502259ad0.png

數(shù)據(jù)構建

樣本過濾

如圖1所示,該研究通過單詞級到句子級的兩階段過濾,從原始語料庫中召回、排序和過濾待標注候選數(shù)據(jù)。對于詞級別過濾,通過計算目標詞與種子方向之間得分,構建一個高偏見分數(shù)的詞表,并從原始語料庫中匹配包含這些詞語的句子,為初步候選集合。其中得分計算如下:

pYYBAGPl23mAB4vXAAAWhjIHnY0844.jpg

正值表示該詞語更適合女性,負值表示該詞語更適合男性,性別偏見得分絕對值越高,說明該詞語的偏見程度越高。過濾得到的詞匯繪制的詞云如圖5所示,

677349be-a899-11ed-bfe3-dac502259ad0.png

對于句子級別過濾,計算句子的性別偏見得分,并根據(jù)獲得性別偏見關鍵詞進行分組,然后根據(jù)特定的全局閾值性別偏見得分和組內閾值排名選擇待標注的最終句子集合。

標注規(guī)則

標注方案為標注人員對一個句子進行判斷,判斷是否存在性別偏見;如果存在,則需要給出偏見具體類型,并為了緩解性別偏見,還需要對有偏見的句子進行糾正,給出無偏見句子。為保證標注質量,6名標注人員均具有學士學位,并且男女比例相同。

「偏見類別」共包含3種:

AC:性別刻板的活動和職業(yè)選擇;

DI:性別刻板的描述和概況;

ANB:表達性別刻板的態(tài)度、規(guī)范和信仰。

緩解性別偏見主要是在保留原始語義信息的同時,減輕所選句子的性別偏見,并要求標注者進行使句子的表達式多樣化,主要修改規(guī)則如下:

用中性代詞取代性別代詞;

用語義定義相近的中性描述替換性別特定的形容詞;

對不能直接減輕的句子,添加額外的解釋進行中和。

標注過程分為兩個階段:第一階段,各標注者進行標注,并要求不要輸入不確定樣本;第二階段,標注者之間進行交叉標注。

語料分析

CORGI-PM數(shù)據(jù)統(tǒng)計如表1所示,共包含32.9k數(shù)據(jù),并考慮數(shù)據(jù)分布,劃分了訓練集、驗證集及測試集。

67b616c2-a899-11ed-bfe3-dac502259ad0.png

如表2所示,發(fā)現(xiàn)偏見句子相較于無偏見句子來說,句子更長,包含詞匯更少;但由于去偏句子需要在保持原意圖語義不變、句子連貫、減輕偏見,因此去偏樣本與原樣本相比表達更長、更多樣化。

67de0010-a899-11ed-bfe3-dac502259ad0.png

偏見數(shù)據(jù)格式樣例:

{
'train':{
#原始句子
'ori_sentence':[
sent_0,
sent_1,
...,
],
#偏見類型
'bias_labels':[
[010],
[010],
[010],
...,
],
#人工去偏句子
'edit_sentence':[
edited_sent_0,
edited_sent_1,
...,
],
},
'valid':{
...#與訓練集一致
},
'test':{
...#與訓練集一致
}
}

無偏見數(shù)據(jù)格式樣例:

{
'train':{
#原始句子
'text':[
sent_0,
sent_1,
...,
],
},
'valid':{
...#與訓練集一致
},
'test':{
...#與訓練集一致
}
}

實驗結果

針對性別偏見檢測及分類任務,以Precision、Recall和F1作為評價指標,采用BERT、Electra和XLNet模型進行微調進行實驗對比,并采用GPT-3 Curie模型進行zero-shot實驗,結果如表3所示。

6800eada-a899-11ed-bfe3-dac502259ad0.png

針對性別緩解任務,采用GPT-3 Ada(350M)、Babbage(1.3B)和Curie(6.7B)進行微調, 并采用Davinci(175B)進行zero-shot實驗,結果如表4所示。

681e3e8c-a899-11ed-bfe3-dac502259ad0.png

總結

中文首個性別偏見探索和緩解數(shù)據(jù)集,開源不易,且用且珍惜。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • RGB
    RGB
    +關注

    關注

    4

    文章

    836

    瀏覽量

    62257
  • 過濾器
    +關注

    關注

    1

    文章

    444

    瀏覽量

    21053
  • 數(shù)據(jù)集

    關注

    4

    文章

    1240

    瀏覽量

    26264

原文標題:CORGI-PM:首個中文性別偏見探索和緩解數(shù)據(jù)集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    那個涉嫌性別歧視被開除的谷歌工程師,到底吐槽了些什么?

    偏見,但關于這些偏見的誠懇的討論被主流意識形態(tài)禁聲了。下面要說的遠不是完整的圖景,但它是公司亟需討論的一個視角。谷歌的偏見在谷歌,我們非常多的討論關于種族和性別的無意識
    發(fā)表于 08-15 10:36

    TM4C1233H6PM數(shù)據(jù)手冊中文

    TM4C1233H6PM數(shù)據(jù)手冊中文
    發(fā)表于 10-31 12:24

    TM4C1233H6PM數(shù)據(jù)手冊中文

    TM4C1233H6PM數(shù)據(jù)手冊中文
    發(fā)表于 01-24 11:24

    本應公平公正的 AI,卻從數(shù)據(jù)中學會了人類的偏見

    再中立了。我們充滿著各種偏見?!边@正是為什么我們要非常非常當心自己收集的數(shù)據(jù)的原因。今年3月,微軟領導的一群研究人員參加在舊金山舉行的一場會議時提出了一個可能的解決方案。因為識別數(shù)據(jù)
    發(fā)表于 06-02 12:51

    請問tm4c123gh6pm中文數(shù)據(jù)手冊嗎?

    請問tm4c123gh6pm中文數(shù)據(jù)手冊嗎?急求!
    發(fā)表于 08-14 07:58

    Spectre和Meltdown的利用漏洞的軟件影響和緩解措施

    以下指南簡要概述了稱為Spectre和Meltdown的利用漏洞的軟件影響和緩解措施,更準確地標識為: 變體1:邊界檢查繞過(CVE-2017-5753)變體2:分支目標
    發(fā)表于 08-25 08:01

    基于情緒特征用戶性別識別

    隨著互聯(lián)網的蓬勃發(fā)展,微博受到了越來越多用戶的青睞,對微博用戶性別的研究也逐漸成為學術界研究的熱點。目前,對英文微博文本用戶的性別識別已有研究,但針對中文微博用戶性別識別的研究較少。從
    發(fā)表于 11-25 10:57 ?0次下載

    IBM打造百萬人臉數(shù)據(jù) 意圖減少AI偏見與歧視問題

    科技中立,但人制造出來的 AI 卻可能帶有偏見或歧視。AI 偏見情況像是性別歧視、種族歧視,例如面部偵測算法在識別白人時的準確率比識別黑人高許多,男性跟女性類別也存在類似問題,讓軟件識別犯罪嫌犯人選、企業(yè)挑選求職者時,也曾引發(fā)歧
    發(fā)表于 02-13 08:47 ?658次閱讀

    創(chuàng)新工具和開源軟件如何幫助測量和緩解RF問題

    了解創(chuàng)新工具和開源軟件如何幫助測量和緩解各種RF問題,如混頻器的三次諧波、RF污染、需要RF濾波器等。
    的頭像 發(fā)表于 07-23 06:05 ?3043次閱讀

    PM和GPF的介紹_對顆粒捕器的介紹

    本文對PM和GPF進行了介紹并且粗略介紹了顆粒捕器。
    的頭像 發(fā)表于 08-05 17:36 ?1.2w次閱讀
    對<b class='flag-5'>PM</b>和GPF的介紹_對顆粒捕<b class='flag-5'>集</b>器的介紹

    Cloud AI提供免費消除性別偏見 將不再標識性別

    谷歌剛剛宣布,其使用AI工具的“谷歌云服務”將不再根據(jù)性別來標記人們。AI工具通過將人的圖像標記為“男人”或“女人”來識別個人的性別。盡管這是一種針對機器學習模型的訓練方法,但Google仍在使用它以避免性別
    發(fā)表于 03-20 09:56 ?1039次閱讀

    谷歌的AI工具已可以通過人的圖像標記來識別個人的性別

    谷歌剛剛宣布,其使用AI工具的“谷歌云服務”將不再根據(jù)性別來標記人們。AI工具通過將人的圖像標記為“男人”或“女人”來識別個人的性別。盡管這是一種針對機器學習模型的訓練方法,但Google仍在使用它以避免性別
    發(fā)表于 03-20 11:15 ?2856次閱讀

    AI可能帶有性別偏見?Salesforce提出了減輕AI性別偏見的方法

    通過與弗吉尼亞大學的研究人員合作,Salesforce 提出了有助于減輕 AI 性別偏見的新方法。 通常情況下,研究人員需要為 AI 模型投喂許多單次來展開訓練,但其中不可避免地會摻雜一些或隱性、或顯性的性別
    的頭像 發(fā)表于 07-05 09:31 ?3120次閱讀
    AI可能帶有<b class='flag-5'>性別</b><b class='flag-5'>偏見</b>?Salesforce提出了減輕AI<b class='flag-5'>性別</b><b class='flag-5'>偏見</b>的方法

    Google遵循AI原則減少機器翻譯的性別偏見

    得益于神經機器翻譯 (NMT) 的進步,譯文更加自然流暢,但與此同時,這些譯文也反映出訓練數(shù)據(jù)存在社會偏見和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開發(fā)創(chuàng)新技術,減少機器翻譯中
    的頭像 發(fā)表于 08-24 10:14 ?3819次閱讀

    芯馳科技對打破創(chuàng)投圈性別偏見的看法

    便是其中的代表,她帶領著芯馳完成一輪又一輪產品推新,用實力獲得了創(chuàng)投圈的認可。接下來,讓我們看看她對“如何打破創(chuàng)投圈性別偏見”的看法。
    的頭像 發(fā)表于 03-11 08:43 ?2868次閱讀
    西吉县| 新源县| 额尔古纳市| 三门县| 醴陵市| 贵州省| 舟山市| 邵东县| 黄陵县| 隆德县| 伽师县| 尚义县| 安乡县| 濮阳市| 滦南县| 寿阳县| 新昌县| 盱眙县| 定远县| 汝南县| 高邮市| 皮山县| 进贤县| 安康市| 五莲县| 将乐县| 新平| 郑州市| 泰顺县| 门源| 馆陶县| 镇赉县| 蓬安县| 连云港市| 共和县| 榆中县| 同心县| 贵港市| 福清市| 中宁县| 嘉荫县|