日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀大型語言模型的偏見

穎脈Imgtec ? 2026-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在一項(xiàng)新的研究中,研究人員發(fā)現(xiàn)了 LLM 中某種偏見的根本原因,為更準(zhǔn)確、更可靠的 AI 系統(tǒng)鋪平了道路。

研究表明,大型語言模型(LLM)往往傾向于過分強(qiáng)調(diào)文檔或?qū)υ掗_頭和結(jié)尾的信息,而相對(duì)忽略中間部分。這種“位置偏差”意味著,若律師使用LLM支持的虛擬助手檢索30頁宣誓書中的某個(gè)短語,該短語位于第一頁或最后一頁時(shí)被找到的可能性會(huì)大得多。

麻省理工學(xué)院的研究人員揭示了這種現(xiàn)象背后的機(jī)制。他們構(gòu)建了一個(gè)理論框架,用以探究信息在構(gòu)成LLM基礎(chǔ)的機(jī)器學(xué)習(xí)架構(gòu)中的流動(dòng)方式。研究發(fā)現(xiàn),某些控制模型處理輸入數(shù)據(jù)方式的設(shè)計(jì)選擇可能會(huì)引發(fā)位置偏差。實(shí)驗(yàn)表明,模型架構(gòu),特別是那些影響信息在模型內(nèi)詞元間傳播方式的部分,可能會(huì)導(dǎo)致或加劇位置偏差,而訓(xùn)練數(shù)據(jù)同樣可能是造成該問題的一個(gè)因素。

除了查明位置偏差的根源外,他們的框架還可用于在未來模型設(shè)計(jì)中診斷和糾正這一問題。這有望使聊天機(jī)器人在長時(shí)間對(duì)話中更好地保持主題連貫性,讓醫(yī)療AI系統(tǒng)在處理大量患者數(shù)據(jù)時(shí)推理更加公平,也能使代碼助手更均衡地關(guān)注程序的所有部分。

“這些模型如同黑匣子,因此作為LLM用戶,您或許不會(huì)意識(shí)到位置偏差可能導(dǎo)致模型表現(xiàn)不一致。您可能僅按照任意順序向模型提供文檔,并期望其正常運(yùn)行。然而,通過深入理解這些黑匣子模型的潛在機(jī)制,我們能夠針對(duì)性地解決其局限性,從而改進(jìn)模型性能?!甭槭±砉W(xué)院數(shù)據(jù)、系統(tǒng)和社會(huì)研究所(IDSS)和信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的研究生、該研究論文的第一作者Xinyi Wu說道。


1、分析注意力

8ca8eb86-3896-11f1-ab55-92fbcf53809c.png

Claude、Llama 和 GPT - 4 等 LLM(大型語言模型)由一種名為 transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu)提供支持。Transformer 架構(gòu)主要用于處理順序數(shù)據(jù),它能夠?qū)⒕渥臃纸鉃榉Q為詞元的多個(gè)小塊,隨后通過學(xué)習(xí)這些詞元之間的關(guān)系來預(yù)測(cè)下一個(gè)單詞。由于其配備了注意力機(jī)制,這些模型在這一任務(wù)上表現(xiàn)得十分出色。注意力機(jī)制由互連的數(shù)據(jù)處理節(jié)點(diǎn)層構(gòu)成,它允許詞元有選擇地關(guān)注或聚焦于相關(guān)的詞元,從而更好地理解上下文。

然而,問題在于,若每個(gè)詞元都要處理 30 頁文檔中的所有其他詞元,那么計(jì)算成本將會(huì)迅速攀升,變得難以承受。鑒于此,工程師在構(gòu)建 transformer 模型時(shí),通常會(huì)運(yùn)用注意力掩蔽技術(shù)來限定一個(gè)詞元可以關(guān)注的詞元范圍。

以因果掩碼為例,它僅允許一個(gè)詞元關(guān)注其前面的詞元。除此之外,工程師還會(huì)采用位置編碼技術(shù),以此幫助模型準(zhǔn)確把握句子中每個(gè)詞元所處的位置,進(jìn)而提升模型的性能。

研究人員構(gòu)建了一個(gè)基于圖的理論框架,借此深入探究這些建模選擇(包括注意力掩碼和位置編碼)對(duì)位置偏差所產(chǎn)生的影響。研究分析發(fā)現(xiàn),因果掩碼致使模型對(duì)輸入內(nèi)容的開頭部分存在天然的偏愛,即便數(shù)據(jù)本身并無此傾向。即使前面的詞元對(duì)于句子的整體含義作用不大,因果掩碼仍會(huì)使 transformer 模型更加關(guān)注句子的開頭部分。而且,隨著模型規(guī)模的擴(kuò)大以及注意力層數(shù)的增加,這種位置偏差還會(huì)進(jìn)一步加劇,因?yàn)檩斎氲脑缙诓糠衷谀P偷耐评磉^程中被更為頻繁地使用。

不過,位置編碼在這方面也發(fā)揮了一定的 “積極作用”,它能夠?qū)⒁粋€(gè)詞元與附近的詞元更緊密地聯(lián)系起來,從而在一定程度上緩解位置偏差問題,遺憾的是,這種緩解效果在多層模型中往往會(huì)遭到稀釋。

隨著模型的不斷增長,注意力機(jī)制的額外層級(jí)所引入的偏差會(huì)被逐漸放大,原因在于輸入的早期部分在模型的推理過程中被更為頻繁地使用。此外,位置編碼技術(shù)通過將單詞與其附近的單詞緊密關(guān)聯(lián),能夠?qū)⒛P偷淖⒁饬χ匦乱龑?dǎo)至正確的位置,進(jìn)而減輕位置偏差,但這一效果在擁有眾多注意力層的模型中可能會(huì)被削弱。需要指出的是,這些設(shè)計(jì)選擇僅僅是導(dǎo)致位置偏差的原因之一,部分位置偏差或許還源自模型用于學(xué)習(xí)如何確定序列中單詞優(yōu)先級(jí)的訓(xùn)練數(shù)據(jù)。

“假如你知道你的數(shù)據(jù)在某種程度上存在偏差,那么除了對(duì)建模選擇進(jìn)行調(diào)整之外,你還應(yīng)當(dāng)對(duì)模型進(jìn)行微調(diào)?!盬u 表示。


2、實(shí)驗(yàn)驗(yàn)證:U形模式下的“迷失在中間”

8ccb8a88-3896-11f1-ab55-92fbcf53809c.jpg

在建立理論框架后,研究人員展開了實(shí)驗(yàn)。實(shí)驗(yàn)中,他們系統(tǒng)性地改變正確答案在文本序列中的位置,以完成信息檢索任務(wù)。

實(shí)驗(yàn)揭示了一種 “迷失在中間” 現(xiàn)象,即檢索精度呈現(xiàn)出 U 形模式。當(dāng)正確答案位于序列開頭時(shí),模型性能最佳;越接近序列中間,性能下降得越顯著;而當(dāng)正確答案接近序列末尾時(shí),性能又會(huì)有所回升。

總體而言,他們的研究指出,采用不同的掩碼技術(shù)、減少注意力機(jī)制的額外層級(jí)或有針對(duì)性地運(yùn)用位置編碼,能夠降低位置偏差,進(jìn)而提升模型的準(zhǔn)確性。

通過理論分析和實(shí)驗(yàn)探究,研究人員展現(xiàn)了模型設(shè)計(jì)選擇帶來的影響,凸顯了在高風(fēng)險(xiǎn)應(yīng)用里把握模型有效性的重要性,并且他們打算繼續(xù)深入研究位置編碼及相關(guān)策略,進(jìn)一步挖掘位置偏差的利用潛力。斯坦福大學(xué)教授 Amin Saberi 對(duì)團(tuán)隊(duì)在理解 Transformer 注意力機(jī)制上取得的成果予以高度評(píng)價(jià),認(rèn)為該項(xiàng)工作不僅數(shù)學(xué)推導(dǎo)清晰嚴(yán)謹(jǐn),而且對(duì)實(shí)際問題有著深刻洞察。


3、如何減少LLM在處理信息時(shí)的位置偏差?

  • 改變注意力掩蔽技術(shù)

調(diào)整因果掩碼等注意力掩蔽方式,避免模型對(duì)開頭信息的過度偏重。或者采用其他先進(jìn)的注意力掩蔽策略,讓模型在關(guān)注前后文時(shí)更加均衡。

優(yōu)化位置編碼策略

改進(jìn)位置編碼方法,使其能更有效地將單詞與附近單詞聯(lián)系起來,幫助模型準(zhǔn)確把握每個(gè)位置信息的重要性,從而減輕位置偏差。

  • 調(diào)整模型架構(gòu)

從注意力機(jī)制中刪除不必要的層,或者重新設(shè)計(jì)模型架構(gòu),減少因?qū)訑?shù)過多導(dǎo)致的位置偏差放大效應(yīng)。

微調(diào)模型

如果知道訓(xùn)練數(shù)據(jù)存在偏差,除了調(diào)整建模選擇外,對(duì)模型進(jìn)行針對(duì)性的微調(diào),以糾正數(shù)據(jù)中可能引起的位置偏差。

平衡訓(xùn)練數(shù)據(jù)

確保訓(xùn)練數(shù)據(jù)的分布和結(jié)構(gòu)合理,避免因數(shù)據(jù)本身的偏差導(dǎo)致模型學(xué)習(xí)到不均衡的位置信息權(quán)重。

  • 數(shù)據(jù)增強(qiáng)

通過數(shù)據(jù)增強(qiáng)技術(shù),增加訓(xùn)練數(shù)據(jù)樣式的多樣性,讓模型接觸到更多不同位置信息重要的樣本,從而提高模型對(duì)位置信息處理的魯棒性。

  • 針對(duì)性的損失函數(shù)調(diào)整

在訓(xùn)練過程中,使用能夠平衡不同位置信息重要性的損失函數(shù),讓模型在學(xué)習(xí)時(shí)更加關(guān)注中間位置的信息,減輕位置偏差。

本文轉(zhuǎn)自:善思開悟科技
內(nèi)容經(jīng)過翻譯、整理,核心觀點(diǎn)來自https://news.mit.edu/2025/unpacking-large-language-model-bias-0617,作者Adam Zewe

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50367

    瀏覽量

    267060
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    世界模型vs大語言模型,圖靈獎(jiǎng)得主#楊立昆 說“大模型是死路!”①#AI #大模型

    語言模型
    江蘇易安聯(lián)
    發(fā)布于 :2026年03月31日 10:17:40

    工作流大模型節(jié)點(diǎn)說明

    模型節(jié)點(diǎn)是平臺(tái)提供的基礎(chǔ)節(jié)點(diǎn)之一,開發(fā)者可以在該節(jié)點(diǎn)使用大語言模型處理任務(wù)。 節(jié)點(diǎn)說明 大模型節(jié)點(diǎn)可以調(diào)用大型
    發(fā)表于 03-19 14:56

    在AI基礎(chǔ)設(shè)施中部署大語言模型的三大舉措

    文:Gartner研究副總裁周玲中國企業(yè)機(jī)構(gòu)已逐步在生產(chǎn)環(huán)境中運(yùn)行或者計(jì)劃運(yùn)行大語言模型,但在AI基礎(chǔ)設(shè)施的生產(chǎn)部署與高效運(yùn)營方面仍面臨諸多挑戰(zhàn)。目前,中國正加速提升其生成式AI能力,覆蓋大語言
    的頭像 發(fā)表于 02-09 16:28 ?569次閱讀
    在AI基礎(chǔ)設(shè)施中部署大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的三大舉措

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言模型
    的頭像 發(fā)表于 02-02 16:36 ?1154次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新一代大語言模型對(duì)齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對(duì)齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大模型基礎(chǔ)技術(shù)探索上邁出
    的頭像 發(fā)表于 11-17 16:03 ?618次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對(duì)齊框架URPO入選AAAI 2026

    一文了解Mojo編程語言

    CPU、GPU 和其他加速器的支持,簡化了并行編程模型。 漸進(jìn)式類型系統(tǒng) 結(jié)合靜態(tài)類型檢查和類型推導(dǎo),既保證編譯時(shí)安全性,又保留動(dòng)態(tài)類型的靈活性。 應(yīng)用場(chǎng)景 AI 與機(jī)器學(xué)習(xí) 用于訓(xùn)練大型模型和實(shí)時(shí)推理
    發(fā)表于 11-07 05:59

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實(shí)時(shí)、動(dòng)態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實(shí)現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1453次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問題,筆者基于過往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3624次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    聲智科技發(fā)布金融聲學(xué)AI模型

    在瞬息萬變的金融市場(chǎng)中,信息的獲取與解讀能力決定了投資的成敗。然而,傳統(tǒng)的文本分析手段,即使是依賴于先進(jìn)的大型語言模型,也常常受限于精心設(shè)計(jì)的公司敘事和“言不由衷”的言辭。當(dāng)企業(yè)高管在
    的頭像 發(fā)表于 08-30 16:26 ?1680次閱讀
    聲智科技發(fā)布金融聲學(xué)AI<b class='flag-5'>模型</b>

    AI輸出“偏見”,人類能否信任它的“三觀”?

    ,大語言模型(LLM)正悄無聲息地傳播全球各地的刻板印象。從性別歧視、文化偏見,到語言不平等,AI正在把人類的“偏見行李”打包、升級(jí),并以看
    的頭像 發(fā)表于 08-04 13:43 ?1455次閱讀
    AI輸出“<b class='flag-5'>偏見</b>”,人類能否信任它的“三觀”?

    利用自壓縮實(shí)現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們?cè)缙诘难芯刻岢隽艘环N訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?683次閱讀
    利用自壓縮實(shí)現(xiàn)<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    【教程】使用NS1串口服務(wù)器對(duì)接智普清言免費(fèi)AI大語言模型

    AI大語言模型可以幫助我們解決各種問題,如翻譯、寫文案、創(chuàng)作詩歌、解決數(shù)學(xué)問題、情感陪伴等等。今天教大家如何使用NS1串口服務(wù)器模塊實(shí)現(xiàn)對(duì)接智普清言AI大語言模型,實(shí)現(xiàn)與大
    的頭像 發(fā)表于 06-12 19:33 ?939次閱讀
    【教程】使用NS1串口服務(wù)器對(duì)接智普清言免費(fèi)AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?1408次閱讀

    Analog Devices LT6654 AMPS6-3.3器件參數(shù)特性解讀 EDA模型 數(shù)據(jù)手冊(cè)免費(fèi)下載

    Analog Devices LT6654AMPS6-3.3器件參數(shù)特性解讀 EDA模型 數(shù)據(jù)手冊(cè)免費(fèi)下載
    的頭像 發(fā)表于 05-27 11:03 ?1200次閱讀
    Analog Devices LT6654 AMPS6-3.3器件參數(shù)特性<b class='flag-5'>解讀</b>  EDA<b class='flag-5'>模型</b> 數(shù)據(jù)手冊(cè)免費(fèi)下載

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型
    的頭像 發(fā)表于 05-13 17:07 ?1889次閱讀
    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>
    榆社县| 名山县| 怀仁县| 和田县| 西畴县| 乡城县| 饶阳县| 读书| 察雅县| 杭州市| 蓝山县| 平山县| 石嘴山市| 阿克苏市| 无锡市| 综艺| 仙居县| 大连市| 东山县| 三明市| 龙口市| 焉耆| 新源县| 滨海县| 襄城县| 玉溪市| 泸西县| 连州市| 胶州市| 新源县| 新密市| 民县| 承德县| 广州市| 莆田市| 河西区| 历史| 上犹县| 南溪县| 当雄县| 博野县|