日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的數(shù)據(jù)標(biāo)注,工作量大,報酬低!

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-02-17 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)最近爆火的ChatGPT有多強大,想必大家都已經(jīng)知曉,它幾乎可以生成任何形式的文本,從莎士比亞的十四行詩,到用5歲孩子都能理解的語言描述,以及復(fù)雜數(shù)學(xué)問題,也因此月活躍用戶在短短上線兩個月就達到1億。

而強大的ChatGPT背后,離不開一項重要的工作,那就是數(shù)據(jù)標(biāo)注。據(jù)美媒報道,為了訓(xùn)練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工,對龐大的數(shù)據(jù)庫手動進行數(shù)據(jù)標(biāo)注。


什么是數(shù)據(jù)標(biāo)注

事實上,人工智能是一種可以根據(jù)人類需求做出合理行為的計算機程序,要想實現(xiàn)人工智能,就需要把人類的理解能力和判斷能力教給計算機,讓計算機擁有類似人類的識別能力。在這一過程中,需要計算機模仿人類進行經(jīng)驗學(xué)習(xí)。

而數(shù)據(jù)標(biāo)注就是把需要計算機進行機器學(xué)習(xí)的的圖片、視頻等初級數(shù)據(jù)打上標(biāo)簽,讓計算機不斷的識別這些初級數(shù)據(jù)的特征,最終可以讓計算機能夠自主的識別。

這里涉及到幾個概念:1、數(shù)據(jù)標(biāo)注,簡單來說,就是對文本、圖像、音頻、視頻等數(shù)據(jù)進行高質(zhì)量、高精度的處理打標(biāo)簽,來滿足機器訓(xùn)練學(xué)習(xí)的需求。2、標(biāo)簽,就是對需要機器學(xué)習(xí)的數(shù)據(jù)進行標(biāo)識特征、類別和屬性等,用于建立數(shù)據(jù)和機器訓(xùn)練學(xué)習(xí)的可讀數(shù)據(jù)編碼間的聯(lián)系。3、數(shù)據(jù)標(biāo)注員,就是負責(zé)對文本、圖像、音頻、視頻等數(shù)據(jù)進行高質(zhì)量、高精度的處理打標(biāo)簽的工作人員。

計算機特征數(shù)據(jù)主要分為圖像數(shù)據(jù)、語音數(shù)據(jù)、文本數(shù)據(jù)等。在自然語言處理的需求中,文本數(shù)據(jù)標(biāo)注是關(guān)鍵環(huán)節(jié),數(shù)據(jù)標(biāo)注員需要通過對語句分詞的標(biāo)注、語義判斷的標(biāo)注、情感標(biāo)注、多音字標(biāo)注等,為人工智能機器學(xué)習(xí)提供高準(zhǔn)確率的文本語料。

數(shù)據(jù)標(biāo)注的流程,首先是從數(shù)據(jù)采集開始,由于新采集的數(shù)據(jù)是非結(jié)構(gòu)化的,有些數(shù)據(jù)不完整,還有不一致、有雜音噪聲的數(shù)據(jù),需要通過數(shù)據(jù)清洗,對采集的數(shù)據(jù)進行篩選、去重、查缺補漏、平滑噪音等操作,將數(shù)據(jù)清理成適合標(biāo)注的格式。

接著,數(shù)據(jù)經(jīng)過清洗后,就可以進入數(shù)據(jù)標(biāo)注的核心環(huán)節(jié)。在現(xiàn)實的標(biāo)注工作中,數(shù)據(jù)管理員會將數(shù)據(jù)根據(jù)不同的需求,將待標(biāo)注的數(shù)據(jù)分為不同的數(shù)據(jù)包任務(wù),每一個數(shù)據(jù)任務(wù)都會有不同的規(guī)范和標(biāo)注形式要求,然后將標(biāo)注任務(wù)分配給多個標(biāo)注員進行標(biāo)注工作。

最后,為了提高數(shù)據(jù)輸出的正確率,標(biāo)注員完成標(biāo)注工作后,需要質(zhì)檢師對數(shù)據(jù)進行檢驗,最終通過質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才是可用于訓(xùn)練學(xué)習(xí)的數(shù)據(jù)。


龐大的數(shù)據(jù)標(biāo)注工作,和低水平的報酬

從ChatGPT來看,雖然對于ChatGPT最后的強大能力來說,數(shù)據(jù)標(biāo)注是重要的一環(huán),然而這卻是一項工作量及其龐大,報酬卻并不高的工作。

雖然ChatGPT的前身GPT-3已經(jīng)展示出非常強大的語句串聯(lián)的能力。然而,當(dāng)時的GPT-3卻存在很多弊端,例如內(nèi)容容易出現(xiàn)暴力、性別歧視等言論。之所以會出現(xiàn)這樣的不足之處,是因為AI工具從互聯(lián)網(wǎng)抓取了數(shù)千億個單詞來訓(xùn)練。由于互聯(lián)網(wǎng)的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學(xué)習(xí)能力無法來清除這些訓(xùn)練數(shù)據(jù)。

為了獲得這些有害內(nèi)容的標(biāo)簽,OpenAI從2021年11月開始便向一家外包公司發(fā)送了數(shù)萬條文本片段。這家公司便是Sama,Sama總部位于美國舊金山,該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。據(jù)該公司的三名員工表示,他們每9個小時要閱讀和標(biāo)注150~200段文字,這些段落的范圍從100個單詞到1000多個單詞不等。

薪酬方面,Sama為OpenAI雇傭的數(shù)據(jù)標(biāo)簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現(xiàn)。據(jù)Sama員工透露,“代理商”是三個小組中最初級的數(shù)據(jù)標(biāo)簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準(zhǔn)確性和速度等關(guān)鍵績效指標(biāo),他們還可以獲得傭金。

按此計算,一名每天工作9小時的員工預(yù)計稅后時薪至少能拿1.32美元,如果超額完成所有目標(biāo),則最高可達到1.44美元。質(zhì)量分析師是資歷更深的數(shù)據(jù)標(biāo)簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標(biāo),時薪可以拿到2美元。

OpenAI發(fā)言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發(fā)的監(jiān)測有害內(nèi)容的工具作出了貢獻,該工具最終被內(nèi)置到ChatGPT中。


小結(jié)

隨著ChatGPT的爆火,人工智能走進了更多人的視野。然而從目前的情況來看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯(lián)網(wǎng)巨頭企業(yè)及專業(yè)人士才能涉足的領(lǐng)域。然而人工智能產(chǎn)業(yè)鏈涉及面廣泛,其中就包括數(shù)據(jù)標(biāo)注??梢钥吹剑斯ぶ悄艿拇嬖诤蛯崿F(xiàn),不僅僅是解放人們的雙手,同時從這個層面來看,它對勞動力的需求也是龐大的。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1602

    瀏覽量

    10404
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ChatGPT 5.5鏡像站技術(shù)升級解析:更快的生成速度對開發(fā)者意味著什么?

    ( www.rsk.cn ) ,它目前提供每日免費額度,模型選擇器中已包含 ChatGPT 5.5 的 Web 對話入口。本文將拆解速度升級背后的工程意義,并結(jié)合實測數(shù)據(jù)展示其對工作
    的頭像 發(fā)表于 05-06 15:08 ?236次閱讀

    自動駕駛占用網(wǎng)絡(luò)還需要數(shù)據(jù)標(biāo)注嗎?

    能夠通過空間體素化的方式來感知世界,甚至可以識別那些從未見過的異形障礙物,那它是不是不再需要傳統(tǒng)意義上的數(shù)據(jù)標(biāo)注了?事實上,占據(jù)網(wǎng)絡(luò)不僅沒有取消標(biāo)注,反而將標(biāo)注的維度和難度推向了一個新
    的頭像 發(fā)表于 04-17 08:53 ?426次閱讀
    自動駕駛占用網(wǎng)絡(luò)還需要<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>嗎?

    大模型時代自動駕駛標(biāo)注有什么特殊要求?

    在自動駕駛的發(fā)展歷程中,數(shù)據(jù)標(biāo)注一直被視為算法進化的基石。然而,隨著大模型時代的到來,這一領(lǐng)域正經(jīng)歷著重構(gòu)。 過去,標(biāo)注員的任務(wù)是簡單地在二維照片上畫框,標(biāo)記出車輛和行人的位置。但現(xiàn)在,為了支撐復(fù)雜
    的頭像 發(fā)表于 03-01 09:09 ?3205次閱讀
    大模型時代自動駕駛<b class='flag-5'>標(biāo)注</b>有什么特殊要求?

    自動駕駛數(shù)據(jù)標(biāo)注是所有信息都要標(biāo)注嗎?

    [首發(fā)于智駕最前沿微信公眾號]數(shù)據(jù)標(biāo)注對于自動駕駛來說,就像是老師教小朋友知識,數(shù)據(jù)標(biāo)注可以讓車輛學(xué)習(xí)辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信
    的頭像 發(fā)表于 12-04 09:05 ?1235次閱讀
    自動駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>是所有信息都要<b class='flag-5'>標(biāo)注</b>嗎?

    算法工程師不愿做標(biāo)注工作,怎么辦?

    對于算法而言,圖像標(biāo)注是一項關(guān)鍵性工作,越是大量的新數(shù)據(jù)標(biāo)注,對于算法的性能提升越有幫助。但是圖像標(biāo)注是一項極其費時費力的
    的頭像 發(fā)表于 12-02 17:56 ?720次閱讀
    算法工程師不愿做<b class='flag-5'>標(biāo)注</b><b class='flag-5'>工作</b>,怎么辦?

    淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實例

    ”的關(guān)鍵工序——多模態(tài)標(biāo)注重要性日益凸顯。 一、什么是多模態(tài)標(biāo)注? 多模態(tài)標(biāo)注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進行跨模態(tài)語義關(guān)聯(lián)的標(biāo)注
    的頭像 發(fā)表于 09-05 13:49 ?2837次閱讀

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質(zhì)量標(biāo)注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標(biāo)注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調(diào)用 ERNIE 4.5 大模型進行雙重預(yù)測
    的頭像 發(fā)表于 08-29 11:26 ?3892次閱讀
    小語種OCR<b class='flag-5'>標(biāo)注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自動<b class='flag-5'>標(biāo)注</b>實戰(zhàn)解析

    規(guī)格書標(biāo)注的最大電壓 ≠ 安全電壓!警惕電阻的過載失效風(fēng)險

    各位電子工程師同行,是否曾有這樣的困惑:“明明按照規(guī)格書標(biāo)注的最大工作電壓使用電阻,為何它還是提前失效了?”這背后可能隱藏著一個容易被忽視的關(guān)鍵因素,今天以我們自研產(chǎn)品為例一起一探究竟:
    的頭像 發(fā)表于 08-13 10:45 ?1288次閱讀
    規(guī)格書<b class='flag-5'>標(biāo)注</b>的最大電壓 ≠ 安全電壓!警惕電阻的過載失效風(fēng)險

    請問AICube所需的目標(biāo)檢測數(shù)據(jù)標(biāo)注可以使用什么工具?

    請問AICube所需的目標(biāo)檢測數(shù)據(jù)標(biāo)注可以使用什么工具? 我使用labelimg進行標(biāo)注,標(biāo)注后的數(shù)據(jù)集改好文件名后導(dǎo)入不進去。一直卡在
    發(fā)表于 08-11 08:07

    自動駕駛數(shù)據(jù)標(biāo)注主要是標(biāo)注什么?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的研發(fā)過程中,數(shù)據(jù)標(biāo)注是實現(xiàn)高性能感知模型的基礎(chǔ)環(huán)節(jié),其核心目標(biāo)是將車輛從環(huán)境中采集到的原始感知數(shù)據(jù)(主要包括圖像、點云、視頻序列等)轉(zhuǎn)化為具有語義信息
    的頭像 發(fā)表于 07-30 11:54 ?1691次閱讀
    自動駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>主要是<b class='flag-5'>標(biāo)注</b>什么?

    什么是自動駕駛數(shù)據(jù)標(biāo)注?如何好做數(shù)據(jù)標(biāo)注?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的開發(fā)過程中,數(shù)據(jù)標(biāo)注是一項至關(guān)重要的工作。它不僅決定了模型訓(xùn)練的質(zhì)量,也直接影響了車輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類和數(shù)據(jù)量的
    的頭像 發(fā)表于 07-09 09:19 ?1723次閱讀
    什么是自動駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>?如何好做<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>?

    端到端數(shù)據(jù)標(biāo)注方案在自動駕駛領(lǐng)域的應(yīng)用優(yōu)勢

    隨著自動駕駛技術(shù)向L3及以上級別快速發(fā)展,高質(zhì)量訓(xùn)練數(shù)據(jù)的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)的數(shù)據(jù)標(biāo)注方式面臨著效率低下、成本高昂、一致性差等痛點。據(jù)統(tǒng)計,一輛L4級自動駕駛汽車每天產(chǎn)生的數(shù)據(jù)
    的頭像 發(fā)表于 06-23 17:27 ?1217次閱讀

    數(shù)據(jù)標(biāo)注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時代,大模型憑借其強大的學(xué)習(xí)與泛化能力,已成為眾多領(lǐng)域創(chuàng)新變革的核心驅(qū)動力。而數(shù)據(jù)標(biāo)注作為大模型訓(xùn)練的基石,為大模型性能提升注入關(guān)鍵動力,是模型不可或缺的“養(yǎng)料。大模型則憑借
    的頭像 發(fā)表于 06-04 17:15 ?2273次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>與大模型的雙向賦能:效率與性能的躍升

    AI時代 圖像標(biāo)注不要沒苦硬吃

    識別算法的性能提升依靠大量的圖像標(biāo)注,傳統(tǒng)模式下,需要人工對同類型數(shù)據(jù)集進行一步步手動拉框,這個過程的痛苦只有做過的人才知道。越多素材的數(shù)據(jù)集對于算法的提升越有幫助,常規(guī)情況下,一個20秒時長30幀
    的頭像 發(fā)表于 05-20 17:54 ?655次閱讀
    AI時代   圖像<b class='flag-5'>標(biāo)注</b>不要沒苦硬吃

    東軟集團入選國家數(shù)據(jù)數(shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺在國家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例集名單中排名第一(案例名稱“多模態(tài)醫(yī)學(xué)影像智能數(shù)據(jù)
    的頭像 發(fā)表于 05-09 14:37 ?1467次閱讀
    丘北县| 老河口市| 龙海市| 芮城县| 肥东县| 平谷区| 玉环县| 织金县| 砚山县| 汪清县| 四川省| 巴东县| 波密县| 灵台县| 小金县| 福清市| 康马县| 纳雍县| 四子王旗| 越西县| 宁夏| 丹江口市| 石棉县| 仙居县| 隆德县| 班玛县| 内丘县| 西吉县| 沂源县| 南木林县| 滁州市| 酉阳| 松原市| 日土县| 峨眉山市| 金乡县| 崇州市| 瑞金市| 黄大仙区| 博兴县| 泸州市|