日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

在機器學習領域,數(shù)據(jù)和模型哪個更重要

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:neptune.ai ? 作者:Harshil Patel ? 2022-03-24 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學習領域,數(shù)據(jù)重要還是模型重要?這是一個很難回答的問題。

模型和數(shù)據(jù)是 AI 系統(tǒng)的基礎,這兩個組件在模型的開發(fā)中扮演著重要的角色。

人工智能領域最權威的學者之一吳恩達曾提出「80% 的數(shù)據(jù) + 20% 的模型 = 更好的機器學習」,他認為一個團隊研究 80% 的工作應該放在數(shù)據(jù)準備上,數(shù)據(jù)質(zhì)量是重要的,但很少有人在乎。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,機器學習會發(fā)展的更快。

我們不禁會問,機器學習的進步是模型帶來的還是數(shù)據(jù)帶來的,目前還沒有一個明確的答案。

在本文中,Android 開發(fā)者和機器學習愛好者 Harshil Patel 介紹了「機器學習:以數(shù)據(jù)為中心 VS 以模型為中心」,通過對比以確定兩者中哪個更重要,此外,Patel 還介紹了如何使用以數(shù)據(jù)為中心的基礎設施。

以數(shù)據(jù)為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實驗來提高機器學習模型性能,這涉及模型架構的選擇、訓練過程。而在以模型為中心的方法中,你需要保持數(shù)據(jù)相同,通過改進代碼和模型架構來提高性能。此外,對代碼的改進是以模型為中心的根本目標。

目前,大多數(shù) AI 應用都是以模型為中心的,其中一個可能的原因是學術研究非常重視 AI 領域。根據(jù)吳恩達的說法,AI 領域 90% 以上的研究論文都是以模型為中心的,因為我們很難創(chuàng)建大型數(shù)據(jù)集,使其成為公認的標準。因此,AI 社區(qū)認為以模型為中心的機器學習更有前景。研究者在專注于模型的同時,往往會忽略數(shù)據(jù)的重要性。

對于研究者而言,數(shù)據(jù)是每個決策過程的核心,以數(shù)據(jù)為中心的公司通過使用其運營產(chǎn)生的信息,可以獲得更準確、更有條理、更透明的結(jié)果,從而可以幫助公司組織更順利地運行。以數(shù)據(jù)為中心的方法涉及系統(tǒng)地改進、改進數(shù)據(jù)集,以提高 ML 應用程序的準確性,對數(shù)據(jù)進行處理是以數(shù)據(jù)為中心的中心目標。

f0375be2-98a9-11ec-952b-dac502259ad0.png

數(shù)據(jù)驅(qū)動 VS 以數(shù)據(jù)為中心

許多人經(jīng)常混淆「以數(shù)據(jù)為中心」和「數(shù)據(jù)驅(qū)動」這兩個概念。數(shù)據(jù)驅(qū)動是一種從數(shù)據(jù)中收集、分析和提取見解的方法,它有時被稱為「分析」。另一方面,以數(shù)據(jù)為中心的方法側(cè)重于使用數(shù)據(jù)來定義應該首先創(chuàng)建的內(nèi)容;而以數(shù)據(jù)為中心的架構指的是一個系統(tǒng),其中數(shù)據(jù)是主要和永久的資產(chǎn)。數(shù)據(jù)驅(qū)動架構意味著通過利用大量數(shù)據(jù)來創(chuàng)建技術、技能和環(huán)境。

對于數(shù)據(jù)科學家和機器學習工程師來說,以模型為中心的方法似乎更受歡迎。這是因為從業(yè)者可以利用自身知識儲備來解決特定問題。另一方面,沒有人愿意花大量時間去標注數(shù)據(jù)。

然而,在當今的機器學習中,數(shù)據(jù)至關重要,但在 AI 發(fā)展中卻經(jīng)常被忽視和處理不當。由于數(shù)據(jù)錯誤,研究者可能花費大量時間進行查錯。模型精度較低的根本原因可能不是來自模型本身,而是來自錯誤的數(shù)據(jù)集。

f04d9542-98a9-11ec-952b-dac502259ad0.png

除了關注數(shù)據(jù)外,模型和代碼也很重要。但研究者往往傾向于在關注模型的同時忽略數(shù)據(jù)的重要性。最好的方法是同時關注數(shù)據(jù)和模型的混合方法。根據(jù)應用程序的不同,研究者應該兼顧數(shù)據(jù)和模型。

以數(shù)據(jù)為中心的基礎架構

以模型為中心的機器學習系統(tǒng)主要關注模型架構優(yōu)化及其參數(shù)優(yōu)化。

f06851ca-98a9-11ec-952b-dac502259ad0.png

以模型為中心的 ML 應用程序

上圖中描述的是以模型為中心的工作流適用于少數(shù)行業(yè),如媒體、廣告、醫(yī)療保健或制造業(yè)。但也可能面臨如下挑戰(zhàn):

需要高級定制系統(tǒng):不同于媒體和廣告行業(yè),許多企業(yè)無法使用單一的機器學習系統(tǒng)來檢測其產(chǎn)品的生產(chǎn)故障。雖然媒體公司可以負擔得起有一個完整的 ML 部門來處理優(yōu)化問題,但需要多個 ML 解決方案的制造企業(yè)不能按照這樣的模板進行實施;

大型數(shù)據(jù)集的重要性:在大多數(shù)情況下,公司沒有大量數(shù)據(jù)可供使用。相反,他們經(jīng)常被迫處理微小的數(shù)據(jù)集,如果他們的方法是以模型為中心的,那么這些數(shù)據(jù)集很容易產(chǎn)生令人失望的結(jié)果。

吳恩達曾在他的 AI 演講中解釋了他如何相信以數(shù)據(jù)為中心的 ML 更有價值,并倡導社區(qū)朝著以數(shù)據(jù)為中心的方向發(fā)展。他曾經(jīng)舉了一個「鋼鐵缺陷檢測」的例子,其中以模型為中心的方法未能提高模型的準確率,而以數(shù)據(jù)為中心的方法將準確率提高了 16%。

f07c738a-98a9-11ec-952b-dac502259ad0.png

以數(shù)據(jù)為中心的 ML 應用程序

在實施以數(shù)據(jù)為中心的架構時,可以將數(shù)據(jù)視為比應用程序和基礎架構更耐用的基本資產(chǎn)。以數(shù)據(jù)為中心的 ML 使數(shù)據(jù)共享和移動變得簡單。那么,在以數(shù)據(jù)為中心的機器學習到底涉及什么?在實現(xiàn)以數(shù)據(jù)為中心的方法時,我們應該考慮以下因素:

數(shù)據(jù)標簽質(zhì)量:當大量的圖像被錯誤標記時,會出現(xiàn)意想不到的錯誤,因此需要提高數(shù)據(jù)標注質(zhì)量;

數(shù)據(jù)增強:讓有限的數(shù)據(jù)產(chǎn)生更多的數(shù)據(jù),增加訓練樣本的數(shù)量以及多樣性(噪聲數(shù)據(jù)),提升模型穩(wěn)健性;

特征工程:通過改變輸入數(shù)據(jù)、先驗知識或算法向模型添加特征,常被用于機器學習,以幫助提高預測模型的準確性;

數(shù)據(jù)版本控制:開發(fā)人員通過比較兩個版本來跟蹤錯誤并查看沒有意義的內(nèi)容,數(shù)據(jù)版本控制是維護數(shù)據(jù)中最不可或缺的步驟之一,它可以幫助研究者跟蹤數(shù)據(jù)集的更改(添加和刪除),版本控制使代碼協(xié)作和數(shù)據(jù)集管理變得更加容易;

領域知識:在以數(shù)據(jù)為中心的方法中,領域知識非常有價值。領域?qū)<彝ǔ?梢詸z測到 ML 工程師、數(shù)據(jù)科學家和標注人員無法檢測到的細微差異,ML 系統(tǒng)中仍然缺少涉及領域?qū)<业膬?nèi)容。如果有額外的領域知識可用,ML 系統(tǒng)可能會表現(xiàn)得更好。

應該優(yōu)先考慮哪一個:數(shù)據(jù)數(shù)量還是數(shù)據(jù)質(zhì)量?

需要強調(diào)的是,數(shù)據(jù)量多并不等同于數(shù)據(jù)質(zhì)量好。當然,訓練神經(jīng)網(wǎng)絡不能只用幾張圖就能完成,數(shù)據(jù)數(shù)量是一個方面,但現(xiàn)在的重點是質(zhì)量而不是數(shù)量。

f09187de-98a9-11ec-952b-dac502259ad0.png

如上圖所示,大多數(shù) Kaggle 數(shù)據(jù)集并沒有那么大。在以數(shù)據(jù)為中心的方法中,數(shù)據(jù)集的大小并不那么重要,并且可以使用質(zhì)量較小的數(shù)據(jù)集完成更多的工作。不過需要注意的是,數(shù)據(jù)質(zhì)量高且標注正確。

上圖中是另一種標注數(shù)據(jù)的方式,單獨或組合標注。例如,如果數(shù)據(jù)科學家 1 單獨標注菠蘿,而數(shù)據(jù)科學家 2 將其組合標注,則兩者標注的數(shù)據(jù)不兼容,導致學習算法變得混亂。因此,需要將數(shù)據(jù)標簽保持一致;如果需要單獨標注,請確保所有標注都以相同的方式進行。

f0c2d94c-98a9-11ec-952b-dac502259ad0.png

上圖為吳恩達解釋了小數(shù)據(jù)集一致性的重要性

到底需要多少數(shù)據(jù)?

數(shù)據(jù)質(zhì)量不可忽視,但數(shù)據(jù)量也是至關重要的,研究者必須有足夠的數(shù)據(jù)支撐才能解決問題。深度網(wǎng)絡具有低偏差、高方差特性,我們可以預見更多的數(shù)據(jù)可以解決方差問題。但是多少數(shù)據(jù)才夠呢?目前這個問題還很難回答,不過我們可以認為擁有大量的數(shù)據(jù)是一種優(yōu)勢,但也不是必須的。

如果你采用以數(shù)據(jù)為中心的方法,請記住以下幾點:

確保在整個 ML 項目周期中數(shù)據(jù)保持一致;

數(shù)據(jù)標注保持一致;

要及時反饋結(jié)果;

進行錯誤分析;

消除噪聲樣本。

那么,我們哪里可以找到高質(zhì)量的數(shù)據(jù)集?這里推薦幾個網(wǎng)站,首先是 Kaggle:在 Kaggle 中,你會找到進行數(shù)據(jù)科學工作所需的所有代碼和數(shù)據(jù),Kaggle 擁有超過 50,000 個公共數(shù)據(jù)集和 400,000 個公共 notebook,可以快速完成任務。

f0deb1ee-98a9-11ec-952b-dac502259ad0.png

其次是 Datahub.io:Datahub 是一個主要專注于商業(yè)和金融的數(shù)據(jù)集平臺。許多數(shù)據(jù)集,例如國家、人口和地理邊界列表,目前在 DataHub 上可用。

f0f95f4e-98a9-11ec-952b-dac502259ad0.png

最后是 Graviti Open Datasets:Graviti 是一個新的數(shù)據(jù)平臺,主要為計算機視覺提供高質(zhì)量的數(shù)據(jù)集。個人開發(fā)人員或組織可以輕松訪問、共享和更好地管理開放數(shù)據(jù)。

原文標題:90%論文都是以模型為中心,AI領域,數(shù)據(jù)和模型到底哪個重要?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7349

    瀏覽量

    95056
  • AI
    AI
    +關注

    關注

    91

    文章

    41316

    瀏覽量

    302701
  • 模型
    +關注

    關注

    1

    文章

    3831

    瀏覽量

    52287

原文標題:90%論文都是以模型為中心,AI領域,數(shù)據(jù)和模型到底哪個重要?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習中的數(shù)據(jù)質(zhì)量雙保障:從“驗證”到“標記”

    機器學習的世界里,有句老話尤為貼切:“garbagein,garbageout”(輸入垃圾,輸出垃圾)。無論模型架構多先進、算法多精妙,數(shù)據(jù)
    的頭像 發(fā)表于 04-24 15:48 ?119次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>中的<b class='flag-5'>數(shù)據(jù)</b>質(zhì)量雙保障:從“驗證”到“標記”

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    的診斷建議。 未來展望:開啟視覺智能新時代 隨著技術的不斷進步,視覺大模型將在更多領域發(fā)揮重要作用。未來,它有望與自然語言處理、機器人技術等領域
    發(fā)表于 04-15 16:06

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?854次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學習</b>更快嗎?

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    ,并驗證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學家的工作習慣。需避免的機器學習和深度學習數(shù)據(jù)錯誤
    的頭像 發(fā)表于 01-07 15:37 ?367次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    基于ETAS嵌入式AI工具鏈將機器學習模型部署到量產(chǎn)ECU

    AI汽車行業(yè)的應用日益深化,如何將機器學習領域的先進模型(如虛擬傳感器)集成到ECU軟件中,已成為業(yè)界面臨的核心挑戰(zhàn)。
    的頭像 發(fā)表于 12-24 10:55 ?6414次閱讀
    基于ETAS嵌入式AI工具鏈將<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>部署到量產(chǎn)ECU

    移動電源應用中,電容的高容值和低ESR,哪個對抑制紋波更重要

    移動電源應用中,電容的高容值和低ESR,哪個對抑制紋波更重要
    發(fā)表于 12-06 13:30

    探索RISC-V機器領域的潛力

    Pro則運行控制節(jié)點,通過Wi-Fi網(wǎng)絡接收Gazebo發(fā)布的傳感器信息(如激光雷達數(shù)據(jù)),并發(fā)布控制指令(速度指令)來驅(qū)動機器模型移動和避障。 ? 體驗: MUSE Pi Pro的K1 CPU
    發(fā)表于 12-03 14:40

    超小型Neuton機器學習模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以
    發(fā)表于 07-31 11:38

    3D 工業(yè)相機解析:軸向、平面、重復、線性精度到底哪個更重要?

    3D 工業(yè)相機選型時,“精度” 往往是用戶最先關注的指標,但面對參數(shù)表上的 “軸向精度 ”“平面精度”“重復精度”“線性精度”,很多工程師都會陷入困惑:這些參數(shù)到底代表什么?為什么同一臺設備會有多個精度數(shù)值?實際檢測中,哪個
    的頭像 發(fā)表于 07-29 17:18 ?2243次閱讀
    3D 工業(yè)相機解析:軸向、平面、重復、線性精度到底<b class='flag-5'>哪個</b><b class='flag-5'>更重要</b>?

    FPGA機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效
    的頭像 發(fā)表于 07-16 15:34 ?3115次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經(jīng)到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發(fā)展仍面臨一個關鍵挑戰(zhàn):機器人需要大量的訓練
    的頭像 發(fā)表于 07-14 11:49 ?1332次閱讀
    通過NVIDIA Cosmos<b class='flag-5'>模型</b>增強<b class='flag-5'>機器人學習</b>

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    教育等領域發(fā)揮著越來越重要的作用。?針對日前前來咨詢的廣大客戶對面向大模型智能硬件的學習需求,我們根據(jù)CSK6大模型語音視覺開發(fā)板已有功能,
    發(fā)表于 07-04 11:10

    模型半導體行業(yè)的應用可行性分析

    的應用,比如使用機器學習分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面
    發(fā)表于 06-24 15:10

    邊緣計算中的機器學習:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。本文中,我們將把一個機器學習模型(神經(jīng)網(wǎng)絡)部署到邊緣設備上,利用從ModbusTCP寄存器獲取的實時
    的頭像 發(fā)表于 06-11 17:22 ?1171次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統(tǒng)的實時推理<b class='flag-5'>模型</b>部署與工業(yè)集成!

    明遠智睿SSD2351開發(fā)板:語音機器領域的變革力量

    人工智能快速發(fā)展的今天,語音機器人逐漸成為人們生活和工作中的得力助手。明遠智睿SSD2351開發(fā)板憑借強大性能與豐富功能,為語音機器人的發(fā)展注入新動力,成為該領域的變革力量。 SSD
    發(fā)表于 05-28 11:36
    徐水县| 屯门区| 建湖县| 朝阳市| 临城县| 阳信县| 白沙| 永嘉县| 股票| 漾濞| 通城县| 栖霞市| 且末县| 双辽市| 灵川县| 潞西市| 荣成市| 南投县| 丹东市| 阿鲁科尔沁旗| 习水县| 卢湾区| 五大连池市| 富阳市| 巢湖市| 河曲县| 高淳县| 侯马市| 万州区| 舞钢市| 油尖旺区| 东方市| 乌拉特后旗| 大余县| 修武县| 湘乡市| 时尚| 英德市| 葫芦岛市| 华池县| 阳新县|