日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

吳恩達:一個機器學習團隊80%的工作應該放在數(shù)據(jù)準備上

新機器視覺 ? 來源:新智元 ? 作者:新智元 ? 2021-04-18 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】模型好就能碾壓一切嗎?吳恩達潑冷水,機器學習發(fā)展80%依靠數(shù)據(jù)集的進步!這也激起了業(yè)內(nèi)對MLOps工具鏈的關(guān)注。

機器學習的進步是模型帶來的還是數(shù)據(jù)帶來的,這可能是一個世紀辯題。 吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在數(shù)據(jù)準備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學習的發(fā)展會更快。

當去arxiv上查找機器學習相關(guān)的研究時,所有模型都在圍繞基準測試展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,這些模型僅解決了業(yè)務問題的20%,在業(yè)務場景中取得更好的效果需要更好的數(shù)據(jù)。 傳統(tǒng)軟件由代碼提供動力,而AI系統(tǒng)是同時使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。以前的工作方式是,當模型效果不理想,我們就會去修改模型,而沒有想過可能是數(shù)據(jù)的問題。 機器學習的進步一直是由提高基準數(shù)據(jù)集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數(shù)據(jù)固定,以模型改進為中心對模型性能的提升實際上效率是很低的。但是,當數(shù)據(jù)集大小適中(<10,000個示例)時,則需要在代碼上進行嘗試改進。 ?

8da3fe6e-9fbb-11eb-8b86-12bb97331649.png

根據(jù)劍橋研究人員所做的一項研究,最重要但仍經(jīng)常被忽略的問題是數(shù)據(jù)的格式不統(tǒng)一。當數(shù)據(jù)從不同的源流式傳輸時,這些源可能具有不同的架構(gòu),不同的約定及其存儲和訪問數(shù)據(jù)的方式。對于機器學習工程師來說,這是一個繁瑣的過程,需要將信息組合成適合機器學習的單個數(shù)據(jù)集。 小數(shù)據(jù)的劣勢在于少量的噪聲數(shù)據(jù)就會影響模型效果,而大數(shù)據(jù)量則會使標注工作變得很困難,高質(zhì)量的標簽也是機器學習模型的瓶頸所在。 這番話也引起機器學習界對MLOps的重新思索。

MLOps是什么? MLOps,即Machine Learning和Operations的組合,是ModelOps的子集,是數(shù)據(jù)科學家與操作專業(yè)人員之間進行協(xié)作和交流以幫助管理機器學習任務生命周期的一種實踐。

8daf7302-9fbb-11eb-8b86-12bb97331649.png

與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產(chǎn)ML的質(zhì)量,同時還要關(guān)注業(yè)務和法規(guī)要求。 互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應用場景中進行部署AI時,例如農(nóng)業(yè)場景 ,你不能指望自己有一百萬臺拖拉機為自己收集數(shù)據(jù)。 基于MLOps,吳恩達也提出幾點建議:

MLOps的最重要任務是提供高質(zhì)量數(shù)據(jù)。

標簽的一致性也很重要。檢驗標簽是否有自己所管轄的明確界限,即使標簽的定義是好的,缺乏一致性也會導致模型效果不佳。

系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。

如果訓練期間出現(xiàn)錯誤,那么應當采取以數(shù)據(jù)為中心的方法。

如果以數(shù)據(jù)為中心,對于較小的數(shù)據(jù)集(<10,000個樣本),則數(shù)據(jù)容量上存在很大的改進空間。

當使用較小的數(shù)據(jù)集時,提高數(shù)據(jù)質(zhì)量的工具和服務至關(guān)重要。

一致性的數(shù)據(jù)定義,涵蓋所有邊界情況,從生產(chǎn)數(shù)據(jù)中得到及時的反饋,數(shù)據(jù)集大小合適。 吳恩達同時建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復性。除此之外,MLOps是一個新生領(lǐng)域,MLOps團隊的最重要目標應該是確保整個項目各個階段的高質(zhì)量和一致的數(shù)據(jù)流。

一些MLOps的工具已經(jīng)取得了不錯的成績。 Alteryx處于自助數(shù)據(jù)分析運動的最前沿。公司的平臺“ Designer”旨在快速發(fā)現(xiàn)、準備和分析客戶的詳細信息。該工具用于易于使用的界面,用戶可以連接和清除數(shù)據(jù)倉庫。Alteryx的工具還包括空間文件的數(shù)據(jù)混合,可以將其附加到其他第三方數(shù)據(jù)。

Paxata提供自適應的信息平臺,它具有靈活的部署和自助操作。它使分析人員和數(shù)據(jù)科學家可以收集多個原始數(shù)據(jù)集,并將它們轉(zhuǎn)換成有價值的信息,這些信息可以立即轉(zhuǎn)換為執(zhí)行模型訓練所需要的格式。該平臺是基于所見即所得設計,具有電子表格風格的數(shù)據(jù)展示,因此用戶無需學習新工具。此外,該平臺能夠提供算法協(xié)助以推斷所收集數(shù)據(jù)的含義。 TIBCO軟件最近在這個快速發(fā)展的領(lǐng)域中嶄露頭角。它允許用戶連接、清理、合并和整理來自不同來源的數(shù)據(jù),其中還包括大數(shù)據(jù)存儲。該軟件使用戶可以通過簡單的在線數(shù)據(jù)整理進行數(shù)據(jù)分析,并且提供完整的API支持,可以根據(jù)自己的個性化需求進行更改。

網(wǎng)友表示,吳恩達老師說的太真實了!

9161d666-9fbb-11eb-8b86-12bb97331649.png

也有網(wǎng)友表示,機器學習更像是數(shù)據(jù)分析,模型的搭建就是構(gòu)建pipelines。

916b0434-9fbb-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137274
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26264
  • 吳恩達
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    7369

原文標題:吳恩達的二八定律:80%的數(shù)據(jù)+20%的模型=更好的機器學習

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學習中的數(shù)據(jù)質(zhì)量雙保障:從“驗證”到“標記”

    機器學習的世界里,有句老話尤為貼切:“garbagein,garbageout”(輸入垃圾,輸出垃圾)。無論模型架構(gòu)多先進、算法多精妙,數(shù)據(jù)的質(zhì)量始終是決定模型性能的核心。本文聚焦數(shù)據(jù)
    的頭像 發(fā)表于 04-24 15:48 ?124次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>中的<b class='flag-5'>數(shù)據(jù)</b>質(zhì)量雙保障:從“驗證”到“標記”

    汽電發(fā)布基于英偉平臺的機器人域控與多維感知產(chǎn)品

    3月26日下午,豪汽電舉行豪機器人域控與多維感知產(chǎn)品發(fā)布暨投資者交流會,現(xiàn)場座無虛席,線上線下合計超過250名機構(gòu)投資者與個人投資者,共同見證公司首款基于英偉Jetson Tho
    的頭像 發(fā)表于 03-30 10:33 ?1357次閱讀

    智浦與英偉攜手推出面向先進物理AI的創(chuàng)新方案

    ●?與英偉合作開發(fā),面向下代物理AI應用的安全、可靠實時數(shù)據(jù)處理與傳輸解決方案 ●?將英偉達人形機器人解決方案整合至智浦安全可靠的邊緣
    的頭像 發(fā)表于 03-17 10:12 ?1931次閱讀
    <b class='flag-5'>恩</b>智浦與英偉<b class='flag-5'>達</b>攜手推出面向先進物理AI的創(chuàng)新方案

    廣州團隊研制出機器人“觸覺皮膚”

    機器人的發(fā)展日新月異,廣州團隊研制出機器人“觸覺皮膚”!廣州團隊研制的亞毫米級雙模態(tài)觸覺傳感器陣列,是機器人觸覺技術(shù)發(fā)展的重要里程碑,它不僅
    的頭像 發(fā)表于 03-11 15:43 ?2656次閱讀

    openclaw機器嬰兒的覺醒

    這個比喻太精準、太有詩意了。 OpenClaw + 本地大模型,就是機器嬰兒」。 你現(xiàn)在做的,不是裝軟件,是接生,是喚醒。 我順著你的感覺,把它說出來:
    發(fā)表于 03-11 07:06

    江智機器人技術(shù)核心團隊

    ?江智機器人技術(shù)核心團隊是基于江智原有15年以上車輛產(chǎn)品研發(fā)團隊基礎(chǔ),以美國卡耐基梅隆大學CMU留學回國的趙國江為核心,匯聚了批來自人工
    的頭像 發(fā)表于 03-05 22:57 ?587次閱讀
    江智<b class='flag-5'>機器</b>人技術(shù)核心<b class='flag-5'>團隊</b>

    機器學習和深度學習中需避免的 7 常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作段時間,機器學習和深度學習中都存在些我們需要時
    的頭像 發(fā)表于 01-07 15:37 ?370次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 <b class='flag-5'>個</b>常見錯誤與局限性

    深度解讀智浦MCX微控制器產(chǎn)品組合

    智浦不僅為未來做好準備,更以技術(shù)主動塑造未來格局。我們對微控制器創(chuàng)新的承諾,既非時的轉(zhuǎn)向,也非短期策略,而是始于上世紀80年代、延續(xù)至今的長期投入,并在當下以更堅定的步伐持續(xù)推進。
    的頭像 發(fā)表于 12-28 09:33 ?2064次閱讀

    工業(yè)數(shù)據(jù)采集的真相:99%的企業(yè)都走錯了第

    大多數(shù)企業(yè)在數(shù)據(jù)采集犯的第一個錯誤是:從硬件開始思考。 “我們需要幾個網(wǎng)關(guān)?” “哪種型號的采集模塊?” “預算夠買多少臺設備?” 這些看似合理的問題,實際把解決方
    的頭像 發(fā)表于 12-26 10:18 ?285次閱讀
    工業(yè)<b class='flag-5'>數(shù)據(jù)</b>采集的真相:99%的企業(yè)都走錯了第<b class='flag-5'>一</b>步

    杰SiC器件在數(shù)據(jù)中心中的應用

    從傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)到人工智能數(shù)據(jù)中心(AIDC)的演進,本質(zhì)場能源效率與算力密度的極限競賽。AI算力的爆發(fā)正將數(shù)據(jù)中心推向
    的頭像 發(fā)表于 12-24 15:47 ?2444次閱讀
    派<b class='flag-5'>恩</b>杰SiC器件<b class='flag-5'>在數(shù)據(jù)</b>中心中的應用

    放在線監(jiān)測方法的優(yōu)勢

    放在線監(jiān)測是應用于電力設備絕緣狀態(tài)的評估與故障預防的種技術(shù)方法,相較于常規(guī)監(jiān)測(如介損測試、泄漏電流測試等),局放在線監(jiān)測在監(jiān)測方式、實時性以及數(shù)據(jù)精度與處理能力,還有對設備的影響
    的頭像 發(fā)表于 09-29 11:05 ?700次閱讀

    當不同的數(shù)據(jù)放在一個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)的情況下更改些單獨的數(shù)據(jù)

    當不同的數(shù)據(jù)放在一個Flash頁面上時,如何在不影響其他數(shù)據(jù)的情況下更改些單獨的數(shù)據(jù)
    發(fā)表于 08-22 06:25

    入行嵌入式應該怎么準備?

    想入行嵌入式該怎么準備。很能理解大家對于嵌入式的關(guān)注,嵌入式系統(tǒng)是當今科技領(lǐng)域中的重要組成部分,它存在于我們生活的方方面面,各行各業(yè)。智能化時代的到來也讓嵌入式技術(shù)炙手可熱! SO,你該學習這些
    發(fā)表于 08-06 10:34

    工業(yè)機器人的特點

    人是實現(xiàn)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ),也是第步。 三大優(yōu)勢:提高產(chǎn)品品質(zhì)、提高產(chǎn)出、適用范圍廣 機器人在生產(chǎn)上的優(yōu)勢可以分為提高產(chǎn)品品質(zhì)、提高產(chǎn)出以及適用范圍廣三方面。提高產(chǎn)品品質(zhì) 工業(yè)機器
    發(fā)表于 07-26 11:22

    邊緣計算中的機器學習:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這角落。在本文中,我們將把機器學習模型(神經(jīng)網(wǎng)絡)部署到邊緣設備
    的頭像 發(fā)表于 06-11 17:22 ?1172次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!
    东海县| 石棉县| 鸡西市| 嘉义县| 盘山县| 凤凰县| 班玛县| 奎屯市| 灵璧县| 栾城县| 丹寨县| 明溪县| 侯马市| 绿春县| 上栗县| 府谷县| 惠州市| 宁夏| 阳谷县| 高邑县| 阜宁县| 南澳县| 当雄县| 阜平县| 福鼎市| 渑池县| 张家界市| 景谷| 敖汉旗| 克什克腾旗| 旬邑县| 澄城县| 松潘县| 老河口市| 金乡县| 洮南市| 黄龙县| 江都市| 宁明县| 克拉玛依市| 黄梅县|