日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK 88:(原創(chuàng))數(shù)據(jù)預處理:成功AI大模型的基石

共熵服務中心 ? 來源:未知 ? 2023-06-01 06:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

e47a162a-fffd-11ed-90ce-dac502259ad0.png

從去年下半年ChatGPT橫空出世至今,大模型的熱度一直沒有減弱。AI好不好,基本上就看四點:數(shù)據(jù)、算力、算法和應用。智愿君決定用幾篇的內(nèi)容,聊聊這些話題。如果用烹飪來形容的話:數(shù)據(jù)是原材料柴米油鹽,算力是烹調(diào)工具鍋和火力,算法是烹飪的技法,而應用就是如何讓這道菜受歡迎,允許原材料、技法的改良和變化,允許被包裝,最終被普及大眾接受和感知。

最先要聊的必須要有好的數(shù)據(jù)集。對于深度學習而言,好的數(shù)據(jù)集是基礎。如果輸入的數(shù)據(jù)質(zhì)量較低、不準確或包含錯誤信息,那么即使使用優(yōu)秀的算法和模型,最終學習出來的結(jié)果也可能存在錯誤和不準確性。數(shù)據(jù)的準確性和質(zhì)量是確保機器學習模型能夠產(chǎn)生準確和可靠結(jié)果的先決條件。正所謂垃圾進,垃圾出。所以要做好大模型,就要從源頭抓起。

1. 高質(zhì)量的數(shù)據(jù)資源

想做好數(shù)據(jù)集,尋找到高質(zhì)量的數(shù)據(jù)資源是第一步。AI學習的數(shù)據(jù)要有一些基本的質(zhì)量要求,否則后期處理工作量會翻倍。這里面包括:

    • 數(shù)據(jù)的準確性和真實性。如果數(shù)據(jù)存在大量的謊言,那么AI也自然就學會了說謊。

    • 數(shù)據(jù)的邏輯性:如果數(shù)據(jù)的關聯(lián)缺少必要的因果關系和邏輯推理關系,在這種數(shù)據(jù)上希望訓練成一個邏輯性很強的推理AI也是癡人說夢。

    • 數(shù)據(jù)的平衡和公允性。當然,這個是針對AI大模型最終用戶的預判來決定的。如果一個大模型默認就是簡體中文的群體,那么要在這個群體范圍內(nèi)做到盡可能的數(shù)據(jù)公平和公允性,不會刻意制造地域、年齡、職業(yè)和能力差別情況下的失衡和不公平。這種數(shù)據(jù)的多樣性,也是最終模型魯棒性的體現(xiàn)。也會幫助最終的大模型更好地應對現(xiàn)實世界中的變化和挑戰(zhàn)。

    • 數(shù)據(jù)語言文明用語的重要性。要盡可能干凈,不能出現(xiàn)辱罵、偏見、歧視性的用語。

不同領域數(shù)據(jù)資源會有所不同,一些經(jīng)典的數(shù)據(jù)資源如下:

Wikipedia:

e5cede5c-fffd-11ed-90ce-dac502259ad0.png

Wikipedia是一個由志愿者創(chuàng)建和編輯的在線百科全書,它包含了廣泛的知識領域和主題的文章。Wikipedia的數(shù)據(jù)資源在自然語言處理(NLP)和文本相關的任務中非常有價值。它提供了大量的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù),包括文章、段落、標題、鏈接等信息。Wikipedia的數(shù)據(jù)資源可用于語義理解、文本分類、實體識別、關系抽取、問答系統(tǒng)等NLP任務的訓練和評估。Wikipedia數(shù)據(jù)資源的廣泛性和多樣性使其成為研究和開發(fā)NLP模型的重要數(shù)據(jù)來源。

Common Crawl:

e5f0dac0-fffd-11ed-90ce-dac502259ad0.png

Common Crawl是一個非營利性組織,旨在收集并提供互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)據(jù)。它通過定期抓取互聯(lián)網(wǎng)上的網(wǎng)頁并存儲為大規(guī)模的數(shù)據(jù)集,提供了一個公共的、開放的互聯(lián)網(wǎng)快照。Common Crawl的數(shù)據(jù)資源是以網(wǎng)頁的形式提供的,包含了網(wǎng)頁的HTML內(nèi)容、鏈接、標記等信息。這些數(shù)據(jù)對于自然語言處理、信息檢索、網(wǎng)頁分析、機器學習等任務非常有價值。研究人員和開發(fā)者可以利用Common Crawl的數(shù)據(jù)資源進行文本抽取、語義分析、信息挖掘等任務的訓練和研究。

World Bank Open Data:

e61a350a-fffd-11ed-90ce-dac502259ad0.png

世界銀行開放數(shù)據(jù)平臺提供了全球范圍內(nèi)的經(jīng)濟、社會和發(fā)展數(shù)據(jù)。這些數(shù)據(jù)涵蓋各種指標,包括國內(nèi)生產(chǎn)總值(GDP)、人口統(tǒng)計、教育、衛(wèi)生等。

ImageNet:

e645bd06-fffd-11ed-90ce-dac502259ad0.png

ImageNet是一個大規(guī)模圖像數(shù)據(jù)庫,包含數(shù)百萬個標記圖像。每個圖像都與一個或多個類別標簽相關聯(lián)。ImageNet的數(shù)據(jù)資源被廣泛用于計算機視覺任務,如圖像分類、目標檢測和圖像分割等。

IMDb:

e66893b2-fffd-11ed-90ce-dac502259ad0.png

IMDb(Internet Movie Database)是關于電影、電視節(jié)目、演員和其他相關信息的廣泛數(shù)據(jù)庫。它提供了詳細的影片信息、演員表、評分和評論等。

Kaggle:

e67980b4-fffd-11ed-90ce-dac502259ad0.png

Kaggle是一個數(shù)據(jù)科學競賽和交流平臺,提供大量的公開數(shù)據(jù)集供數(shù)據(jù)科學家和機器學習從業(yè)者使用。這些數(shù)據(jù)集涵蓋各個領域,包括圖像識別、自然語言處理、金融、醫(yī)療等。

OpenStreetMap:

e6947c98-fffd-11ed-90ce-dac502259ad0.png

OpenStreetMap是一個開放的地圖數(shù)據(jù)項目,由全球志愿者創(chuàng)建和維護。它提供了地理數(shù)據(jù)和地圖信息,可用于各種導航、地理信息系統(tǒng)(GIS)和位置分析應用。

NASA's Planetary Data System:

e6e68326-fffd-11ed-90ce-dac502259ad0.png

NASA的行星數(shù)據(jù)系統(tǒng)(Planetary Data System)收集和維護了來自太陽系行星探測任務的各種科學數(shù)據(jù)。這些數(shù)據(jù)包括行星表面圖像、空間探測器觀測數(shù)據(jù)、天體物理數(shù)據(jù)等。該數(shù)據(jù)資源對于行星科學研究和空間探索具有重要意義。

大家可能發(fā)現(xiàn)上述的數(shù)據(jù)資源大多為美國的資源。這一點,相比之下,我國確實存在一定程度的差距。根據(jù)發(fā)改委高技術(shù)司,我國政府數(shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過 3/4,開放的規(guī)模卻不足美國的 10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的 7%,但這類數(shù)據(jù)的開放共享程度不高,全國開放數(shù)據(jù)集規(guī)模僅約為美國的 11%。而且我們的很多數(shù)據(jù)都在不同的垂直領域國企大廠,數(shù)據(jù)有待進一步開放匯集,為開發(fā)更符合國內(nèi)需求的大模型提供基礎。但國際環(huán)境復雜多變,數(shù)據(jù)安全仍是當前的重要考慮因素,所以如何拉通數(shù)據(jù)資源市場,促進相關公共、企業(yè)、個人數(shù)據(jù)的進一步放開,將為國內(nèi) AI 發(fā)展提供重要支撐,確實存在很大的挑戰(zhàn)。

2. 數(shù)據(jù)預處理和準備

盡管數(shù)據(jù)資源很重要,但要在真正拿來訓練前,還是需要做很多功課的,如果不排除數(shù)據(jù)中存在前后矛盾的情況,格式不一致的情況,來源不同,導致訓練水土不服的情況。再加上不可避免的噪聲、異常、重復等數(shù)據(jù)問題,這就需要經(jīng)過專業(yè)化的預處理和數(shù)據(jù)準備,比如如何從數(shù)據(jù)資源中采集數(shù)據(jù)?數(shù)據(jù)的價值觀設計?是否需要做進一步的數(shù)據(jù)清洗?如何進行數(shù)據(jù)標注?如何管理這些數(shù)據(jù)?等等,接下來,我們就逐一展開聊一下:

數(shù)據(jù)采集:

數(shù)據(jù)采集是從數(shù)據(jù)資源中獲取數(shù)據(jù)的過程。它涉及到確定數(shù)據(jù)的來源、采集方法和采集范圍等。數(shù)據(jù)可以來自各種渠道,如公共數(shù)據(jù)集、開放API、傳感器、日志文件等。在數(shù)據(jù)采集過程中,需要考慮數(shù)據(jù)的可靠性、完整性和合法性,確保采集到的數(shù)據(jù)符合預期和需求。

數(shù)據(jù)價值觀設計:

數(shù)據(jù)的價值觀設計是指在數(shù)據(jù)采集和使用過程中明確和定義數(shù)據(jù)的意義和價值。這包括確定數(shù)據(jù)的目標和目的,定義數(shù)據(jù)的質(zhì)量標準和指標。數(shù)據(jù)的價值觀設計需要結(jié)合具體應用場景和業(yè)務需求,確保數(shù)據(jù)的質(zhì)量和適用性。對于我國在做大模型的一些企業(yè),數(shù)據(jù)價值觀設計可能尤為重要,大模型生成的結(jié)果是否符合社會主義價值觀,是否符合正能量要求,是否避開敏感話題等,在數(shù)據(jù)預處理的時候,就要把控好。

數(shù)據(jù)清洗(Data Cleaning):

數(shù)據(jù)清洗是指對數(shù)據(jù)進行處理和修正,以去除或糾正數(shù)據(jù)中的錯誤、缺失、重復或不一致等問題。數(shù)據(jù)清洗過程包括數(shù)據(jù)去噪、數(shù)據(jù)填充、數(shù)據(jù)一致性檢查和糾正等。通過數(shù)據(jù)清洗,可以提高數(shù)據(jù)的準確性和一致性,消除對模型訓練的負面影響。

數(shù)據(jù)標注(Data Labeling):

數(shù)據(jù)標注是指給數(shù)據(jù)附加標簽或注釋,以指示數(shù)據(jù)的特征、類別或含義。數(shù)據(jù)標注可以是結(jié)構(gòu)化的,如分類標簽、實體標注等,也可以是非結(jié)構(gòu)化的,如文本摘要、圖像描述等。數(shù)據(jù)標注需要依賴專業(yè)的領域知識和標注指南,并進行質(zhì)量控制和質(zhì)量評估,以確保標注結(jié)果的準確性和一致性。在數(shù)據(jù)標注和處理過程中,可以利用眾包平臺或協(xié)作工具來進行大規(guī)模的數(shù)據(jù)標注和校對。通過將任務分發(fā)給眾多標注人員或協(xié)作團隊,可以加快數(shù)據(jù)處理的速度,并確保數(shù)據(jù)的準確性和一致性。數(shù)據(jù)集眾包和協(xié)作可以有效應對大規(guī)模數(shù)據(jù)處理的挑戰(zhàn)。

訓練數(shù)據(jù)預處理:

數(shù)據(jù)預處理是對原始數(shù)據(jù)進行轉(zhuǎn)換、規(guī)范化和歸一化等操作,以便于后續(xù)的特征工程和模型訓練。常見的數(shù)據(jù)預處理操作包括特征縮放、特征選擇、特征變換、數(shù)據(jù)降維等。數(shù)據(jù)預處理的目標是提高數(shù)據(jù)的可解釋性、可處理性和模型訓練的效果。除了結(jié)構(gòu)化數(shù)據(jù)(如表格數(shù)據(jù))之外,還存在大量的非結(jié)構(gòu)化數(shù)據(jù),如文本、圖像、音頻和視頻等。處理非結(jié)構(gòu)化數(shù)據(jù)需要使用相應的技術(shù)和算法,如自然語言處理(NLP)、計算機視覺(CV)、語音識別等。對于非結(jié)構(gòu)化數(shù)據(jù)的預處理和準備,需要使用特定的工具和庫,以及領域?qū)I(yè)知識。

數(shù)據(jù)增強:

數(shù)據(jù)增強是指通過一系列的變換和擴展操作來生成新的訓練樣本,以增加數(shù)據(jù)的多樣性和豐富性。數(shù)據(jù)增強可以包括圖像翻轉(zhuǎn)、旋轉(zhuǎn)、平移、縮放等操作,或者對文本進行重排、替換、增刪等操作。通過數(shù)據(jù)增強,可以擴展有限的數(shù)據(jù)集,減輕過擬合問題,提高模型的泛化能力和魯棒性。

數(shù)據(jù)質(zhì)量控制:

數(shù)據(jù)質(zhì)量控制是確保數(shù)據(jù)的準確性、一致性和可靠性的過程。它包括數(shù)據(jù)異常值的檢測和處理、數(shù)據(jù)重復項的處理、缺失數(shù)據(jù)的填充等。數(shù)據(jù)質(zhì)量控制還涉及到對標注數(shù)據(jù)的質(zhì)量進行評估和審核,以確保標注結(jié)果的可信度和一致性。為了評估數(shù)據(jù)預處理的效果和決策,可以使用一系列評估指標和度量方法。例如,可以使用準確率、召回率、F1分數(shù)等指標來評估數(shù)據(jù)標注的質(zhì)量。此外,還可以使用數(shù)據(jù)分布的統(tǒng)計指標、特征選擇的相關性等來評估數(shù)據(jù)預處理的效果。

數(shù)據(jù)特征工程:

數(shù)據(jù)特征工程是對原始數(shù)據(jù)進行變換、提取和構(gòu)造特征的過程,以便于模型的學習和表達。這包括對數(shù)據(jù)進行編碼、離散化、數(shù)值化、文本向量化等操作,以生成能夠被機器學習算法理解和處理的特征表示。良好的特征工程可以提高模型的表現(xiàn)和泛化能力。

數(shù)據(jù)集劃分:

將數(shù)據(jù)集劃分為訓練集、驗證集和測試集是模型訓練和評估的重要步驟。訓練集用于模型的參數(shù)更新和訓練過程,驗證集用于模型的調(diào)優(yōu)和超參數(shù)選擇,測試集用于模型的最終評估和性能指標的計算。劃分數(shù)據(jù)集時需要考慮樣本的分布、類別的平衡以及隨機性等因素,以保證結(jié)果的可靠性和泛化能力。在實際應用中,訓練數(shù)據(jù)集和測試數(shù)據(jù)集可能存在分布的偏移。這意味著測試數(shù)據(jù)集與訓練數(shù)據(jù)集之間的特征分布存在差異,從而可能導致模型在測試集上的性能下降。為了解決這個問題,可以采取數(shù)據(jù)分布校正的方法,如領域自適應、實例權(quán)重調(diào)整等,來使測試數(shù)據(jù)集更加貼近實際應用場景,提高模型的泛化能力。

數(shù)據(jù)集平衡:

數(shù)據(jù)集平衡是指在訓練數(shù)據(jù)中各個類別的樣本數(shù)量相對均衡。當數(shù)據(jù)集存在類別不平衡的情況時,模型往往會偏向于出現(xiàn)樣本數(shù)量較多的類別,而忽略數(shù)量較少的類別。為了避免這種情況,可以采取過采樣、欠采樣、生成合成樣本等技術(shù)來平衡數(shù)據(jù)集,以保證各個類別的樣本能夠得到充分的訓練和學習。

數(shù)據(jù)集集成:

數(shù)據(jù)集集成是將不同數(shù)據(jù)源的數(shù)據(jù)整合和融合成一個統(tǒng)一的數(shù)據(jù)集。在實際應用中,常常需要從多個數(shù)據(jù)源中收集數(shù)據(jù),這些數(shù)據(jù)可能具有不同的格式、結(jié)構(gòu)和特征。數(shù)據(jù)集集成的過程包括數(shù)據(jù)匹配、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)合并等操作,以創(chuàng)建一個更全面、更豐富的數(shù)據(jù)集來支持模型訓練和應用。

數(shù)據(jù)管理:

數(shù)據(jù)管理涉及對數(shù)據(jù)資源的組織、存儲、訪問和更新等方面。數(shù)據(jù)應該以適當?shù)姆绞竭M行組織和結(jié)構(gòu)化,以便于后續(xù)的數(shù)據(jù)處理和分析。這里的數(shù)據(jù)管理不是針對某一個數(shù)據(jù)集或者某一個數(shù)據(jù)預處理階段的管理,而是指對數(shù)據(jù)整個生命周期的管理和控制,包括數(shù)據(jù)策略制定、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全性和合規(guī)性等方面。通過數(shù)據(jù)治理,可以確保數(shù)據(jù)的一致性、準確性和可信度,提高數(shù)據(jù)處理和模型應用的可靠性和效果。

數(shù)據(jù)集并非一成不變,隨著時間的推移和實際應用的需求,數(shù)據(jù)集可能需要進行更新和迭代。這包括添加新的樣本、修改標注、修正錯誤等操作。因此,在數(shù)據(jù)管理的過程中,數(shù)據(jù)的版本控制和追蹤是非常重要的。由于數(shù)據(jù)可能會經(jīng)歷多個階段的處理和改動,保留每個階段的數(shù)據(jù)版本能夠幫助追溯數(shù)據(jù)的來源、變化和處理過程,提高數(shù)據(jù)處理的可重現(xiàn)性和可追溯性。數(shù)據(jù)版本控制還有助于團隊協(xié)作和復現(xiàn)研究結(jié)果。

對于大規(guī)模的數(shù)據(jù)集和復雜的數(shù)據(jù)處理流程,數(shù)據(jù)文檔和元數(shù)據(jù)管理起著重要的作用。通過記錄和管理數(shù)據(jù)的文檔、描述、屬性和關系等元數(shù)據(jù)信息,可以方便地了解數(shù)據(jù)集的結(jié)構(gòu)、含義和使用方式。數(shù)據(jù)文檔和元數(shù)據(jù)管理有助于數(shù)據(jù)的搜索、索引和共享,減少數(shù)據(jù)處理的時間和成本。同時,它還可以提供數(shù)據(jù)的可追溯性和可重復性,支持科學研究和業(yè)務決策的透明性。

數(shù)據(jù)管理還包括數(shù)據(jù)備份和恢復的問題。數(shù)據(jù)備份和恢復是保障數(shù)據(jù)安全性和可用性的重要措施。在數(shù)據(jù)處理過程中,及時對數(shù)據(jù)進行備份,并采取合適的存儲和恢復策略,以應對數(shù)據(jù)丟失、損壞或泄露等風險。數(shù)據(jù)備份也有助于追溯數(shù)據(jù)的歷史狀態(tài),支持數(shù)據(jù)版本控制和數(shù)據(jù)審計的需求。

數(shù)據(jù)管理還包括安全性和隱私保護等問題,確保數(shù)據(jù)的安全性和合規(guī)性。這包括對敏感信息的處理、數(shù)據(jù)脫敏、匿名化和數(shù)據(jù)訪問權(quán)限的控制等。在數(shù)據(jù)處理和使用過程中,需要確保數(shù)據(jù)的訪問和權(quán)限受到適當?shù)墓芾砗涂刂?。這包括設定數(shù)據(jù)訪問權(quán)限、加密數(shù)據(jù)傳輸、監(jiān)控數(shù)據(jù)訪問和使用情況等措施,以保護數(shù)據(jù)的安全性和隱私性。

數(shù)據(jù)的監(jiān)控和維護也是數(shù)據(jù)生命周期管理的重要環(huán)節(jié)。持續(xù)地監(jiān)控數(shù)據(jù)的質(zhì)量、準確性和完整性,及時發(fā)現(xiàn)和解決數(shù)據(jù)質(zhì)量問題,確保數(shù)據(jù)的可靠性和可用性。數(shù)據(jù)監(jiān)控也可以幫助我們評估模型的穩(wěn)定性和魯棒性,進行模型的迭代和優(yōu)化。

數(shù)據(jù)處理自動化

在整個數(shù)據(jù)預處理過程中,合理采用自動化數(shù)據(jù)處理會事半功倍。可以建立數(shù)據(jù)管道和自動化工作流。數(shù)據(jù)管道是將不同的數(shù)據(jù)處理步驟和操作串聯(lián)起來,形成一個有序的數(shù)據(jù)處理流程。自動化工作流可以利用腳本、工具或平臺來自動執(zhí)行數(shù)據(jù)處理任務,減少手動操作和減輕重復性工作的負擔。在進行數(shù)據(jù)預處理和數(shù)據(jù)準備時,可以利用各種工具和技術(shù)來簡化和加速工作流程。例如,使用Python編程語言的數(shù)據(jù)處理庫(如NumPy、Pandas)和機器學習庫(如Scikit-learn、TensorFlow、PyTorch)可以方便地進行數(shù)據(jù)操作和模型構(gòu)建。ETL(抽取、轉(zhuǎn)換、加載)工具可以幫助提取數(shù)據(jù)、進行轉(zhuǎn)換和整合,并加載到目標系統(tǒng)中。此外,還有專門用于數(shù)據(jù)清洗和特征工程的工具(如OpenRefine、Featuretools)、自動化工作流平臺(如Apache Airflow、Kubeflow)等,這些工具可以減少手動操作、減輕人工工作的負擔,并提高數(shù)據(jù)處理的一致性和準確性。也可以提高數(shù)據(jù)處理的效率和可靠性。

在數(shù)據(jù)管理過程中,數(shù)據(jù)可視化和探索性分析是非常有益的工具。通過可視化方法,可以直觀地展現(xiàn)數(shù)據(jù)的分布、關系和特征,幫助發(fā)現(xiàn)數(shù)據(jù)中的模式、異常和趨勢。探索性分析可以幫助我們更好地理解數(shù)據(jù)集,指導后續(xù)的數(shù)據(jù)處理和模型構(gòu)建。通過繪制圖表、熱力圖、散點圖等可視化方式,可以直觀地展示數(shù)據(jù)的分布、關系和變化趨勢。常見的數(shù)據(jù)可視化工具包括Matplotlib、Seaborn、Tableau等。

總結(jié)起來,數(shù)據(jù)預處理和數(shù)據(jù)準備是數(shù)據(jù)科學和機器學習領域中不可或缺的環(huán)節(jié)。通過合理的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)整合和數(shù)據(jù)轉(zhuǎn)換等步驟,可以獲取高質(zhì)量的數(shù)據(jù),并為后續(xù)的分析、建模和應用打下堅實的基礎。在處理數(shù)據(jù)的過程中,需要考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)隱私、可重復性、資源管理、培訓和知識傳承等方面的問題和挑戰(zhàn)。通過綜合應用適當?shù)募夹g(shù)、方法和工具,可以克服這些挑戰(zhàn),并獲得可信、高效和可解釋的數(shù)據(jù)處理結(jié)果。

3. 數(shù)據(jù)預處理的生態(tài)企業(yè)

專注于數(shù)據(jù)預處理的公司有很多,大多數(shù)都是初創(chuàng)公司。比如:Scale AI、Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。這塊兒的工作在起步階段大量依賴于外包人工標記數(shù)據(jù),類似于包工頭的角色,所以有豐富外包管理經(jīng)驗的公司,轉(zhuǎn)型做數(shù)據(jù)預處理,也相對比較容易上手。

這塊兒當前做的最為突出的就是Alexandr Wang的Scale AI。成立于2016 年,當前估值 73 億美金,ARR (年度重復收入)占比不高,只有 3 億美金。Scale AI 核心業(yè)務為數(shù)據(jù)標注,從自動駕駛場景起家,后切入政府、電商、機器人、大模型等場景,分別對應著過去 AI 行業(yè)幾次大機會的出現(xiàn)。Scale 從自動駕駛領域的標注起家,在自動駕駛、地圖等行業(yè)表現(xiàn)很好,兩年前,公司 80-90% 的訂單都來自自動駕駛(2D、3D、激光雷達等),該比例近年有所下降。Scale AI 在每波大趨勢到來時都能快速捕捉機會,推出相應的產(chǎn)品,在細分領域迅速做到極高的市場份額。

除了專門做數(shù)據(jù)預處理的創(chuàng)業(yè)公司之外,很大大廠都在自建數(shù)據(jù)標注團隊,或者自建平臺以掌握預處理數(shù)據(jù)的掌控權(quán)。如果這些大廠,在商業(yè)模式的運作上,降維打擊這些創(chuàng)業(yè)公司,很有可能會擠壓創(chuàng)業(yè)公司的市場空間。這個未來存在一定程度的博弈。

數(shù)據(jù)預處理賽道有規(guī)模效應。客戶對數(shù)據(jù)預處理的關注點主要在“質(zhì)量”和“效率”兩個方面,由于數(shù)據(jù)預處理愛很多方面,特別是數(shù)據(jù)標注領域,不是高技術(shù)含量的工作,因此經(jīng)驗對質(zhì)量和效率的提升就起到關鍵作用。這里的經(jīng)驗又包括工人標注數(shù)據(jù)的經(jīng)驗,以及 整套流程和管理體系的經(jīng)驗。規(guī)模越大,預處理的數(shù)據(jù)量越多,經(jīng)驗就越成熟、越豐富,預處理數(shù)據(jù)的質(zhì)量和效率就越高,這里是個正向飛輪。所以誰作為頭部玩家跑的最快,就越容易形成差異化的競爭優(yōu)勢,這個和OpenAI的路數(shù)是一樣的。

4. 數(shù)據(jù)預處理——充滿生命力的生態(tài)系統(tǒng)

根據(jù)Grand View Research的報告,預計到2028年,全球數(shù)據(jù)預處理市場的價值將達到1,848億美元。MarketsandMarkets的報告預測,到2026年,全球數(shù)據(jù)預處理市場的價值將達到1,759億美元,以每年約18.2%的復合年增長率增長。Allied Market Research的報告預測,到2027年,全球數(shù)據(jù)預處理市場的價值將超過1,500億美元。

不管是哪個市場預測,數(shù)據(jù)預處理都有著令人振奮的未來前景。數(shù)據(jù)預處理公司將如忙碌的蜜蜂一樣,不斷采集、清洗、標注和優(yōu)化海量的原始數(shù)據(jù)。他們將發(fā)揮關鍵作用,為人工智能的成長提供養(yǎng)分,將原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的訓練數(shù)據(jù),為深度學習模型提供堅實的基礎。

隨著時間的推移,這個生態(tài)系統(tǒng)將變得更加完善和成熟。數(shù)據(jù)預處理的流程將變得更加高效、精確和可靠,也會更加自動化,甚至也會變得更為智能。相信這個生態(tài)系統(tǒng)將激發(fā)出更多創(chuàng)新的想法和應用,讓人們更好地利用數(shù)據(jù)驅(qū)動的智能系統(tǒng)來解決現(xiàn)實世界的各種挑戰(zhàn)。讓我們拭目以待吧!


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源技術(shù)

    關注

    0

    文章

    389

    瀏覽量

    8768
  • OpenHarmony
    +關注

    關注

    33

    文章

    3979

    瀏覽量

    21391

原文標題:河套IT TALK 88:(原創(chuàng))數(shù)據(jù)預處理:成功AI大模型的基石

文章出處:【微信號:開源技術(shù)服務中心,微信公眾號:共熵服務中心】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI Ceph 分布式存儲教程資料大模型學習資料2026

    瓶頸:從傳統(tǒng)存儲向 AI 專用架構(gòu)演進 在大模型訓練場景下,計算節(jié)點(GPU)的運算速度極快,往往在毫秒級就能完成一輪數(shù)據(jù)處理。如果后端存儲無法跟上這一速度,GPU 就會處于空轉(zhuǎn)等
    發(fā)表于 05-01 17:35

    HM博學谷狂野AI模型第四期

    “如何使用”徹底轉(zhuǎn)向“底層源碼拆解”,引領開發(fā)者深入 AI 的核心腹地。 一、 穿透架構(gòu)迷霧:Transformer 原理的代碼級重構(gòu) 大模型的智能基石是 Transformer 架構(gòu),但教科書
    發(fā)表于 05-01 17:30

    Java并發(fā)編程的“基石”——多線程概念初識

    AI 算力調(diào)度底層:Java 并發(fā)基石與未來技術(shù)融合 當我們在屏幕前流暢地與大語言模型對話,或是看著自動駕駛系統(tǒng)瞬間處理海量視覺數(shù)據(jù)時,往
    發(fā)表于 04-16 18:50

    AI模型微調(diào)企業(yè)項目實戰(zhàn)課

    數(shù)據(jù)、懂業(yè)務的“AI 架構(gòu)師”。當企業(yè)真正掌握了從開源基座到專屬模型的轉(zhuǎn)化能力時,就擁有了抵御外部不確定性的最強護城河。筑牢自主可控的 AI 底座,企業(yè)才能在智能化轉(zhuǎn)型的狂飆突進中,將
    發(fā)表于 04-16 18:48

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    調(diào)度與操作系統(tǒng)運行。 2、 10個AI Core (達芬奇架構(gòu),1.08GHz):專為高密度的矩陣運算設計,承擔神經(jīng)網(wǎng)絡推理。 3、 8個Vector Core (1GHz):輔助進行數(shù)據(jù)預處理和向量
    發(fā)表于 03-10 14:19

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    數(shù)據(jù)預處理軟核加速模塊設計

    拼接操作,其預處理模塊結(jié)構(gòu)框圖如下圖 模塊最后得到的信號為ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits圖像數(shù)據(jù),ddr_clk是RAM的出口時鐘,同時引出作為下一模塊的數(shù)據(jù)時鐘,ddr_w
    發(fā)表于 10-29 08:09

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    2)滲透式AI的優(yōu)勢 5、大型多模態(tài)模型 多模態(tài)模型(LMM)可以被理解成大模型的更高級版本,不僅可以處理文本,還可以
    發(fā)表于 09-18 15:31

    如何進行YOLO模型轉(zhuǎn)換?

    (kmodel_data)代碼運行無異常,導出模型大小只有12MB,但在設備中運行模型時間非常長(具體超過5分鐘一次),而后將預處理關閉,則設備中跑模型會報錯 請問,以上問題是哪里的
    發(fā)表于 08-14 06:03

    得瑞領新閃耀2025全球閃存峰會:D8000系列斬獲創(chuàng)新大獎,強勢賦能AI時代數(shù)據(jù)基石

    AI模型的快速迭代到存儲需求的爆發(fā)式增長,得瑞領新正以十年技術(shù)積累,通過低延遲、高可靠的SSD產(chǎn)品,為AI應用筑牢數(shù)據(jù)基石。
    的頭像 發(fā)表于 07-21 16:49 ?763次閱讀
    得瑞領新閃耀2025全球閃存峰會:D8000系列斬獲創(chuàng)新大獎,強勢賦能<b class='flag-5'>AI</b>時代<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>基石</b>

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    在神經(jīng)網(wǎng)絡的計算中廣泛應用,理解矩陣乘法、特征值和特征向量等概念有助于深入掌握深度學習模型的工作原理。 掌握編程語言,如Python和R。Python有豐富的AI庫,如NumPy、Pandas用于數(shù)據(jù)處理
    發(fā)表于 07-08 17:44

    【BPI-CanMV-K230D-Zero開發(fā)板體驗】AI 算法模型(人臉檢測、軀干檢測、車牌識別)

    ],16),display_size[1]] # debug模式 self.debug_mode=debug_mode # 實例化Ai2d,用于實現(xiàn)模型預處理 self.ai2d=
    發(fā)表于 07-05 00:52

    【BPI-CanMV-K230D-Zero開發(fā)板體驗】03 攝像頭調(diào)用+AI人臉檢測

    ,通過 postprocess() 自定義后處理。 2.2 Ai2d 圖像預處理引擎,支持: pad():填充圖像邊緣; resize():縮放圖像; build():構(gòu)建轉(zhuǎn)換流水線(輸入尺寸 →
    發(fā)表于 07-01 22:43

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓練時數(shù)據(jù)集只標注了人臉框和關鍵點,該
    發(fā)表于 06-13 09:07
    宣化县| 白城市| 思茅市| 浪卡子县| 夏邑县| 道孚县| 兰考县| 鄯善县| 如皋市| 晴隆县| 清远市| 涿鹿县| 长乐市| 阿合奇县| 咸宁市| 临猗县| 宜州市| 姚安县| 拜泉县| 宁强县| 江西省| 凉城县| 怀化市| 钦州市| 大埔县| 稻城县| 苏尼特左旗| 毕节市| 遵义县| 余干县| 赤水市| 读书| 云浮市| 沙雅县| 岢岚县| 宁国市| 敦化市| 天镇县| 鹰潭市| 尚义县| 北流市|