(文章來(lái)源:百家號(hào))
從自動(dòng)駕駛汽車等基于AI的大規(guī)模技術(shù)革命到構(gòu)建非常簡(jiǎn)單的算法,您都需要正確格式的數(shù)據(jù)。實(shí)際上,特斯拉和福特一直在通過(guò)行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對(duì)其進(jìn)行分析以制造出無(wú)人駕駛和全自動(dòng)汽車,以確保安全的道路。
收集數(shù)據(jù)之后的下一步是準(zhǔn)備數(shù)據(jù)的過(guò)程,這將成為本文的重點(diǎn),并將在后續(xù)部分中詳細(xì)討論。在深入研究數(shù)據(jù)準(zhǔn)備過(guò)程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學(xué)家,您需要了解數(shù)據(jù)準(zhǔn)備的重要性,以實(shí)現(xiàn)模型所需的認(rèn)知能力。
什么是數(shù)據(jù)準(zhǔn)備?數(shù)據(jù)是每個(gè)組織的寶貴資源。但是,如果我們不進(jìn)一步分析該聲明,它可能會(huì)否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務(wù)決策,執(zhí)行成功的銷售和營(yíng)銷活動(dòng)等。但是,這些不能僅用原始數(shù)據(jù)來(lái)實(shí)現(xiàn)。
數(shù)據(jù)只有經(jīng)過(guò)清洗,貼標(biāo)簽,注釋和準(zhǔn)備后,才能成為寶貴的資源。數(shù)據(jù)經(jīng)過(guò)適應(yīng)性測(cè)試的各個(gè)階段后,便最終具備進(jìn)行進(jìn)一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫(kù),開(kāi)發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。
現(xiàn)在,重要的是您從此信息的分析中收集的見(jiàn)解是準(zhǔn)確且值得信賴的。實(shí)現(xiàn)此輸出的基礎(chǔ)在于數(shù)據(jù)的健康狀況。此外,無(wú)論您是構(gòu)建自己的模型還是從第三方那里獲得模型,都必須確保標(biāo)記,擴(kuò)充,干凈,結(jié)構(gòu)化的整個(gè)過(guò)程背后的數(shù)據(jù)都經(jīng)過(guò)標(biāo)記,概括,即數(shù)據(jù)準(zhǔn)備。
正如Wikipedia所定義的,數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)(可能來(lái)自不同的數(shù)據(jù)源)操縱(或預(yù)處理)為可以方便,準(zhǔn)確地進(jìn)行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)分析項(xiàng)目的第一步,可以包括許多離散任務(wù),例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)交付。
根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機(jī)構(gòu)和最終用戶企業(yè)的響應(yīng),以識(shí)別在標(biāo)記,注釋,清理,擴(kuò)充和豐富機(jī)器學(xué)習(xí)模型的數(shù)據(jù)上花費(fèi)了大量時(shí)間。數(shù)據(jù)科學(xué)家80%以上的時(shí)間都花在準(zhǔn)備數(shù)據(jù)上。盡管這是一個(gè)好兆頭,但考慮到隨著良好的數(shù)據(jù)進(jìn)入建立分析模型,準(zhǔn)確的人會(huì)得到輸出。但是,理想情況下,數(shù)據(jù)科學(xué)家應(yīng)該將更多的時(shí)間花在與數(shù)據(jù)交互,高級(jí)分析,培訓(xùn)和評(píng)估模型以及部署到生產(chǎn)上。
只有20%的時(shí)間進(jìn)入流程的主要部分。為了克服時(shí)間限制,組織需要利用用于數(shù)據(jù)工程,標(biāo)記和準(zhǔn)備的專家解決方案來(lái)減少在清理,擴(kuò)充,標(biāo)記和豐富數(shù)據(jù)上花費(fèi)的時(shí)間(取決于項(xiàng)目的復(fù)雜性)。這將我們帶入了“垃圾中的垃圾”概念,即輸出的質(zhì)量取決于輸入的質(zhì)量。數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過(guò)程,通常是從非結(jié)構(gòu)化源(如網(wǎng)頁(yè),PDF文檔,假脫機(jī)文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡(luò)中提取信息的過(guò)程稱為網(wǎng)絡(luò)刮。
數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質(zhì)量并通過(guò)格式帶來(lái)結(jié)構(gòu)的過(guò)程。這有助于評(píng)估質(zhì)量和對(duì)特定標(biāo)準(zhǔn)的一致性。當(dāng)數(shù)據(jù)集不平衡且配置不當(dāng)時(shí),大多數(shù)機(jī)器學(xué)習(xí)模型將無(wú)法正常工作。數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無(wú)錯(cuò)誤,并提供準(zhǔn)確的信息,因?yàn)樗粌H可以檢測(cè)文本和數(shù)字的異常值,還可以檢測(cè)圖像中無(wú)關(guān)的像素。您可以消除偏見(jiàn)和過(guò)時(shí)的信息,以確保您的數(shù)據(jù)是干凈的。
數(shù)據(jù)轉(zhuǎn)換是對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉(zhuǎn)換有助于對(duì)此進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化。數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個(gè)人信息以保護(hù)隱私的過(guò)程。數(shù)據(jù)擴(kuò)充用于使可用于訓(xùn)練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
數(shù)據(jù)采樣識(shí)別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。特征工程是將機(jī)器學(xué)習(xí)模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準(zhǔn)確性,您可以將數(shù)據(jù)集合并以將其合并為一個(gè)。
(責(zé)任編輯:fqj)
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7357瀏覽量
95108 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8569瀏覽量
137352
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器學(xué)習(xí)中的數(shù)據(jù)質(zhì)量雙保障:從“驗(yàn)證”到“標(biāo)記”
機(jī)器視覺(jué)鏡頭如何發(fā)現(xiàn)深海沉船
機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性
鶴山它人機(jī)器人項(xiàng)目正式投產(chǎn)
穿孔機(jī)頂頭檢測(cè)儀 機(jī)器視覺(jué)深度學(xué)習(xí)
探索RISC-V在機(jī)器人領(lǐng)域的潛力
量子機(jī)器學(xué)習(xí)入門(mén):三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用
入行嵌入式應(yīng)該怎么準(zhǔn)備?
【「Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗(yàn)】+基礎(chǔ)概念學(xué)習(xí)理解
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無(wú)標(biāo)簽異常檢測(cè)系統(tǒng)
使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)中的數(shù)據(jù)準(zhǔn)備,為什么它如此重要
評(píng)論