編者按:MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見,缺乏良好的數(shù)據(jù)收集、整理、儲存過程,數(shù)據(jù)分析的結(jié)果只能是垃圾。
大約四年前,興起了數(shù)據(jù)科學(xué)家這一不可或缺的行當(dāng)。搞技術(shù)的紛紛扔掉讀大學(xué)時老舊的統(tǒng)計(jì)學(xué)課本,花了很多時間重新學(xué)習(xí)Python Pandas和R,還有最新的機(jī)器學(xué)習(xí)理論,添置了新款的白大褂。我知道我就是這么做的。
如果你曾經(jīng)是個Hadoop開發(fā)者,那數(shù)據(jù)科學(xué)也是一個好去處。畢竟所有人都以為不會map/reduce的數(shù)據(jù)科學(xué)家不是一個好數(shù)據(jù)科學(xué)家。這甚至可能延緩即將到來的Hadoop企業(yè)的崩潰到幾年之后,伴隨著印度程序員作坊大量炮制數(shù)以千計(jì)的新Hadoop程序員和數(shù)據(jù)科學(xué)“專家”,以趕上下一個大趨勢。
公司以最高的價格為此買單。Nasdaq上的每家公司都給數(shù)據(jù)科學(xué)家開出高薪,以免因?yàn)楹笾笥X而受到競爭對手的沖擊。同時銷售經(jīng)理和C開頭的那些執(zhí)行官也可以指望早上啟動iPad后可以實(shí)時看到公司運(yùn)轉(zhuǎn)得有多好??刂泼姘逶?jīng)變成一大社會地位象征——資深的執(zhí)行官享有超級奢侈的執(zhí)行面板,基于3D可視化技術(shù)和實(shí)時動畫散點(diǎn)圖,而相對初級的同事得到的是2D平面版本,只有最少的總結(jié)。
然而,到目前為止,并沒有什么真正的改變。數(shù)據(jù)科學(xué)家(大多數(shù)是高學(xué)歷人士,在制藥分析和高級材料工程這樣的領(lǐng)域具有多年經(jīng)驗(yàn))將逐漸意識到,他們需要處理的數(shù)據(jù)的質(zhì)量……好吧,不帶任何貶低地說,糟透了。人們被引導(dǎo)了,相信因?yàn)樗麄冇斜椴几魈幍某汕€數(shù)據(jù)庫,因此他們的組織有海量的數(shù)據(jù),并且大部分——如果不是全部的話——數(shù)據(jù)是有價值的。
那些數(shù)據(jù)科學(xué)家將發(fā)現(xiàn),情況與此相反,大部分?jǐn)?shù)據(jù)都是過時的,格式不對,數(shù)據(jù)模型適用于創(chuàng)建數(shù)據(jù)的程序員當(dāng)時需要的應(yīng)用。大量數(shù)據(jù)是在電子表格中,在缺乏任何流程、控制和遠(yuǎn)見的情況下,被反復(fù)修改。這些記錄離真相很遠(yuǎn),有太多數(shù)據(jù)是缺乏文檔的一次性數(shù)據(jù),列名會是MFGRTL3QREVPRJ之類的,鍵也絕對是不一致的。
換句話說,他們擁有的數(shù)據(jù)基本上對任何分析而言都毫無用處,離那些擅長制藥試驗(yàn)日常測試結(jié)果分析的人心目中的分析更是差了十萬八千里。
現(xiàn)在你拿著15萬美元的年薪為業(yè)務(wù)代表提供控制面板,這些業(yè)務(wù)代表對統(tǒng)計(jì)學(xué)一無所知,但對需要百萬美元和授權(quán)才能玩轉(zhuǎn)的事情無能為力。你的數(shù)據(jù)雜亂不堪,還有相當(dāng)多的數(shù)據(jù)完全無用,但是說服業(yè)務(wù)代表重建數(shù)據(jù)庫會嚇哭他們的,因?yàn)檫@需要幾百萬美元,而且看起來并不必要。你當(dāng)然可以直接向他們?nèi)鲋e,草草裝配一個隨機(jī)數(shù)生成器,說不定提供給他們的數(shù)據(jù)還比他們知道得要準(zhǔn)確一點(diǎn)。但和數(shù)據(jù)打交道的人可不習(xí)慣撒謊,因?yàn)檫@和他們的基本目標(biāo)——盡可能地精確背道而馳。那么你會怎么做?
現(xiàn)在我得戴上我語義布道師的帽子,告訴你應(yīng)該開發(fā)一個語義數(shù)據(jù)倉庫。你真的應(yīng)該這么干,它并不沒有那么難,卻能提供一些實(shí)實(shí)在在的收益。不過我也會說它不是一個魔法般的解決方案。它讓你更容易以易于處理的格式獲取數(shù)據(jù)(或者有助于查明哪些數(shù)據(jù)是垃圾,可以直接刪除)。然而,現(xiàn)實(shí)是,這并不是一個數(shù)據(jù)科學(xué)問題——這是一個數(shù)據(jù)品質(zhì)和本體工程問題。
所以,讓我說得更清楚一點(diǎn),讓那些穿著執(zhí)行官的衣服的人也可以理解。你有數(shù)據(jù)問題。你的數(shù)據(jù)科學(xué)家具備各種有用的工具可以呈上數(shù)據(jù)分析的結(jié)果,然而沒有優(yōu)質(zhì)的數(shù)據(jù),他們產(chǎn)出的東西完全是無意義的。這不是他們的錯。這是你的錯,你期望酷炫的控制面板能為你贏得一千萬美元的合同的每一天,都是在浪費(fèi)時間,都是看著錢從你那里流走的一天。
你的工作可不簡單。你需要做的是首先確定你實(shí)際需要追蹤的信息,接著花時間和你的數(shù)據(jù)科學(xué)家以及數(shù)據(jù)本體學(xué)家(data ontologist)討論下需要哪些數(shù)據(jù)。別指望指著一個數(shù)據(jù)庫,然后數(shù)據(jù)會魔法般地出現(xiàn)在那里。
數(shù)據(jù)庫總的來說是讓程序員用來編寫應(yīng)用的,而不是提供公司內(nèi)部的深層測度的。坐下來查看下你現(xiàn)在具備的資源,你需要理解那些依賴這些數(shù)據(jù)庫完成他們的工作的人會非常不情愿給你訪問權(quán)限,特別是這些權(quán)限可能導(dǎo)致他們擔(dān)責(zé)的時候。此外,你還需理解大多數(shù)數(shù)據(jù)庫的文檔都很糟糕(這已經(jīng)算好的了,其實(shí)大多數(shù)數(shù)據(jù)庫根本沒有文檔),因此需要基于隱晦的參考進(jìn)行偵破。這稱為病理計(jì)算,大多數(shù)程序員都討厭干這個,因?yàn)檫@意味著猜測其他程序員的大腦,這些程序員很可能已經(jīng)離職了,水平不明,忘記了十年寫的東西是什么意思。
關(guān)系數(shù)據(jù)湖(relational data lake)并沒有解決這個問題。數(shù)據(jù)湖解決的問題是讓同一個主機(jī)可以訪問所有數(shù)據(jù)。對于病理計(jì)算而言,這是必要的部分,但它既不是最難的部分,也不是最昂貴的部分。最昂貴的部分是搞明白數(shù)據(jù)到底意味著什么,甚至僅僅是識別出分散的數(shù)據(jù)集談?wù)摰耐患?。這一問題沒有現(xiàn)成的解決方案,如果任何人告訴你有,那他們在忽悠你。
我要再一次植入語義方案的廣告——graph triple store、RDF、ontology management等等。這些不是開箱即用的解決方案,卻是使病理分析得以實(shí)行的工具,并能將管理這些過程的手段交到程序員手中。
然而,你需要理解,這一切經(jīng)常需要你重新思考數(shù)據(jù)流的整個流程,理解在一開始如何捕獲信息并及早傳入合適的管道。它需要你的程序員和數(shù)據(jù)庫管理員放棄部分自治,基于一個中央化的聯(lián)合存儲工作。它也意味著你作為執(zhí)行官需要更熟悉數(shù)據(jù)管理和數(shù)據(jù)來源。
對大多數(shù)商業(yè)人員而言,這都是一個相當(dāng)激進(jìn)的轉(zhuǎn)變,比讓部分商業(yè)人員做一些IT工作要激進(jìn)得多。然而,今天的商業(yè)正在轉(zhuǎn)變(大部分已經(jīng)轉(zhuǎn)變)為碰巧銷售貨物或服務(wù)的數(shù)據(jù)管理公司。比起管理銷售,今天的CEO的角色需要更多地關(guān)注所在組織的數(shù)據(jù)輸入和輸出,確保數(shù)據(jù)的品質(zhì)盡可能好。這并不僅僅是為了應(yīng)對合規(guī)性要求,而是因?yàn)閿?shù)據(jù)的完整性對這些公司在市場上的成功至關(guān)重要。
這意味著你需要和你的執(zhí)行數(shù)據(jù)團(tuán)隊(duì)確定你需要知道和想要知道的信息的范圍,以及哪些信息是無關(guān)的,然后確立必要的流程收集和商業(yè)需求相關(guān)的數(shù)據(jù)。直接指向數(shù)據(jù)庫的一個接口,提取它的內(nèi)容,除了增加磁盤存儲開銷外毫無影響,雇傭數(shù)據(jù)科學(xué)家分析垃圾數(shù)據(jù)只會產(chǎn)生垃圾分析。如果你在意的話,它可能很美觀,充斥著梯度和3D特效,但毫無作用。
-
數(shù)據(jù)收集
+關(guān)注
關(guān)注
0文章
73瀏覽量
11776 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8569瀏覽量
137335
原文標(biāo)題:為什么你不需要數(shù)據(jù)科學(xué)家
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔(成為架構(gòu)師也是電子人不錯的選...
后臺架構(gòu)師-JAVA
關(guān)于架構(gòu)師的詳細(xì)介紹
架構(gòu)師的能力鍛煉
好的架構(gòu)師為什么是出色的程序員
女性會更適合做架構(gòu)師?
怎樣成為軟件架構(gòu)師
大數(shù)據(jù)架構(gòu)師的職責(zé)有哪些
開發(fā)工程師和架構(gòu)師的區(qū)別
什么是 SoC 設(shè)計(jì)中的系統(tǒng)架構(gòu)師?
MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見
評論