日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena

倩倩 ? 來源:IT168 ? 2020-03-20 11:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在eBay上存儲著上億種商品的信息,而且每天有數(shù)百萬種的新商品增加,因此需要用云系統(tǒng)來存儲和處理PB級別的數(shù)據(jù),而Hadoop則是個很好的選擇。

Hadoop是建立在商業(yè)硬件上的容錯、可擴展、分布式的云計算框架,eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:

1)Hadoop核心層,包括Hadoop運行時環(huán)境、一些通用設(shè)施和HDFS,其中文件系統(tǒng)為讀寫大塊數(shù)據(jù)而做了一些優(yōu)化,如將塊的大小由128MB改為256MB。

2)MapReduce層,為開發(fā)和執(zhí)行任務(wù)提供API和控件。

3)數(shù)據(jù)獲取層,現(xiàn)在數(shù)據(jù)獲取層的主要框架是HBase、Pig和Hive:

·HBase是根據(jù)Google BigTable開發(fā)的按列存儲的多維空間數(shù)據(jù)庫,通過維護數(shù)據(jù)的劃分和范圍提供有序的數(shù)據(jù),其數(shù)據(jù)儲存在HDFS上。

·Pig(Latin)是提供加載、篩選、轉(zhuǎn)換、提取、聚集、連接、分組等操作的面向過程的語言,開發(fā)者使用Pig建立數(shù)據(jù)管道和數(shù)據(jù)工廠。

·Hive是用于建立數(shù)據(jù)倉庫的使用SQL語法的聲明性語言。對于開發(fā)者、產(chǎn)品經(jīng)理和分析師來說,SQL接口使得Hive成為很好的選擇。

4)工具和加載庫層,UC4是eBay從多個數(shù)據(jù)源自動加載數(shù)據(jù)的企業(yè)級調(diào)度程序。加載庫有:統(tǒng)計庫(R)、機器學習庫(Mahout)、數(shù)學相關(guān)庫(Hama)和eBay自己開發(fā)的用于解析網(wǎng)絡(luò)日志的庫(Mobius)。

5)監(jiān)視和警告層,Ganglia是分布式集群的監(jiān)視系統(tǒng),Nagios則用來警告一些關(guān)鍵事件如服務(wù)器不可達、硬盤已滿等。

eBay的企業(yè)服務(wù)器運行著64位的RedHat Linux

·NameNode負責管理HDFS的主服務(wù)器;

·JobTracker負責任務(wù)的協(xié)調(diào);

·HBaseMaster負責存儲HBase存儲的根信息,并且方便與數(shù)據(jù)塊或存取區(qū)域進行協(xié)調(diào);

·ZooKeeper是保證HBase一致性的分布式鎖協(xié)調(diào)器。

用于存儲和計算的節(jié)點是1U大小的運行Cent OS的機器,每臺機器擁有2個四核處理器和2TB大小的存儲空間,每38~42個節(jié)點單元為一個rack,這組建成了高密度網(wǎng)格。有關(guān)網(wǎng)絡(luò)方面,頂層rack交換機到節(jié)點的帶寬為1Gbps,rack交換機到核心交換機的帶寬為40Gpbs。

這個集群是eBay內(nèi)多個團隊共同使用的,包括產(chǎn)品和一次性任務(wù)。這里使用Hadoop公平調(diào)度器(Fair Scheduler)來管理分配、定義團隊的任務(wù)池、分配權(quán)限、限制每個用戶和組的并行任務(wù)、設(shè)置優(yōu)先權(quán)期限和延遲調(diào)度。

▲數(shù)據(jù)流

數(shù)據(jù)流的具體處理過程如上圖所示,系統(tǒng)每天需要處理8TB至10TB的新數(shù)據(jù),而Hadoop主要用于:

·基于機器學習的排序,使用Hadoop計算需要考慮多個因素(如價格、列表格式、賣家記錄、相關(guān)性)的排序函數(shù),并需要添加新因素來驗證假設(shè)的擴展功能,以增強eBay物品搜索的相關(guān)性。

·對物品描述數(shù)據(jù)的挖掘,在完全無人監(jiān)管的方式下使用數(shù)據(jù)挖掘和機器學習技術(shù)將物品描述清單轉(zhuǎn)化為與物品相關(guān)的鍵/值對,以擴大分類的覆蓋范圍。

·eBay的研究人員在系統(tǒng)構(gòu)建和使用過程中遇到的挑戰(zhàn)及一些初步計劃有以下幾個方面:

·可擴展性,當前主系統(tǒng)的NameNode擁有擴展的功能,隨著集群的文件系統(tǒng)不斷增長,需要存儲大量的元數(shù)據(jù),所以內(nèi)存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內(nèi)存量,可能的解決方案是使用等級結(jié)構(gòu)的命名空間劃分,或者使用HBase和ZooKeeper聯(lián)合對元數(shù)據(jù)進行管理。

·有效性,NameNode的有效性對產(chǎn)品的工作負載很重要,開源社區(qū)提出了一些備用選擇,如使用檢查點和備份節(jié)點、從Secondary NameNode中轉(zhuǎn)移到Avatar節(jié)點、日志元數(shù)據(jù)復制技術(shù)等。eBay研究人員根據(jù)這些方法建立了自己的產(chǎn)品集群。

·數(shù)據(jù)挖掘,在存儲非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)上建立支持數(shù)據(jù)管理、數(shù)據(jù)挖掘和模式管理的系統(tǒng)。新的計劃提議將Hive的元數(shù)據(jù)和Owl添加到新系統(tǒng)中,并稱為Howl。eBay研究人員努力將這個系統(tǒng)聯(lián)系到分析平臺上去,這樣用戶可以很容易地在不同的數(shù)據(jù)系統(tǒng)中挖掘數(shù)據(jù)。

·數(shù)據(jù)移動,eBay研究人員考慮發(fā)布數(shù)據(jù)轉(zhuǎn)移工具,這個工具可以支持在不同的子系統(tǒng)如數(shù)據(jù)倉庫和HDFS之間進行數(shù)據(jù)的復制。

·策略,通過配額實現(xiàn)較好的歸檔、備份等策略(Hadoop現(xiàn)有版本的配額需要改進)。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。

·標準,eBay研究人員開發(fā)健壯的工具來為數(shù)據(jù)來源、消耗情況、預(yù)算情況、使用情況等進行度量。

同時eBay正在改變收集、轉(zhuǎn)換、使用數(shù)據(jù)的方式,以提供更好的商業(yè)智能服務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95056
  • 機器學習
    +關(guān)注

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137256
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    17005
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    國內(nèi)最大規(guī)模6萬卡AI4S計算集群投入使用

    4月14日,中科曙光提供的6萬卡科學智能(AI for Science)計算集群系統(tǒng),在位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點投入使用。作為國內(nèi)最大的AI4S計算集群,其以超智融合全棧技術(shù)能力,滿足用戶從
    的頭像 發(fā)表于 04-14 16:19 ?1622次閱讀
    國內(nèi)最<b class='flag-5'>大規(guī)模</b>6萬卡AI4S計算<b class='flag-5'>集群</b>投入使用

    Prometheus千節(jié)點集群的橫向擴展實踐

    在2026年的運維環(huán)境中,千節(jié)點規(guī)模的Kubernetes集群已經(jīng)稀松平常。典型的中大型互聯(lián)網(wǎng)公司,其Kubernetes集群
    的頭像 發(fā)表于 03-31 14:37 ?230次閱讀

    中科曙光scaleX萬卡超集群筑牢超大規(guī)模智算硬核底座

    3月5日,2026年《政府工作報告》為算力產(chǎn)業(yè)劃下重點:深化拓展“人工智能+”,實施超大規(guī)模智算集群、算電協(xié)同等新型基礎(chǔ)設(shè)施工程,并加強全國體化算力監(jiān)測調(diào)度。
    的頭像 發(fā)表于 03-10 14:35 ?858次閱讀

    中科曙光3套scaleX萬卡超集群落地國家超算互聯(lián)網(wǎng)鄭州核心節(jié)點

    2月5日,由中科曙光提供的3套萬卡超集群系統(tǒng)在國家超算互聯(lián)網(wǎng)鄭州核心節(jié)點同時上線試運行,成為全國首個實現(xiàn)3萬卡部署、且實際投入運營的最大國產(chǎn)AI算力池,全面覆蓋萬億參數(shù)模型訓練、高通量推理、AI for Science等大規(guī)模AI計算場景。
    的頭像 發(fā)表于 02-09 10:32 ?748次閱讀

    中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎(chǔ)設(shè)施

    在“人工智能+”行動深入推進的當下,算力基礎(chǔ)設(shè)施已成為國家戰(zhàn)略競爭力的核心,而超大規(guī)模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進階邏輯,重塑超大規(guī)模算力基礎(chǔ)
    的頭像 發(fā)表于 01-30 15:43 ?996次閱讀

    燧原科技榮獲2025年超大規(guī)模智算集群創(chuàng)新應(yīng)用實踐成果

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開2025AI云產(chǎn)業(yè)發(fā)展大會。中國通信標準化協(xié)會理事長聞庫、中國信通院副院長王志勤出席會議并致辭。中國工程院院士鄭緯民作主旨報告。會議期間,發(fā)布了超大規(guī)模智算集群創(chuàng)新應(yīng)用實踐成果,燧原科技國產(chǎn)萬卡推理
    的頭像 發(fā)表于 12-29 09:59 ?534次閱讀
    燧原科技榮獲2025年超<b class='flag-5'>大規(guī)模</b>智算<b class='flag-5'>集群</b>創(chuàng)新應(yīng)用實踐成果

    部分能力超越2027年NVL576,中科曙光發(fā)布scaleX萬卡超集群

    2025年12月18日,在昆山舉行的光合組織2025人工智能創(chuàng)新大會(HAIC2025)上,中科曙光發(fā)布并展出了全球領(lǐng)先的大規(guī)模智能計算系統(tǒng)——scaleX萬卡超集群,這也是國產(chǎn)萬卡級AI集群
    發(fā)表于 12-18 18:30 ?1189次閱讀
    部分能力超越2027年NVL576,中科曙光發(fā)布scaleX萬卡超<b class='flag-5'>集群</b>

    中科曙光AI超集群系統(tǒng)和scaleX640超節(jié)點等產(chǎn)品全面適配DeepSeek V3.2

    層實現(xiàn)“跨層協(xié)同”,曙光AI超集群系統(tǒng)、scaleX640超節(jié)點等產(chǎn)品0day完成對DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶進行全量落地部署。
    的頭像 發(fā)表于 12-05 14:32 ?989次閱讀

    如何獲取易貝EBAY商品詳情 API 返回值說明?

    易貝(eBay)是在線拍賣和購物網(wǎng)站,提供了API(應(yīng)用程序接口)供開發(fā)者獲取商品詳情等信息。使用
    的頭像 發(fā)表于 11-19 11:57 ?582次閱讀

    曙光AI超集群系統(tǒng)全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式發(fā)布并開源,引入創(chuàng)新的稀疏Attention架構(gòu)?;谥袊讉€AI計算開放架構(gòu),芯片層、軟件層、模型層實現(xiàn)“跨層協(xié)同”,使得曙光AI超集群系統(tǒng)完成對DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶進行全量落地部署。
    的頭像 發(fā)表于 09-30 16:18 ?1894次閱讀

    標準集群和虛擬集群的區(qū)別是什么?

    遵循行業(yè)標準就可以互聯(lián)互通。 虛擬集群則是在DMR常規(guī)數(shù)字模式基礎(chǔ)上,通過私有協(xié)議和軟件控制實現(xiàn)的“準集群”功能。它不是官方標準,而是對標準功能的增強,如海能達XPT、北峰SVT、
    的頭像 發(fā)表于 09-19 16:52 ?1034次閱讀
    標準<b class='flag-5'>集群</b>和虛擬<b class='flag-5'>集群</b>的區(qū)別是什么?

    中科曙光發(fā)布國內(nèi)首個開放架構(gòu)AI超集群系統(tǒng)

    9月5日,在2025重慶世界智能產(chǎn)業(yè)博覽會上,中科曙光發(fā)布了國內(nèi)首個基于AI計算開放架構(gòu)設(shè)計的產(chǎn)品——曙光AI超集群系統(tǒng)。該系統(tǒng)以GPU為核心,實現(xiàn)了“算、存、網(wǎng)、電、冷、管、軟”體化緊耦合
    的頭像 發(fā)表于 09-06 09:11 ?1648次閱讀

    使用Ansible實現(xiàn)大規(guī)模集群自動化部署

    當你面對1000+服務(wù)器需要部署時,你還在臺臺手工操作嗎?本文將揭秘如何用Ansible實現(xiàn)大規(guī)模集群的自動化部署,讓運維效率提升10倍!
    的頭像 發(fā)表于 08-27 14:41 ?1025次閱讀

    大規(guī)模部署(如分布式光伏集群)時,裝置的通信網(wǎng)絡(luò)易出現(xiàn)哪些瓶頸(如擁堵、延遲

    LZ-DZ200A側(cè)面 在大規(guī)模分布式光伏集群等場景中,裝置通信網(wǎng)絡(luò)的瓶頸主要源于節(jié)點規(guī)模激增、數(shù)據(jù)量暴增、環(huán)境復雜等特點,具體可從以下維度分析: 、節(jié)點
    的頭像 發(fā)表于 08-22 09:50 ?1078次閱讀
    <b class='flag-5'>大規(guī)模</b>部署(如分布式光伏<b class='flag-5'>集群</b>)時,裝置的通信網(wǎng)絡(luò)易出現(xiàn)哪些瓶頸(如擁堵、延遲

    北京東六環(huán)“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信系統(tǒng)

    FM調(diào)頻廣播應(yīng)急系統(tǒng)、350M公安消防集群系統(tǒng)、400M調(diào)度對講系統(tǒng)、800M政務(wù)集群系統(tǒng)
    的頭像 發(fā)表于 05-12 14:31 ?1593次閱讀
    北京東六環(huán)“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信<b class='flag-5'>系統(tǒng)</b>”
    区。| 枣庄市| 凤冈县| 连州市| 苏州市| 永善县| 西丰县| 安仁县| 弥勒县| 栾城县| 滨州市| 渝中区| 崇明县| 铁岭市| 曲周县| 深水埗区| 白银市| 新宾| 岢岚县| 乌拉特前旗| 稷山县| 东兰县| 无极县| 涟水县| 灵武市| 高阳县| 嵊泗县| 墨竹工卡县| 铜鼓县| 金阳县| 灵武市| 阿坝| 阿拉尔市| 东源县| 孝昌县| 财经| 容城县| 临高县| 沭阳县| 墨玉县| 永新县|