日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云計算數(shù)據(jù)壓縮方案

共熵服務(wù)中心 ? 來源:未知 ? 2022-12-14 19:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1d499454-7ba0-11ed-8abf-dac502259ad0.png

文章轉(zhuǎn)發(fā)自51CTO【ELT.ZIP】OpenHarmony啃論文俱樂部——《云計算數(shù)據(jù)壓縮方案》

1.技術(shù)DNA

1de4ed00-7ba0-11ed-8abf-dac502259ad0.png

2. 智慧場景

1e18e880-7ba0-11ed-8abf-dac502259ad0.jpg

3.前言概覽

近年來,相機、衛(wèi)星、地震監(jiān)測等傳感設(shè)備產(chǎn)生了大量的流數(shù)據(jù)。云計算技術(shù)使這些流數(shù)據(jù)的存儲、訪問和管理變得更加容易,也降低了成本。其中,云存儲系統(tǒng)成為在各種云服務(wù)器上存儲數(shù)據(jù)塊的一種有前途的技術(shù),其主要機制之一是數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制的目標是解決云存儲的可用性、可靠性、安全性、帶寬和數(shù)據(jù)訪問的響應(yīng)時間,從而使數(shù)據(jù)密集型項目能夠?qū)崿F(xiàn)更優(yōu)越的性能。然而,既然復(fù)制,就免不了會產(chǎn)生過多的重復(fù)副本造成資源浪費。因此,便產(chǎn)生了一種通過移除重復(fù)副本來減小云存儲系統(tǒng)中數(shù)據(jù)占用的大小,實現(xiàn)數(shù)據(jù)壓縮、避免資源浪費的重復(fù)數(shù)據(jù)刪除技術(shù)。

以一種典型的傳統(tǒng)分類方式來看,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為delta-based和hash-based兩類。本著相同的目標,前者基于相似性的消除,后者基于加密函數(shù)而發(fā)揮作用。

而在另一種分類方式中,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為基于服務(wù)器和基于客戶端兩類。前者中,消除冗余數(shù)據(jù)的操作是在服務(wù)器接收到數(shù)據(jù)后完成的,而后者則在發(fā)送數(shù)據(jù)之前就先在客戶端檢查數(shù)據(jù)的重復(fù)性。

后文將對以上內(nèi)容一一解析,不過開始之前,我們還是先了解一些云計算的周邊內(nèi)容。

4.云計算

4.1 云計算產(chǎn)生背景

云存儲數(shù)字數(shù)據(jù)量的不斷增加 ,需要更多的存儲空間,高效的技術(shù) ,處理這些數(shù)據(jù)。

那么何為云計算?是如上圖一般把網(wǎng)線接到云彩上進行計算嗎?當然不是,這是一種形象的比喻,云計算提供了一種新的互聯(lián)網(wǎng)技術(shù)方式,利用互聯(lián)網(wǎng)和中央遠程服務(wù)器管理資源和應(yīng)用程序。許多最終用戶以最低的成本使用這一創(chuàng)新,并且無需安裝就可以訪問應(yīng)用程序。

4.2 公有云和私有云

云計算可以是公共云或是私有云。公共云平臺(例如AWS和Microsoft Azure)將資源集中在分布在全球各地的數(shù)據(jù)中心,用戶可以通過公共互聯(lián)網(wǎng)訪問它們。這些資源通過計量服務(wù)提供給客戶,云計算供應(yīng)商負責不同程度的后端維護。

私有云被托管在企業(yè)數(shù)據(jù)中心或托管數(shù)據(jù)中心設(shè)施中。雖然其功能不如大規(guī)模的公共云。但它們確實有一定的彈性,企業(yè)的開發(fā)人員和管理人員仍然可以使用自助服務(wù)門戶訪問資源。從理論上來說,私有云提供了更好的控制和安全性,但這需要企業(yè)的IT團隊的努力。

云計算部署模型包括私有云、公共云、兩者的混合,以及多個云平臺的組合。也可以將公共云和私有云鏈接以創(chuàng)建混合云,或者可以將兩個或多個公共云連接以創(chuàng)建多云架構(gòu)。

4.3 云計算主要優(yōu)點

  • 可容錯

  • 處理速度快

  • 存儲容量大

  • 帶寬寬

  • 允許使用 Internet 訪問遠程信息和文件

  • 大規(guī)模數(shù)據(jù)分析和數(shù)據(jù)挖掘

  • 物聯(lián)網(wǎng)等物物互聯(lián)的場景運用

4.4云計算存在問題

云服務(wù)中最重要、最典型的是信息存儲服務(wù)。數(shù)據(jù)的安全性、個人數(shù)據(jù)的隱私性保護、數(shù)據(jù)訪問的權(quán)限管理、數(shù)據(jù)的容災(zāi)備份、數(shù)據(jù)拜訪的實時性會受網(wǎng)絡(luò)穩(wěn)定性影響。以及如何降低冗余數(shù)據(jù)、減少存儲成本。

4.5常見的云存儲供應(yīng)商

1ebb8b62-7ba0-11ed-8abf-dac502259ad0.jpg

亞馬遜、微軟、谷歌和阿里巴巴四大云服務(wù)廠商,占據(jù)了全球七成以上市場份額。緊隨四大市場領(lǐng)導(dǎo)者后面的有IBM、Salesforce、騰訊、Oracle和一大批市場份額較小的公司。而亞馬遜在全球公有云服務(wù)市場中的領(lǐng)導(dǎo)地位主要是由于其市場份額第一緣故。

4.6云計算與大數(shù)據(jù)

云計算和大數(shù)據(jù)是近六七年來大熱的兩個概念,很多時候,二者都是被綁定在一起談?wù)摰摹?/span>

大數(shù)據(jù)就是通過搜集海量的數(shù)據(jù)對其進行分析和處理,發(fā)現(xiàn)隱藏在這些數(shù)據(jù)背后的潛在聯(lián)系,洞察內(nèi)在過程,進而使這些數(shù)據(jù)轉(zhuǎn)化或推導(dǎo)出具有更多價值的信息,最終為用戶的決策提供幫助。放到日常工作生活中的典型表現(xiàn)就是“喜歡看什么,就會推什么”:當我們刷一些娛樂類或者新聞類的app時,看到感興趣的內(nèi)容就免不了會駐足多停留一段時間,可能還會直接去搜相關(guān)的話題,這時大數(shù)據(jù)就已經(jīng)完成了標記、為你的ID打上了相應(yīng)的標簽。基于內(nèi)容相關(guān)性的頻次或后臺的定位信息等,標簽也會不盡相同。盡管覺得自己凈如白紙,但在平臺的全閉環(huán)下,大數(shù)據(jù)總是能精確地捕捉并震撼到我們。

4.7云計算的技術(shù)

云計算本質(zhì)上是分布式計算的一種,通過對任務(wù)的分發(fā),實現(xiàn)多端并行計算,最終再進行計算結(jié)果的合并。它提供了計算資源的虛擬化池,存儲、應(yīng)用、內(nèi)存、處理能力和服務(wù)都是在用戶需要時可以用來請求這些資源的實例。其中,云服務(wù)通常分為平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)和基礎(chǔ)設(shè)施即服務(wù)(IaaS)三種模式,三者的主要區(qū)別就是提供服務(wù)的方式不同,需要用戶根據(jù)實際需要進行選擇匹配。此外,基于云計算的思路,還衍生出了霧計算、邊緣計算、移動邊緣計算(MEC)和移動云計算(MCC)。

5.云存儲

云存儲是一種有用的移動邊緣計算(M E C)設(shè)備,其特點是存儲空間有限。這些數(shù)據(jù)或日志數(shù)據(jù)可以在需要時被存儲和訪問到云存儲服務(wù)中。為了提高M E C設(shè)備上的云存儲服務(wù)體驗,可以將多個云存儲服務(wù)合并成一個統(tǒng)一的云存儲在云存儲中,在處理大量數(shù)據(jù)時,無法避免重復(fù)。盡管云存儲空間巨大,這種復(fù)制極大地浪費了網(wǎng)絡(luò)資源,消耗了大量電能,并使數(shù)據(jù)管理變得復(fù)雜。重復(fù)數(shù)據(jù)刪除可以節(jié)省大量空間和成本,備份應(yīng)用可以減少高達 90-95%的存儲需求,標準文件系統(tǒng)可以減少高達 68%的存儲需求。數(shù)據(jù)重復(fù)刪除和數(shù)據(jù)壓縮是在云中優(yōu)化存儲的可用技術(shù)中使用的最突出的技術(shù)。

5.1 重復(fù)數(shù)據(jù)刪除技術(shù)

隨機復(fù)制作為一種流行的復(fù)制方案,已廣泛用于云存儲系統(tǒng),如Hadoop分布式文件系統(tǒng)(HDFS)、RAMCloud、Google文件系統(tǒng)(GFS)和微軟Azure等,使用隨機復(fù)制從不同機房隨機選擇的三臺服務(wù)器中復(fù)制數(shù)據(jù),從而防止單個集群中的數(shù)據(jù)丟失。然而,三方隨機復(fù)制不能很好地應(yīng)對機器故障,若三個節(jié)點的隨機組合同時出現(xiàn)錯誤,就會造成數(shù)據(jù)丟失。

為了解決以上問題,便提出了Copyset復(fù)制和分層復(fù)制兩種方案。但又出現(xiàn)了新的問題:它們都沒有試圖降低由于復(fù)制而造成的存儲成本和帶寬成本。盡管后續(xù)又提出了更多相關(guān)的復(fù)制方案,但仍然存在著同樣的問題。

于是,有學者設(shè)計了一種叫做流行感知的多故障彈性和經(jīng)濟有效的復(fù)制方案(PMCR)的方案。它比之前的復(fù)制方案都有優(yōu)勢,且同時具有以下特點:

  • 可以處理相關(guān)或不相關(guān)的機器故障

  • 壓縮那些很少使用的冷門數(shù)據(jù)的副本

  • 降低了存儲和帶寬成本

  • 不會顯著影響數(shù)據(jù)持久性、數(shù)據(jù)可用性和數(shù)據(jù)請求的延遲

5.1.1 SC、DC壓縮

由于PMCR方案的操作是一整套流程,我們在此只關(guān)注其中壓縮數(shù)據(jù)降低冗余度的部分。

SC全稱Similarity Compression,是依據(jù)數(shù)據(jù)相似性壓縮的一種方法;DC全稱Delta Compression,意即增量壓縮。PMCR使用SC壓縮讀密集型數(shù)據(jù),使用DC壓縮寫密集型數(shù)據(jù)。SC刪除文件或文件中相似的塊,文件請求用戶在接收到壓縮文件后,可再恢復(fù)已刪除的數(shù)據(jù)塊;DC存儲文件的副本和與此文件相似的其他文件的不同部分,以上將會被傳輸給文件請求用戶。而當文件更新時,只需將更新后的部分同步到副本節(jié)點即可。

5.1.1.1相似性壓縮(SC)

進行SC時,相似的塊被分組在一起,一定數(shù)量相似的小塊形成一個大塊。然后,刪除重復(fù)的塊或接近重復(fù)的塊到一個塊。在PMCR中,當壓縮讀密集型數(shù)據(jù)時,對于每一組相似的塊,只需存儲第一個塊即可,剩下的冗余塊可刪除;對于不同數(shù)據(jù)對象之間的冗余塊,也可消除,方式大體分為文件內(nèi)壓縮和文件間壓縮:

1ee8474c-7ba0-11ed-8abf-dac502259ad0.png

1f0d7f76-7ba0-11ed-8abf-dac502259ad0.png

5.1.1.2增量壓縮(DC)

1f29b650-7ba0-11ed-8abf-dac502259ad0.png

如圖,B塊和B’塊都是相似的塊,它們之間的差異用橙色標記出,此時,便可用DC存儲橙色區(qū)域。當塊B或塊B’被更新時,只需將更新的部分而非整個塊發(fā)送到復(fù)制服務(wù)器即可,然后,副本服務(wù)器再更新相應(yīng)的部分。要將數(shù)據(jù)發(fā)送給用戶,只需傳輸存儲的不同部分和B塊的完整部分。

5.1.2DSHA算法

現(xiàn)有系統(tǒng)使用(任何類型的)加密散列算法(如 MD5 或 Secure 散列算法),生成散列值,重復(fù)數(shù)據(jù)刪除這些算法產(chǎn)生固定長度的 128 位或 160 位分別作為輸出以識別復(fù)制的存在。同時用一個額外的內(nèi)存空間存儲哈希值。

本文提出了一種高效的分布式存儲哈希算法(Distributed Storage Hash Algorithm, DSHA),以減少用于識別和丟棄冗余數(shù)據(jù)的哈希值所占用的內(nèi)存空間。

結(jié)論:實驗分析表明,該策略降低了哈希值的內(nèi)存利用率,提高了數(shù)據(jù)讀寫性能。

5.2SDM技術(shù)

SDM是一種針對移動設(shè)備的智能重復(fù)數(shù)據(jù)刪除系統(tǒng),提高了云存儲作為移動設(shè)備上的存儲解決方案的可行性。SDM旨在利用多核技術(shù) 在現(xiàn)代移動處理器上的架構(gòu)。為了減少重復(fù)數(shù)據(jù)刪除過程的時間,針對每種文件類型的最佳重復(fù)數(shù)據(jù)刪除方法,而不依賴于針對每種文件類型的任何配置。由于其設(shè)計,學習系統(tǒng)不存在散列不兼容性。

5.2.1移動設(shè)備和云存儲服務(wù)的固有限制

  • 移動設(shè)備的性能限制 移動設(shè)備的處理功率和電源受到限制。

  • 有限的存儲容量 由于其外形因素,也很難在移動設(shè)備中安裝高容量的存儲空間。云存儲供應(yīng)商提供的免費存儲容量 往往很小,升級需支付額外費用。

  • 網(wǎng)絡(luò)帶寬 網(wǎng)絡(luò)帶寬對于訪問云存儲至關(guān)重要。遺憾的是,網(wǎng)絡(luò)帶寬通常被限制在免費存儲上,云存儲服務(wù)的帶寬是在活動用戶的數(shù)量之間劃分的,會導(dǎo)致更長的訪問時間,在大多數(shù)在某些情況下,這將導(dǎo)致云存儲服務(wù)的性能低于客戶的網(wǎng)絡(luò)性能。

  • 價格昂貴的無線網(wǎng)絡(luò)收費

  • 有限網(wǎng)絡(luò)覆蓋范圍 網(wǎng)絡(luò)覆蓋對移動用戶來說可能是一個問題。當用戶超出網(wǎng)絡(luò)覆蓋范圍時,所有的網(wǎng)絡(luò)活動都將是已停止,這意味著沒有云存儲服務(wù)。

5.2.2系統(tǒng)架構(gòu)

我們建議使用智能重復(fù)數(shù)據(jù)刪除技術(shù)進行移動云存儲(SDM)。SDM在文件級和塊級使用多級重復(fù)數(shù)據(jù)刪除方法,這些方法由學習系統(tǒng)集成(學習系統(tǒng)選擇最佳的重復(fù)數(shù)據(jù)消除 方法來實現(xiàn)最佳的數(shù)據(jù)減少和能量消耗。此外,我們還使用哈希表和一個bloom過濾器來進行本地搜索并添加并行化來提高應(yīng)用程序的性能。整個系統(tǒng)如圖所示。整個過程是可逆的,因為重復(fù)數(shù)據(jù)刪除是一個無損壓縮的操作。

1f4715e2-7ba0-11ed-8abf-dac502259ad0.png

文件級重復(fù)數(shù)據(jù)刪除 在文件級別上,重復(fù)數(shù)據(jù)刪除可以通過比較整個文件來進行操作。由于它只將一個哈希值與另一個文件哈希值進行比較,因此該進程比其他方法更快。但是,當文件的一部分發(fā)生更改時,整個哈希值也會發(fā)生更改。這就降低了文件級重復(fù)數(shù)據(jù)刪除的性能。

塊級重復(fù)數(shù)據(jù)刪除 當在塊級別執(zhí)行重復(fù)數(shù)據(jù)刪除時,處理的文件被分割為多個塊。每個塊的處理與文件級重復(fù)數(shù)據(jù)刪除中的文件相同。塊的大小可以是固定大小的或可變大小的。

1f6f422e-7ba0-11ed-8abf-dac502259ad0.png

塊級變化不會影響其他塊的哈希值,但是,在一個塊部分字節(jié)變化上就會改變多個塊的哈希值。可變大小的塊或內(nèi)容定義的分塊通過使用固定的分塊偏移量來分割一個文件來解決這個問題。固定的分塊偏移量可以通過使用Rabin滾動散列找到。Rabin滾動散列使用多項式和一個滑動窗口來進行散列。為了找到分塊偏移量,我們滑動和散列窗口,直到哈希匹配一個預(yù)定義的值。

5.2.3應(yīng)用場景

客戶端API 該方案提供了客戶端與存儲服務(wù)器之間良好的接口。通過選擇合適的存儲節(jié)點, 可以降低 CPU 負載。

System.out.println();
jLabel3.setText(digits+outputString1);
Class.forname("com.mysql.jdbc.Driver");
con = DriverManager.getConnection("jdbc//localhost:3306/javamysql", "root", "root");
String HashValue = digits + outputString1;
String status = null;
int result, tab = 0;

5.2.4性能測試數(shù)據(jù)

安卓的一個原型實現(xiàn)上的實現(xiàn):

  • 僅限文件級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(FDS)

  • 僅限塊級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(BDS)

  • 針對移動設(shè)備或SDM的智能重復(fù)數(shù)據(jù)刪除

  • 預(yù)配置的重復(fù)數(shù)據(jù)刪除系統(tǒng)(PCDS)
文件類型 分配重復(fù)數(shù)據(jù)刪除方法

mp3

文件級
jpg 文件級
pdf 塊級
obb 塊級

未知的

塊級
RADS的工作原理是使用重復(fù)數(shù)據(jù)消除比率來確定每種文件類型應(yīng)該使用哪種重復(fù)數(shù)據(jù)消除方法。如果沒有達到該文件類型 的目標重復(fù)數(shù)據(jù)刪除比率,則系統(tǒng)將選擇另一種重復(fù)數(shù)據(jù)刪除方法。對于每種文件類型,重復(fù)數(shù)據(jù)刪除比率通過將重復(fù)數(shù)據(jù)刪除文件大小除以文件大小來計算。
  • 旋轉(zhuǎn)重復(fù)數(shù)據(jù)刪除系統(tǒng)(RADS)

文件類型 已分配的重復(fù)數(shù)據(jù)刪除方法 目標重復(fù)數(shù)據(jù)消除率(%)

mp3

5文件級 5
jpg 文件級 5
pdf 塊級 5
obb 塊級 25

未知的

塊級 10

5.2.5測試結(jié)果

演示不同的重復(fù)數(shù)據(jù)刪除系統(tǒng)在處理未知文件類型時的性能:

1f97af2a-7ba0-11ed-8abf-dac502259ad0.png

總的來說,SDM比其他系統(tǒng)表現(xiàn)得更好,特別是在未知的文件類型上,因為我們的系統(tǒng)不需要對不同的文件類型進行任 何特定的配置。對于大多數(shù)情況下文件和塊級之間的重復(fù)數(shù)據(jù)刪除吞吐量,以及接近塊級重復(fù)數(shù)據(jù)刪除精度的重復(fù)數(shù)據(jù)刪 除精度,與其他系統(tǒng)相比,我們的系統(tǒng)可以使云存儲作為移動設(shè)備的存儲解決方案更加可行。

6.Ares數(shù)據(jù)壓縮框架

6.1介紹

現(xiàn)代應(yīng)用中的數(shù)據(jù)爆炸現(xiàn)象給存儲系統(tǒng)帶來了巨大的壓力,因此開發(fā)者使用數(shù)據(jù)壓縮技術(shù)來解決這個問題。但是,在考慮輸入數(shù)據(jù)類型和格式時,每個壓縮庫都表現(xiàn)出不同的優(yōu)勢和劣勢。所以有相關(guān)學者提出了Ares,一個智能、自適應(yīng)和靈活的模塊化壓縮框架,可以根據(jù)工作負載的類型為給定的輸入數(shù)據(jù)動態(tài)選擇壓縮庫,并為用戶提供適當?shù)幕A(chǔ)設(shè)施來微調(diào)所選的庫。Ares是一個模塊化框架,它統(tǒng)一了多個壓縮庫,同時允許用戶添加更多壓縮庫。同時,Ares也是一個統(tǒng)一的壓縮引擎,它抽象了每個工作負載使用不同壓縮庫的復(fù)雜性。

在科學和云計算領(lǐng)域的實際運用中,Ares的執(zhí)行速度相比其他解決方案快了 2-6 倍,而且附加數(shù)據(jù)分析的成本較低。與完全沒有壓縮的基線相比,速度快了 10 倍。

6.2面臨的問題

我們知道,無損壓縮算法分為兩類:通用算法和專用算法。像Bzip、Zlib、7z這些就是屬于通用壓縮庫,事實上,它們的性能的確很好,但不足是不會利用數(shù)據(jù)表示之間的細微差別。所以又有了一些更專門的算法,比如Snappy、SPDP、LZO等,這一類算法通過最小化數(shù)據(jù)占用空間來提高應(yīng)用程序的整體性能,因而有著廣泛的前景。

盡管有以上這些特定領(lǐng)域的壓縮庫的良好發(fā)展,但是仍然面臨幾個比較現(xiàn)實的問題:

  • 數(shù)據(jù)依賴:由于每個庫對某種數(shù)據(jù)類型的專一化,致使對于其他情況來說,它通常不夠一般化。即使選擇了庫,大多數(shù)應(yīng)用程序由于使用很多不同類型的數(shù)據(jù),因此僅使用一個庫也不會產(chǎn)生最佳性能。

  • 庫的選擇:不同的庫有著不同的優(yōu)點和缺點,通常為一個用例選擇合適的庫是困難的。即使在同一個應(yīng)用程序中,其不同部分也會有著不同的壓縮需求。比如檔案的存儲需要高的壓縮比,而進程間的數(shù)據(jù)共享需要高的壓/解壓縮速度。

  • API和可用性:每個壓縮庫都有自己的一組參數(shù)和API,通常很難過渡到或采用新的庫,沒有哪種壓縮算法可為所有類型的數(shù)據(jù)、文件格式或應(yīng)用程序需求提供最佳性能。我們希望可以有一個智能的框架,能夠無縫統(tǒng)一多個庫,并根據(jù)特定場景動態(tài)選擇“最佳”壓縮算法。

6.3基準測試

既然要統(tǒng)一不同算法,那首先就要確切地掌握它們的實際表現(xiàn)。因此,學者對廣泛選擇的壓縮庫通過全面的基準測試進行了性能評估:

1fc7dfe2-7ba0-11ed-8abf-dac502259ad0.png

1ffbb2c2-7ba0-11ed-8abf-dac502259ad0.png

202b40c8-7ba0-11ed-8abf-dac502259ad0.png

從數(shù)據(jù)類型、數(shù)據(jù)格式和工作負載優(yōu)先級三個維度進行了測試,篇幅有限,細節(jié)分析部分這里不再具體展開。簡單總結(jié)為:通過觀察各個庫之間的性能變化,可以發(fā)現(xiàn)每個工作負載都可以從智能的動態(tài)壓縮框架中受益。

6.4Ares的體系架構(gòu)

2068e450-7ba0-11ed-8abf-dac502259ad0.png

Ares架構(gòu)的核心是即插即用,框架是一個中間件庫,它封裝了多個壓縮庫,從用戶側(cè)抽象出它們的復(fù)雜性。應(yīng)用程序可以使用Ares作為工具(CLI)或作為一個庫(API)。在這兩種情況下,Ares內(nèi)部的數(shù)據(jù)流是相同的。首先,Ares分析輸入數(shù)據(jù),以識別所涉及的數(shù)據(jù)類型和格式。其輸入可以是一個文件、一個目錄或一個以前壓縮過的文件(file.ares)。然后,將分析結(jié)果傳遞給主引擎,由主引擎決定哪個壓縮庫最適合給定的情況。根據(jù)決策,Ares利用一個庫池,其中包括預(yù)編譯的壓縮庫(目前的原型中已存在11個),再執(zhí)行壓/解壓縮操作。最后,Ares用其元數(shù)據(jù)修飾壓縮數(shù)據(jù),并輸出.ares文件到磁盤。

6.5要點評估

6.5.1開銷和資源利用率

20a17536-7ba0-11ed-8abf-dac502259ad0.png

如上圖,我們可以觀察到,每個被測試的庫都展現(xiàn)了不同的開銷。例如,lz4、quicklz和snappy在CT、I/O和DT上都實現(xiàn)了類似的時間,但系統(tǒng)利用率不同(如snappy是CPU密集型、內(nèi)存占用低)。相比之下,bsc提供了最高8.6x的CR,但也是最慢的庫,它的CPU和內(nèi)存占用率高達90%以上。bzip2的內(nèi)存占用較低,但在CR為6.2x時仍保持較高的CPU占用率。另一方面,Ares通過分析輸入數(shù)據(jù)來平衡CT、DT和CR,而這個額外的開銷只占總時間的10%。Ares用了74秒進行數(shù)據(jù)類型和格式的檢測,即便有這些額外的開銷,Ares執(zhí)行所有操作的速度仍然比所有庫的速度快,并取得了最佳的總體時間。

具體來說,Ares比bsc快6.5倍,比bzip2快4.6倍,比lz4、quicklz快5-40%,而且在達到58%的CPU和64%的內(nèi)存占用率情況下仍然非???。

6.5.2壓/解壓智能度

20ca02ee-7ba0-11ed-8abf-dac502259ad0.png

20f3c34a-7ba0-11ed-8abf-dac502259ad0.png

從結(jié)果可以看出,使用CR為1.75倍的lz4可以更快地壓縮二進制數(shù)據(jù)。對于較復(fù)雜的壓縮,bsc實現(xiàn)了大于5倍的CR,但CT和DT明顯減慢。

6.5.3壓/解壓適應(yīng)度

21369f1c-7ba0-11ed-8abf-dac502259ad0.png

6.5.4壓/解壓靈活度

Ares的優(yōu)勢在于它能夠根據(jù)輸入的數(shù)據(jù)類型和格式進行壓縮。此外,Ares提供了在給定工作負載的情況下對某些壓縮特性進行優(yōu)先級排序的基礎(chǔ)設(shè)施。Ares的目標是通過C/C++和Java綁定支持科學和云工作負載。此外,Ares抽象了它的引擎中包含的每個壓縮庫的細節(jié),這使得它更易于使用,并且在需要時可以靈活地擴展到更多的壓縮庫。下面用了四個不同的科學應(yīng)用(VPIC和HACC)和云工作負載(單詞計數(shù)和整數(shù)排序)測試了Ares的性能,研究了三種類型的工作負載:

216711ec-7ba0-11ed-8abf-dac502259ad0.png

6.6總結(jié)

與傳統(tǒng)的壓縮庫相比,Ares可以提高性能。具體來說,在科學和云計算領(lǐng)域的實際應(yīng)用中,Ares的執(zhí)行速度比同類解決方案快了2-6倍,并為用戶提供了一個靈活的基礎(chǔ)設(shè)施,可根據(jù)手頭的任務(wù)確定壓縮特點。

<本文完>

參考文獻

[1] Shakarami A, Ghobaei-Arani M, Shahidinejad A, et al. Data replication schemes in cloud computing: a survey[J]. Cluster Computing, 2021, 24(3): 2545-2579.

https://www.researchgate.net/publication/350921010_Data_replication_schemes_in_cloud_computing_a_survey

[2] Widodo R N S, Lim H, Atiquzzaman M. SDM: Smart deduplication for mobile cloud storage[J]. Future Generation Computer Systems, 2017, 70: 64-73.

https://www.researchgate.net/publication/304906996_SDM_Smart_deduplication_for_mobile_cloud_storage

[3] Rani, I.S., Venkateswarlu, B.: A systematic review of different data compression technique of cloud big sensing data. In: International conference on computer networks and inventive communication technologies (pp. 222–228). Springer, Cham (2019)

https://link.springer.com/content/pdf/bfm:978-3-030-37051-0/1.pdf

[4] Hema, S., Kangaiammal, A. (2019) Distributed storage hash algorithm (DSHA) for file-based deduplication in cloud computing. In: International conference on computer networks and inventive communication technologies (pp. 572–581). Springer, Cham (2019)

https://dl.acm.org/doi/abs/10.1016/j.jksuci.2021.04.005

[5] Liu J, Shen H, Narman H S. Popularity-aware multi-failure resilient and cost-effective replication for high data durability in cloud storage[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 30(10): 2355-2369.

https://ieeexplore.ieee.org/document/8478382/

[6] Devarajan H, Kougkas A, Sun X H. An intelligent, adaptive, and flexible data compression framework[C]//2019 19th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE, 2019: 82-91.

https://ieeexplore.ieee.org/document/8752926

[7]Top 10 benefits of cloud computing - Information Age

https://www.information-age.com/top-10-benefits-cloud-computing-7248/

ELT.ZIP是誰?

ELT<=>Elite(精英),.ZIP為壓縮格式,ELT.ZIP即壓縮精英。

成員:

上海工程技術(shù)大學大二在校生閆旭

合肥師范學院大二在校生楚一凡

清華大學大二在校生趙宏博

成都信息工程大學大一在校生高云帆

黑龍江大學大一在校生高鴻萱

山東大學大三在校生張智騰

2199ebf8-7ba0-11ed-8abf-dac502259ad0.png

ELT.ZIP是來自6個地方的同學,在OpenHarmony成長計劃啃論文俱樂部里,與來自華為、軟通動力、潤和軟件、拓維信息、深開鴻等公司的高手一起,學習、研究、切磋操作系統(tǒng)技術(shù)...

寫在最后

OpenHarmony 成長計劃—“啃論文俱樂部”(以下簡稱“啃論文俱樂部”)是在 2022年 1 月 11 日的一次日?;顒又姓Q生的。截至 3 月 31 日,啃論文俱樂部已有 87 名師生和企業(yè)導(dǎo)師參與,目前共有十二個技術(shù)方向并行探索,每個方向都有專業(yè)的技術(shù)老師帶領(lǐng)同學們通過啃綜述論文制定技術(shù)地圖,按“降龍十八掌”的學習方法編排技術(shù)開發(fā)內(nèi)容,并通過專業(yè)推廣培養(yǎng)高校開發(fā)者成為軟件技術(shù)學術(shù)級人才。

啃論文俱樂部的宗旨是希望同學們在開源活動中得到軟件技術(shù)能力提升、得到技術(shù)寫作能力提升、得到講解技術(shù)能力提升。大學一年級新生〇門檻參與,已有俱樂部來自多所高校的大一同學寫出高居榜首的技術(shù)文章。

如今,搜索“啃論文”,人們不禁想到、而且看到的都是我們——OpenHarmony 成長計劃—“啃論文俱樂部”的產(chǎn)出。

22cc1122-7ba0-11ed-8abf-dac502259ad0.jpg

22deba3e-7ba0-11ed-8abf-dac502259ad0.jpg

23112992-7ba0-11ed-8abf-dac502259ad0.jpg

OpenHarmony開源與開發(fā)者成長計劃—“啃論文俱樂部”學習資料合集

1)入門資料:啃論文可以有怎樣的體驗

https://docs.qq.com/slide/DY0RXWElBTVlHaXhi?u=4e311e072cbf4f93968e09c44294987d

2)操作辦法:怎么從啃論文到開源提交以及深度技術(shù)文章輸出https://docs.qq.com/slide/DY05kbGtsYVFmcUhU

3)企業(yè)/學校/老師/學生為什么要參與 & 啃論文俱樂部的運營辦法https://docs.qq.com/slide/DY2JkS2ZEb2FWckhq

4)往期啃論文俱樂部同學分享會精彩回顧:

同學分享會No1.成長計劃啃論文分享會紀要(2022/02/18)https://docs.qq.com/doc/DY2RZZmVNU2hTQlFY

同學分享會No.2 成長計劃啃論文分享會紀要(2022/03/11)https://docs.qq.com/doc/DUkJ5c2NRd2FRZkhF

同學們分享會No.3 成長計劃啃論文分享會紀要(2022/03/25)

https://docs.qq.com/doc/DUm5pUEF3ck1VcG92?u=4e311e072cbf4f93968e09c44294987d

現(xiàn)在,你是不是也熱血沸騰,摩拳擦掌地準備加入這個俱樂部呢?當然歡迎啦!啃論文俱樂部向任何對開源技術(shù)感興趣的大學生開發(fā)者敞開大門。

23470aa8-7ba0-11ed-8abf-dac502259ad0.png

掃碼添加 OpenHarmony 高校小助手,加入“啃論文俱樂部”微信群

后續(xù),我們會在服務(wù)中心公眾號陸續(xù)分享一些 OpenHarmony 開源與開發(fā)者成長計劃—“啃論文俱樂部”學習心得體會和總結(jié)資料。記得呼朋引伴來看哦。


原文標題:云計算數(shù)據(jù)壓縮方案

文章出處:【微信公眾號:開源技術(shù)服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8768
  • OpenHarmony
    +關(guān)注

    關(guān)注

    33

    文章

    3977

    瀏覽量

    21383

原文標題:云計算數(shù)據(jù)壓縮方案

文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    邊緣計算vs計算,關(guān)鍵差異一文分清

    邊緣這個詞在物聯(lián)網(wǎng)的世界里被賦予了新的定義,特指在設(shè)備端的附近,所以根據(jù)字面定義,邊緣計算即在設(shè)備端附近產(chǎn)生的計算。邊緣計算是相對計算而言
    的頭像 發(fā)表于 04-17 14:29 ?384次閱讀
    邊緣<b class='flag-5'>計算</b>vs<b class='flag-5'>云</b><b class='flag-5'>計算</b>,關(guān)鍵差異一文分清

    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)壓縮功能的穩(wěn)定性如何?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮功能穩(wěn)定性優(yōu)異,尤其在高端裝置中采用硬件加速時幾乎無感知影響,中端裝置在默認配置下穩(wěn)定性良好,經(jīng)濟型裝置需合理配置以確保穩(wěn)定。
    的頭像 發(fā)表于 02-25 17:22 ?1242次閱讀

    什么是企業(yè)服務(wù)器-計算

    企業(yè)服務(wù)器是指為企業(yè)提供的基于計算技術(shù)的服務(wù)器解決方案。華納是一家
    的頭像 發(fā)表于 12-29 17:57 ?1137次閱讀

    借助CXL和壓縮技術(shù)實現(xiàn)高效數(shù)據(jù)傳輸

    AI、科學計算、海量內(nèi)存處理……這些硬核工作負載正在不斷挑戰(zhàn)系統(tǒng)極限。而 FPGA 異軍突起,成為了實現(xiàn)高效數(shù)據(jù)傳輸?shù)摹瓣P(guān)鍵推手”。想知道怎么在不改變整體架構(gòu)的前提下,讓帶寬和能效實現(xiàn)“雙飛躍”?答案就藏在壓縮 IP 與基于 C
    的頭像 發(fā)表于 12-19 09:43 ?550次閱讀
    借助CXL和<b class='flag-5'>壓縮</b>技術(shù)實現(xiàn)高效<b class='flag-5'>數(shù)據(jù)</b>傳輸

    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)壓縮對裝置性能有哪些影響?

    降至工業(yè)級可接受范圍, 不會影響核心監(jiān)測功能(如采樣精度、故障響應(yīng)) 。以下是分維度的專業(yè)解析: 一、核心性能影響維度(分裝置定位 + 壓縮類型) 1. CPU 占用:硬件加速是關(guān)鍵,無損壓縮影響極小 數(shù)據(jù)壓縮 / 解壓本質(zhì)是
    的頭像 發(fā)表于 12-17 10:28 ?501次閱讀
    電能質(zhì)量在線監(jiān)測裝置<b class='flag-5'>數(shù)據(jù)壓縮</b>對裝置性能有哪些影響?

    如何配置電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能?

    現(xiàn)代電能質(zhì)量在線監(jiān)測裝置普遍支持數(shù)據(jù)壓縮存儲,可顯著節(jié)省存儲空間 (2-20 倍) 和傳輸流量。配置步驟如下: 一、配置前準備 1. 確認裝置支持情況 高端裝置 (電網(wǎng)側(cè)):標配硬件壓縮模塊
    的頭像 發(fā)表于 12-17 10:26 ?639次閱讀
    如何配置電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能?

    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)壓縮算法?

    電能質(zhì)量在線監(jiān)測裝置支持 無損壓縮 和 有損壓縮 兩大類算法,適配不同數(shù)據(jù)類型(實時數(shù)據(jù)、歷史數(shù)據(jù)、波形
    的頭像 發(fā)表于 12-12 14:08 ?709次閱讀
    電能質(zhì)量在線監(jiān)測裝置支持哪些<b class='flag-5'>數(shù)據(jù)壓縮</b>算法?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響有多大?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響,可通過 量化對比 + 場景拆解 明確: 絕大多數(shù)場景下傳輸速度提升 50%~80%(低帶寬場景甚至超 90%),僅軟件壓縮的小文件傳輸或
    的頭像 發(fā)表于 12-11 16:45 ?1467次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能對<b class='flag-5'>數(shù)據(jù)</b>傳輸速度的影響有多大?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度有影響嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響是 “雙刃劍” : 核心正面影響: 壓縮數(shù)據(jù)量減小,大幅降低傳輸帶寬需求,縮短傳輸時間 (尤其適用于大文件如暫態(tài)錄波、歷史
    的頭像 發(fā)表于 12-11 16:43 ?1358次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能對<b class='flag-5'>數(shù)據(jù)</b>傳輸速度有影響嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式可以修改嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式 部分可修改 ,具體取決于格式類型(數(shù)據(jù)文件格式 / 壓縮算法格式)與廠家設(shè)計,核心結(jié)論如下: 一、
    的頭像 發(fā)表于 12-11 16:39 ?1239次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能支持的<b class='flag-5'>數(shù)據(jù)</b>格式可以修改嗎?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法需要考慮哪些因素?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法,需圍繞 暫態(tài)波形特性 (突變性、關(guān)鍵特征依賴性)、 工業(yè)場景需求 (實時性、硬件限制)及 數(shù)據(jù)應(yīng)用價值 (故障溯源、合規(guī)性)綜合考量,核心需關(guān)注以下六大維度: 一
    的頭像 發(fā)表于 11-05 15:02 ?457次閱讀

    低內(nèi)存場景下的高效壓縮利器:FastLZ壓縮庫應(yīng)用實踐指南

    在資源受限環(huán)境中,數(shù)據(jù)壓縮既要追求速度又要節(jié)省內(nèi)存。本文聚焦FastLZ壓縮庫,深入探討其在低內(nèi)存場景下的應(yīng)用實踐,通過解析其核心算法與優(yōu)化策略,帶您掌握如何利用該庫實現(xiàn)快速壓縮,滿足嵌入式系統(tǒng)、物
    的頭像 發(fā)表于 07-22 15:13 ?532次閱讀
    低內(nèi)存場景下的高效<b class='flag-5'>壓縮</b>利器:FastLZ<b class='flag-5'>壓縮</b>庫應(yīng)用實踐指南

    恒訊科技分析:Ubuntu服務(wù)器數(shù)據(jù)共享高效方案

    在當今計算時代,企業(yè)對于數(shù)據(jù)共享的需求日益增長,尤其是在使用Ubuntu服務(wù)器的場景下,如何實現(xiàn)高效、安全的數(shù)據(jù)共享成為關(guān)鍵問題。本文將
    的頭像 發(fā)表于 07-09 21:40 ?1684次閱讀

    磁懸浮冷站引領(lǐng)綠色革命,維諦技術(shù)(Vertiv)助力中國電信江西計算數(shù)據(jù)中心制冷系統(tǒng)實現(xiàn)PUE1.2

    ,如何讓數(shù)據(jù)中心既當“最強大腦”又做“節(jié)能標兵”?在中國電信江西計算數(shù)據(jù)中心,維諦技術(shù)(Vertiv)搭建的業(yè)界首個集成自然冷和余熱回收的磁懸浮集成冷站,正在上
    的頭像 發(fā)表于 05-22 14:18 ?1029次閱讀
    磁懸浮冷站引領(lǐng)綠色革命,維諦技術(shù)(Vertiv)助力中國電信江西<b class='flag-5'>云</b><b class='flag-5'>計算數(shù)據(jù)</b>中心制冷系統(tǒng)實現(xiàn)PUE1.2

    接地電阻柜與計算、大數(shù)據(jù)關(guān)系緊密

    為配合實現(xiàn)大數(shù)據(jù),必須籌建更多的計算數(shù)據(jù)中心,用到很多的發(fā)電機組,如何更好的保護這些發(fā)電機組,是急需解決的一大難題。國際上廣泛采用中性點經(jīng)電阻接地,即在中性點和接地相中間安裝接地電阻柜
    的頭像 發(fā)表于 05-07 06:30 ?674次閱讀
    接地電阻柜與<b class='flag-5'>云</b><b class='flag-5'>計算</b>、大<b class='flag-5'>數(shù)據(jù)</b>關(guān)系緊密
    邹城市| 鄂州市| 安阳市| 徐汇区| 磴口县| 黔东| 龙泉市| 谷城县| 句容市| 平顺县| 噶尔县| 鸡东县| 慈利县| 高尔夫| 伊春市| 双桥区| 昌都县| 徐闻县| 密山市| 铜山县| 嘉黎县| 隆德县| 黄浦区| 宜丰县| 宜川县| 罗平县| 凌云县| 宜兰市| 鹤岗市| 盱眙县| 隆林| 敦化市| 怀宁县| 湖口县| 宁波市| 嘉峪关市| 临朐县| 泸西县| 沙湾县| 衡阳县| 阿克陶县|