日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hudi系列:Hudi核心概念之文件布局(Storage Layouts)

京東云 ? 來(lái)源:jf_75140285 ? 作者:jf_75140285 ? 2025-10-14 16:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Hudi系列:Hudi核心概念(版本1.0)

?Hudi架構(gòu)

?一. 時(shí)間軸(TimeLine)

?1.1 時(shí)間軸(TimeLine)概念

?1.2 Hudi的時(shí)間線由組成

?1.3 時(shí)間線上的Instant action操作類型

?1.4 時(shí)間線上State狀態(tài)類型

?1.5 時(shí)間線官網(wǎng)實(shí)例

?二. 文件布局

?三. 索引

?3.1 簡(jiǎn)介

?3.2 對(duì)比Hive沒(méi)有索引的區(qū)別

?3.3 Hudi索引類型

?3.4 全局索引與非全局索引

?四. 表類型

?4.1 COW:(Copy on Write)寫時(shí)復(fù)制表

?4.1.1 概念

?4.1.2 COW工作原理

?4.1.3 COW表對(duì)表的管理方式改進(jìn)點(diǎn)

?4.2 MOR:(Merge on Read)讀時(shí)復(fù)制表

?4.2.1 概念

?4.2.2 MOR表工作原理

?4.3 總結(jié)了兩種表類型之間的權(quán)衡

?五. 查詢類型

?5.1 Snapshot Queries

?5.2 Incremental Queries

?5.3 Read Optimized Query

下面描述了 Hudi 表存儲(chǔ)文件的一般組織方式。

?Hudi 將數(shù)據(jù)表組織到存儲(chǔ)中基本路徑下的目錄結(jié)構(gòu)中。

?根據(jù)表架構(gòu)中定義的分區(qū)列,表可以選擇性地分為多個(gè)分區(qū)。

?在每個(gè)分區(qū)中,文件被組織成文件組,由文件 ID (uuid) 唯一標(biāo)識(shí)

?每個(gè)文件組包含多個(gè)文件切片。

?每個(gè)切片包含一個(gè)基本文件 (parquet/orc/hfile)(由配置 - hoodie.table.base.file.format 定義),由在特定時(shí)刻完成的提交寫入,以及一組日志文件 (.log.),由在下一個(gè)基本文件請(qǐng)求時(shí)刻之前完成的提交寫入。

?Hudi 采用多版本并發(fā)控制 (MVCC),其中壓縮操作合并日志和基本文件以生成新的文件切片,清理操作刪除未使用/較舊的文件切片以回收文件系統(tǒng)上的空間。

?所有元數(shù)據(jù)(包括時(shí)間線、元數(shù)據(jù)表)都存儲(chǔ)在基本路徑下的特殊 .hoodie 目錄中。

wKgZPGjuBHWAfLVnAAT8nIrydeA039.png

1.基礎(chǔ)文件

基礎(chǔ)文件存儲(chǔ)完整記錄,而更改記錄則存儲(chǔ)在下面的增量日志文件中。Hudi 目前支持以下基礎(chǔ)文件格式。

用于矢量化讀取、列壓縮和高效列式訪問(wèn)的列式格式,適用于分析/數(shù)據(jù)科學(xué)
用于快速掃描以讀取整個(gè)記錄的行式 avro 文件
用于高效搜索索引記錄的隨機(jī)訪問(wèn)優(yōu)化 HFile(基于 SSTable 格式)

wKgZO2juBHaAWNLIAAVuJTHTIG8925.png

?

2.日志文件

日志文件存儲(chǔ)基礎(chǔ)文件創(chuàng)建后對(duì)基礎(chǔ)文件的增量更改(部分或全部),例如更新、插入和刪除。日志文件包含不同的塊(數(shù)據(jù)、命令、刪除塊等),這些塊對(duì)基礎(chǔ)文件的特定更改進(jìn)行編碼。數(shù)據(jù)塊對(duì)基礎(chǔ)文件的更新/插入進(jìn)行編碼,并可自定義以支持不同的需求。

面向行的 avro 文件,用于快速/輕量級(jí)寫入
隨機(jī)訪問(wèn)優(yōu)化的 HFile,用于高效搜索索引記錄(基于 SSTable 格式)
列式 parquet 文件,用于矢量化日志合并。

3. 存儲(chǔ)格式版本控制

Hudi 存儲(chǔ)格式的元素(如日志格式、日志塊結(jié)構(gòu)、時(shí)間線文件/數(shù)據(jù)模式)都是版本化的,并與給定的表版本相關(guān)聯(lián)。表版本是一個(gè)單調(diào)遞增的數(shù)字,每次存儲(chǔ)中產(chǎn)生的某些位發(fā)生變化時(shí),該數(shù)字就會(huì)增加。

Backwards compatible reading

Hudi 版本向后兼容,以確保新軟件版本可以讀取最近的舊表版本??绮煌嫔?jí) Hudi 的推薦方法是首先升級(jí)所有讀取器(例如使用表的交互式查詢引擎),然后升級(jí)任何/所有寫入器和表服務(wù)。
Hudi 存儲(chǔ)引擎還實(shí)現(xiàn)了自動(dòng)升級(jí)功能,可以在后續(xù)寫入操作中優(yōu)雅地執(zhí)行表版本升級(jí),通過(guò)自動(dòng)執(zhí)行任何必要的步驟而無(wú)需停機(jī)查詢/讀取。

Backwards compatible writing

但是,這可能并非總是可行的,因?yàn)榛?Hudi 構(gòu)建的數(shù)據(jù)平臺(tái)可能具有可以同時(shí)充當(dāng)讀取器和寫入器的多階段管道。在這種情況下,Hudi 升級(jí)需要通過(guò)首先升級(jí)最下游的作業(yè)來(lái)執(zhí)行,一直跟蹤
到可能由攝取系統(tǒng)寫入的第一個(gè) Hudi 表。為了簡(jiǎn)化此過(guò)程,Hudi 還允許寫入最近的舊表版本,以便可以首先在同一個(gè)舊表版本之上在整個(gè)部署中推出新的 Hudi 軟件二進(jìn)制文件。一旦所有作
業(yè)和引擎都有了新的二進(jìn)制文件,那么就可以按任何順序升級(jí)到較新的表版本,并且讀者將動(dòng)態(tài)適應(yīng)

4. 配置

以下寫入器配置控制寫入舊表版本和自動(dòng)升級(jí)行為。

配置名稱 默認(rèn) 描述
hoodie.write.table.version latest (Optional) 此寫入器存儲(chǔ)表的表版本。如果表已存在,則此版本應(yīng)與當(dāng)前表版本匹配。按上述方法升級(jí)時(shí),請(qǐng)將此版本設(shè)置為較低的版本。
hoodie.write.auto.upgrade true (Optional) 假如設(shè)置為enabled, 如果當(dāng)前表版本較低,則寫入器會(huì)自動(dòng)將表遷移到指定的寫入表版本。

?

文獻(xiàn): https://hudi.apache.org/docs/overview

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4897

    瀏覽量

    90308
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    飛騰公司在太空計(jì)算領(lǐng)域的戰(zhàn)略布局核心優(yōu)勢(shì)

    4月23日,2026中國(guó)航天大會(huì)專題論壇在成都召開(kāi)。中國(guó)電子飛騰公司首席科學(xué)家竇強(qiáng)應(yīng)邀出席,并發(fā)表題為《自主算力助力太空計(jì)算領(lǐng)域新發(fā)展》的主題演講,系統(tǒng)闡述了飛騰公司在太空計(jì)算領(lǐng)域的戰(zhàn)略布局核心優(yōu)勢(shì)。
    的頭像 發(fā)表于 04-30 11:52 ?328次閱讀

    TDK-Lambda DRF系列電源:工業(yè)應(yīng)用的可靠

    TDK-Lambda DRF系列電源:工業(yè)應(yīng)用的可靠選 在工業(yè)和過(guò)程控制應(yīng)用中,電源的穩(wěn)定性、效率和可靠性至關(guān)重要。TDK-Lambda的DRF系列電源以其出色的性能和豐富的功能,成為了眾多工程師
    的頭像 發(fā)表于 04-18 09:15 ?190次閱讀

    STM32 STR750Fxx系列:32位MCU的卓越

    、STR752Fxx和STR755Fxx系列MCU,憑借ARM7TDMI - S 32位RISC核心以及豐富的外設(shè),在眾多應(yīng)用場(chǎng)景中脫穎而出。今天,我們就來(lái)深入剖析一下這個(gè)系列MCU的特性與應(yīng)用。
    的頭像 發(fā)表于 04-17 15:20 ?204次閱讀

    淺談Kubernetes的六個(gè)核心概念

    運(yùn)維工程師在學(xué)習(xí) Kubernetes 時(shí),往往會(huì)在某些核心概念上反復(fù)卡住。這些概念不是孤立的知識(shí)點(diǎn),而是相互關(guān)聯(lián)、層層遞進(jìn)的體系。理解這些概念的關(guān)鍵在于動(dòng)手實(shí)踐,而非僅僅閱讀文檔。
    的頭像 發(fā)表于 04-13 13:55 ?228次閱讀

    MEAN WELL RPS - 160系列160W醫(yī)療電源:可靠

    MEAN WELL RPS - 160系列160W醫(yī)療電源:可靠選 在醫(yī)療設(shè)備的設(shè)計(jì)中,電源的穩(wěn)定性和安全性至關(guān)重要。今天要給大家介紹的是MEAN WELL的RPS - 160系列160W可靠綠色
    的頭像 發(fā)表于 04-05 14:10 ?680次閱讀

    天合儲(chǔ)能亮相Energy Storage Summit USA 2026

    近日,在全球儲(chǔ)能行業(yè)備受矚目的Energy Storage Summit USA 2026上,天合儲(chǔ)能受邀發(fā)表主題演講,圍繞“大規(guī)模燃燒測(cè)試的關(guān)鍵經(jīng)驗(yàn)”展開(kāi)分享,從系統(tǒng)級(jí)安全驗(yàn)證出發(fā),展示了儲(chǔ)能系統(tǒng)在極端工況下的安全設(shè)計(jì)能力,獲得現(xiàn)場(chǎng)廣泛關(guān)注。
    的頭像 發(fā)表于 03-30 16:05 ?723次閱讀

    瑞薩RA系列FSP庫(kù)開(kāi)發(fā)實(shí)戰(zhàn)指南FatFs文件系統(tǒng)介紹

    即使讀者可能不了解文件系統(tǒng),讀者也一定對(duì)“文件”這個(gè)概念十分熟悉。數(shù)據(jù)在PC上是以文件的形式儲(chǔ)存在磁盤中的,這些數(shù)據(jù)的形式一般為ASCII 碼或二進(jìn)制形式。
    的頭像 發(fā)表于 03-18 13:47 ?4636次閱讀
    瑞薩RA<b class='flag-5'>系列</b>FSP庫(kù)開(kāi)發(fā)實(shí)戰(zhàn)指南<b class='flag-5'>之</b>FatFs<b class='flag-5'>文件</b>系統(tǒng)介紹

    TDK IBQ系列磁性片:RFID應(yīng)用的理想

    TDK IBQ系列磁性片:RFID應(yīng)用的理想選 在電子工程領(lǐng)域,RFID(射頻識(shí)別)技術(shù)的應(yīng)用日益廣泛,而磁性片作為其中關(guān)鍵的組成部分,其性能的優(yōu)劣直接影響著整個(gè)系統(tǒng)的表現(xiàn)。今天,我們就來(lái)深入
    的頭像 發(fā)表于 12-25 15:40 ?454次閱讀

    IBM Storage Scale System 6000煥新升級(jí)

    沒(méi)有數(shù)據(jù)的 AI 工廠就像沒(méi)有燃料的引擎,根本無(wú)法運(yùn)轉(zhuǎn)。IBM Storage Scale System 6000 的全局命名空間和 Active File Management (AFM) 功能
    的頭像 發(fā)表于 11-30 09:12 ?805次閱讀

    RK?平臺(tái)?Vendor Storage?開(kāi)發(fā)指南:基礎(chǔ)知識(shí)、流程與實(shí)用技巧

    在瑞芯微(RK)平臺(tái)的嵌入式開(kāi)發(fā)中,vendor_storage?是一個(gè)核心模塊,專門用于存儲(chǔ)?SN(序列號(hào))、MAC?地址、DRM?密鑰等廠商專屬數(shù)據(jù)。它不僅提供了跨環(huán)境的數(shù)據(jù)讀寫能力,還具
    的頭像 發(fā)表于 11-22 07:11 ?1239次閱讀
    RK?平臺(tái)?Vendor <b class='flag-5'>Storage</b>?開(kāi)發(fā)指南:基礎(chǔ)知識(shí)、流程與實(shí)用技巧

    Hudi系列:Hudi核心概念索引(Indexs)

    Hudi系列:Hudi核心概念(版本1.0) ?Hudi架構(gòu) ?一. 時(shí)間軸(TimeLine)
    的頭像 發(fā)表于 10-21 09:47 ?539次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b><b class='flag-5'>核心</b><b class='flag-5'>概念</b><b class='flag-5'>之</b>索引(Indexs)

    辰專利布局,深挖傳感技術(shù)發(fā)展護(hù)城河

    深圳市瑞辰科技有限公司成立于2007年,成立多年來(lái)在MEMS傳感器領(lǐng)域展現(xiàn)出了驚人的創(chuàng)新能力和技術(shù)實(shí)力。瑞辰深知知識(shí)產(chǎn)權(quán)的重要性,已經(jīng)申請(qǐng)和獲取了數(shù)十項(xiàng)以MEMS為核心的專利,涵蓋了傳感器芯片
    的頭像 發(fā)表于 07-04 13:57 ?1455次閱讀
    瑞<b class='flag-5'>之</b>辰專利<b class='flag-5'>布局</b>,深挖傳感技術(shù)發(fā)展護(hù)城河

    harmony-utilsFileUtil,文件相關(guān)工具類

    harmony-utilsFileUtil,文件相關(guān)工具類
    的頭像 發(fā)表于 07-03 18:23 ?703次閱讀

    harmony-utilsPreviewUtil,文件預(yù)覽工具類

    harmony-utilsPreviewUtil,文件預(yù)覽工具類 harmony-utils 簡(jiǎn)介與說(shuō)明 [harmony-utils] 一款功能豐富且極易上手的HarmonyOS工具庫(kù),借助眾多
    的頭像 發(fā)表于 07-03 11:40 ?591次閱讀

    Linux系統(tǒng)管理的核心概念

    在前一篇文章中,我們深入探討了Linux中的文件操作命令,如cp、mv、rm,以及文本處理命令grep、wc和管道符。本文將繼續(xù)深入Linux系統(tǒng)管理的核心概念,包括root用戶的角色、用戶和用戶組
    的頭像 發(fā)表于 05-15 17:05 ?849次閱讀
    孟津县| 金寨县| 克东县| 辽宁省| 广灵县| 和田县| 常德市| 青田县| 康定县| 平昌县| 托克逊县| 汝州市| 佛山市| 平定县| 林州市| 五河县| 绍兴市| 桐柏县| 桐庐县| 阿拉善右旗| 廊坊市| 台湾省| 随州市| 霍山县| 台南市| 新化县| 西贡区| 淅川县| 渭源县| 缙云县| 资阳市| 石楼县| 莲花县| 阳东县| 乃东县| 丁青县| 大悟县| 临邑县| 威海市| 舒城县| 张掖市|