日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Hudi系列:表類型(Table & Query Types)

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-10-21 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Hudi系列:Hudi核心概念(版本1.0)

?Hudi架構

?一. 時間軸(TimeLine)s

?1.1 時間軸(TimeLine)概念

?1.2 Hudi的時間線由組成

?1.3 時間線上的Instant action操作類型

?1.4 時間線上State狀態(tài)類型

?1.5 時間線官網(wǎng)實例

?二. 文件布局

?三. 索引

3.1 簡介

3.2 對比其它(Hive)沒有索引的區(qū)別

3.2 多態(tài)索引

布隆過濾器

記錄索引

表達索引

二級索引

3.3寫入端的索引類型

3.4 全局索引與非全局索引

四. 表類型

4.1 COW:(Copy on Write)寫時復制表

4.1.1概念

4.1.2 COW工作原理

4.1.3 COW表對表的管理方式改進點

4.2 MOR:(Merge on Read)讀時復制表

4.2.1 概念

4.2.2 MOR表工作原理

4.3 總結了兩種表類型之間的權衡

五. 查詢類型

?

?

四、簡介

Hudi 表類型定義了數(shù)據(jù)的存儲方式以及如何在表上執(zhí)行寫入操作(即如何寫入數(shù)據(jù))。反過來,查詢類型定義了如何將底層數(shù)據(jù)暴露給查詢(即如何讀取數(shù)據(jù))。
Hudi 引入了以下目前已在業(yè)界廣泛使用的表類型,根據(jù)實際情況權衡取舍。
Copy On Write :Merge On Read:讀取時合并 (MoR) 表類型通過使用定期壓縮將輕量級日志文件與基礎文件合并,從而平衡寫入和讀取性能。
數(shù)據(jù)更新和刪除操作會寫入日志文件(以基于行的格式,例如 Avro 或列式/基礎文件格式),然后在查詢執(zhí)行期間將日志文件中的這些更改與基礎文件動態(tài)合并。這種方法降低了寫入延遲,
并支持近乎實時的數(shù)據(jù)可用性。但是,查詢性能可能會因日志文件是否壓縮而有所不同。
核心事務功能(例如原子寫入、索引)以及獨特的新功能(例如增量查詢、自動文件大小調(diào)整和可擴展表元數(shù)據(jù)跟蹤)均在兩者中提供,且與表類型無關。

4.1Copy On Write Table

4.1概念

寫時復制 (COW) 表類型針對讀取密集型工作負載進行了優(yōu)化。在此模式下,記錄更新或刪除會觸發(fā)在文件組中創(chuàng)建新的基礎文件,并且不會寫入日志文件。這確保每個查詢僅讀取基礎文件,從而提供
較高的讀取性能,而無需動態(tài)合并日志文件。雖然 COW 表非常適合 OLAP 掃描/查詢,但由于在更新或刪除期間重寫基礎文件的開銷,即使每個文件中只修改了少量記錄,它們的寫入操作也可能較慢。 
下面從概念上說明了當數(shù)據(jù)寫入時復制表并在其上運行兩個查詢時其工作原理。

4.1.2COW工作原理

wKgZPGjx0MyAHZS1AAP8JI1VUVM476.png

隨著數(shù)據(jù)的寫入,對現(xiàn)有文件組的更新會為該文件組生成一個新的切片,并標記與提交請求的時刻相關聯(lián);而插入操作則會分配一個新的文件組,并為該文件組寫入其第一個切片。
這些文件切片及其提交完成的時刻已在上方以同一顏色編碼。針對上圖 SQL 查詢首先檢查已完成寫入的時間線,并過濾每個文件組除最新文件切片之外的所有文件切片。如您所見,較舊的查詢不會看到
當前正在進行的提交的文件(以粉紅色編碼),但提交后啟動的新查詢會獲取新數(shù)據(jù)。因此,查詢不會受到任何寫入失敗/部分寫入的影響,并且只會讀取已提交的數(shù)據(jù)。

4.1.3 COW表對表的管理方式改進點

1.在原有文件上進行自動更新數(shù)據(jù),而不是重新刷新整個表/分區(qū)

2.能夠只讀取修改部分的數(shù)據(jù),而不是浪費查詢無效數(shù)據(jù)

3.嚴格控制文件大小來保證查詢性能(小文件會顯著降低查詢性能)

4.2 Merge On Read Table

4.2.1概念

讀取時合并 (MOR) 表類型通過使用定期壓縮將輕量級日志文件與基文件合并,從而平衡寫入和讀取性能。數(shù)據(jù)更新和刪除操作會寫入日志文件(以基于行的格式,例如 Avro 或列式/基文件格式),
然后在查詢執(zhí)行期間將日志文件中的這些更改動態(tài)地與基文件合并。這種方法可以降低寫入延遲并支持近乎實時的數(shù)據(jù)可用性。但是,查詢性能可能會因日志文件是否被壓縮而有所不同。

4.1.2MOR工作原理

下面說明了 MOR 表的工作原理,并展示了兩種類型的查詢 - 快照查詢和讀取優(yōu)化查詢。

wKgZO2jx0M2AdaQdAARwZZFEKZM506.png

?

這個例子中發(fā)生了很多有趣的事情,方法出方法的微妙之處。
1)如上圖所示,可以做到每一分鐘提交一次寫入操作
2)查詢表的方式有兩種,Read Optimized query和Snapshot query,取決于我們選擇是要查詢性能還是數(shù)據(jù)最新

3)如上圖所示,Read Optimized query查詢不到10:05之后的數(shù)據(jù)(查詢不到增量日志里的數(shù)據(jù),沒有合并到base文件),而Snapshot query則可以查詢到全量數(shù)據(jù)(基本列數(shù)據(jù)+行式的增量日志數(shù)據(jù))

4.3總結兩種表的類型之前的權衡

權衡 寫時復制COW 讀取時合并MOR
寫入延遲 更高 降低
查詢延遲 降低 更高
更新成本 更高(重寫整個基礎文件) 較低(附加到增量日志)
基本文件大小 需要更小以避免高更新(I/0)成本 可以更大,因為更新成本很低且可以攤銷
讀取放大 0 對于查詢讀取的文件組:O(records_changed)
寫入放大 對于給定的更新/刪除模式,最高為O(file_groups_written) 對于寫入的文件組:O(records_changed)

?

五. 查詢類型

?Snapshot Queries:查詢會查看截至最新完成操作的最新表快照。這些是每個人都習慣在表上運行的常規(guī) SQL 查詢。Hudi 存儲引擎會在支持的查詢引擎上盡可能使用索引來加速這些快照查詢。

?

?Time Travel Queries:查詢過去某個時刻的表快照。時間旅行查詢有助于訪問表的多個版本(例如,機器學習特征存儲,用于根據(jù)用于訓練算法/模型的精確數(shù)據(jù)對其進行評分),這些版本位于活動時間線中的某個時刻或過去的保存點。

?

?Read Optimized Queries (Only MoR tables):讀優(yōu)化查詢通過純列式文件(例如Parquet 基礎文件)提供出色的快照查詢性能。用戶通常使用與事務邊界一致的壓縮策略,以提供表/分區(qū)的舊一致性視圖。這對于集成來自數(shù)據(jù)倉庫的 Hudi 表非常有用,因為這些數(shù)據(jù)倉庫通常僅將列式基礎文件作為外部表進行查詢,或者對于延遲不敏感、更注重效率而非數(shù)據(jù)新鮮度的 ML/AI 訓練作業(yè)。

?

? Incremental Queries (Latest State):增量查詢僅返回自時間軸上某一時刻以來寫入表的新數(shù)據(jù)。提供自表的給定時間點以來插入/更新的記錄的最新值(即,查詢?yōu)槊總€記錄鍵輸出一條記錄)??捎糜诒容^兩個時間點之間的表狀態(tài)差異。

?

?Incremental Queries(CDC):這是另一種增量查詢,它提供類似數(shù)據(jù)庫的 Hudi 表變更數(shù)據(jù)捕獲流。CDC 查詢的輸出包含自某個時間點或兩個時間點之間插入、更新或刪除的記錄,以及每條變更記錄的前后圖像,以及導致變更的操作。

權衡 Snapshot Read Optimized
數(shù)據(jù)延遲 降低 更高
查詢延遲 更高(合并基礎/列式文件 + 基于行的增量/日志文件) 較低(原始基/柱狀文件性能)




審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    先積新品發(fā)布|36V高壓RRIO運放雙系列齊發(fā):LTA637x& LTA638x

    先積集成新產(chǎn)品發(fā)布LTA637x&LTA638x36V高壓RRIO運放雙系列前言//先積集成(Linearin)正式發(fā)布兩款36V寬壓通用運算放大器系列——LTA637x與LTA638x
    的頭像 發(fā)表于 04-30 16:12 ?313次閱讀
    先積新品發(fā)布|36V高壓RRIO運放雙<b class='flag-5'>系列</b>齊發(fā):LTA637x&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; LTA638x

    PT32L005&amp;amp;F005系列32位微控制器

    PT32L005&amp;amp;F005系列32位微控制器PT32L005&amp;amp;F005是澎湃微電子(PAI-IC) 推出的兩
    發(fā)表于 03-05 08:51

    LoRa1121 FCC&amp;amp;CE認證 多頻段LoRa無線通訊模塊規(guī)格書

    LoRa1121 FCC&amp;CE認證 多頻段LoRa無線通訊模塊規(guī)格書
    發(fā)表于 02-26 14:36 ?0次下載

    工業(yè)場景下 TE AMP 線束線纜組件選型全攻略

    TE Connectivity(簡稱 TE / 泰科電子)是全球領先的電子互連解決方案供應商,其 AMP Connectors 系列產(chǎn)品覆蓋各種工業(yè)及汽車應用場景。AMP 系列包含從基
    的頭像 發(fā)表于 12-16 14:18 ?750次閱讀
    工業(yè)場景下 TE <b class='flag-5'>AMP</b> 線束線纜組件選型全攻略

    探秘EV系列0.8 Amp敏感可控硅:特性、應用與設計要點

    探秘EV系列0.8 Amp敏感可控硅:特性、應用與設計要點 在電子工程師的日常設計工作中,可控硅(SCR)是一種常見且關鍵的半導體器件,廣泛應用于各種電路中。今天,我們將深入探討Littelfuse
    的頭像 發(fā)表于 12-16 13:50 ?512次閱讀

    30/35 Amp高溫雙向可控硅——QJxx30xH4 &amp; QJxx35xH4系列的特性與應用

    30/35 Amp高溫雙向可控硅——QJxx30xH4 QJxx35xH4系列的特性與應用 在電子工程師的日常設計工作中,可控硅是交流電源控制應用里常用的器件。今天,我們就來深入探討一下
    的頭像 發(fā)表于 12-16 10:30 ?541次閱讀

    30/35 Amp高溫雙向晶閘管Triacs:QJxx30xH4與QJxx35xH4系列解析

    30/35 Amp高溫雙向晶閘管Triacs:QJxx30xH4與QJxx35xH4系列解析 在電子設計中,晶閘管作為一種重要的半導體器件,廣泛應用于各種交流功率控制場景。今天就來為大家詳細介紹
    的頭像 發(fā)表于 12-16 10:30 ?484次閱讀

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡分析儀,頻率高達 54 GHz

    瓦茨(以下簡稱“R&amp;S”)在今年的歐洲微波周(EuMW)上展示頻率覆蓋高達54GHz的新型號ZNB3000,此系列矢量網(wǎng)絡分析儀助力工程師快速獲得測量結果。R&amp;SZNB3000矢
    的頭像 發(fā)表于 12-04 17:04 ?857次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡分析儀,頻率高達 54 GHz

    Hudi系列:Hudi核心概念之索引(Indexs)

    Hudi系列:Hudi核心概念(版本1.0) ?Hudi架構 ?一. 時間軸(TimeLine)s ?1.1 時間軸(TimeLine)概念 ?1.2
    的頭像 發(fā)表于 10-21 09:47 ?567次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b>核心概念之索引(Indexs)

    Hudi系列:Hudi核心概念之文件布局(Storage Layouts)

    Hudi索引類型 ?3.4 全局索引與非全局索引 ?四. 類型 ?4.1 COW:(Copy on Write)寫時復制表 ?4.1.1 概念 ?4.1.2 COW工作原理 ?4.
    的頭像 發(fā)表于 10-14 16:06 ?880次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b>核心概念之文件布局(Storage Layouts)

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器 skyworksinc

    、接線圖、封裝手冊、中文資料、英文資料,1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器真值,1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器管腳等資料,希望可以幫助到廣大的電子工程師們
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 GaN CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器 skyworksinc

    、接線圖、封裝手冊、中文資料、英文資料,870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器真值,870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器管腳等資料,希望可以幫助到廣大的電子工程師們
    發(fā)表于 09-01 18:30
    870 MHz、25 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器 skyworksinc

    、封裝手冊、中文資料、英文資料,1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器真值,1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器管腳等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 08-29 18:35
    1 GHz、28 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?939次閱讀
    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機直連衛(wèi)星方面取得重要進展,使用普通手機實現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1456次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛(wèi)星了
    江西省| 松阳县| 淮滨县| 威海市| 麻城市| 晋宁县| 神农架林区| 图木舒克市| 治县。| 普宁市| 灵石县| 冷水江市| 鹤岗市| 安阳县| 台东县| 通辽市| 南江县| 靖远县| 台中市| 海林市| 苍梧县| 疏勒县| 阳山县| 广平县| 肥乡县| 韶关市| 大宁县| 阜城县| 贵溪市| 武宣县| 瑞金市| 祥云县| 巫山县| 衡东县| 丹东市| 大宁县| 揭阳市| 武邑县| 铁力市| 台山市| 淮北市|