日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

網(wǎng)易傳媒基于Arctic的低成本準(zhǔn)實(shí)時(shí)計(jì)算實(shí)踐

OSC開源社區(qū) ? 來(lái)源:OSC開源社區(qū) ? 作者:OSC開源社區(qū) ? 2022-11-15 15:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

網(wǎng)易傳媒大數(shù)據(jù)實(shí)際業(yè)務(wù)中,存在著大量的準(zhǔn)實(shí)時(shí)計(jì)算需求場(chǎng)景,業(yè)務(wù)方對(duì)于數(shù)據(jù)的實(shí)效性要求一般是分鐘級(jí);這種場(chǎng)景下,用傳統(tǒng)的離線數(shù)倉(cāng)方案不能滿足用戶在實(shí)效性方面的要求,而使用全鏈路的實(shí)時(shí)計(jì)算方案又會(huì)帶來(lái)較高的資源占用。

基于對(duì)開源數(shù)據(jù)湖方案的調(diào)研,我們注意到了網(wǎng)易數(shù)帆開源的基于 Apache Iceberg 構(gòu)建的 Arctic 數(shù)據(jù)湖解決方案。Arctic 能相對(duì)較好地支持與服務(wù)于流批混用的場(chǎng)景,其開放的疊加式架構(gòu),可以幫助我們非常平滑地過(guò)渡與實(shí)現(xiàn) Hive 到數(shù)據(jù)湖的升級(jí)改造,且由于傳媒離線數(shù)倉(cāng)已接入有數(shù),通過(guò) Arctic 來(lái)改造現(xiàn)有業(yè)務(wù)的成本較低,于是我們準(zhǔn)備通過(guò)引入 Arctic ,嘗試解決 push 業(yè)務(wù)場(chǎng)景下的痛點(diǎn)。

1

項(xiàng)目背景

以傳媒 push 實(shí)時(shí)數(shù)倉(cāng)為例,新聞推送在地域、時(shí)間、頻次等因素上有較高的不確定性,非常容易出現(xiàn)偶發(fā)的流量洪峰,尤其是在出現(xiàn)突發(fā)性社會(huì)熱點(diǎn)新聞的時(shí)候。如果采用全鏈路的實(shí)時(shí)計(jì)算方案來(lái)處理,則需要預(yù)留出較多的資源 buffer 來(lái)應(yīng)對(duì)。

由于推送時(shí)機(jī)的不確定性,push 業(yè)務(wù)的數(shù)據(jù)指標(biāo)一般不是增量型的,而是以當(dāng)天截止到當(dāng)前的各種累計(jì)型指標(biāo)為主,計(jì)算窗口通常為十五分鐘到半小時(shí)不等,統(tǒng)計(jì)維度區(qū)分發(fā)送類型、內(nèi)容分類、發(fā)送票數(shù)、發(fā)送廠商、首啟方式、用戶活躍度、AB 實(shí)驗(yàn)等,具有流量波動(dòng)大和數(shù)據(jù)口徑繁多等特點(diǎn)。

c0f6894a-6421-11ed-8abf-dac502259ad0.png

此前采用的全鏈路 Flink 實(shí)時(shí)計(jì)算方案中,主要遇到以下問(wèn)題:

(1)資源占用成本高

為應(yīng)對(duì)流量洪峰,需要為實(shí)時(shí)任務(wù)分配預(yù)留出較高的資源,且多個(gè)聚合任務(wù)需要消費(fèi)同一個(gè)上游數(shù)據(jù),存在讀放大問(wèn)題。push 相關(guān)的實(shí)時(shí)計(jì)算流程占到了實(shí)時(shí)任務(wù)總量的 18+%,而資源使用量占到了實(shí)時(shí)資源總使用量的近 25%。

(2)大狀態(tài)帶來(lái)的任務(wù)穩(wěn)定性下降

push 業(yè)務(wù)場(chǎng)景下進(jìn)行窗口計(jì)算時(shí),大流量會(huì)帶來(lái)大狀態(tài)的問(wèn)題,而大狀態(tài)的維護(hù)在造成資源開支的同時(shí)比較容易影響任務(wù)的穩(wěn)定性。

(3)任務(wù)異常時(shí)難以及時(shí)的進(jìn)行數(shù)據(jù)修復(fù)

實(shí)時(shí)任務(wù)出現(xiàn)異常時(shí),以實(shí)時(shí)方式來(lái)回溯數(shù)據(jù)時(shí)效慢且流程復(fù)雜;而以離線流程來(lái)修正,則會(huì)帶來(lái)雙倍的人力和存儲(chǔ)成本。

2

項(xiàng)目思路和方案

2.1項(xiàng)目思路

我們通過(guò)對(duì)數(shù)據(jù)湖的調(diào)研,期望利用數(shù)據(jù)實(shí)時(shí)入湖的特點(diǎn),同時(shí)使用 Spark 等離線資源完成計(jì)算,用較低的成本滿足業(yè)務(wù)上對(duì)準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景的需求。我們以 push 業(yè)務(wù)場(chǎng)景作為試點(diǎn)進(jìn)行方案的探索落地,再逐漸將方案推廣至更多類似業(yè)務(wù)場(chǎng)景。

基于對(duì)開源數(shù)據(jù)湖方案的調(diào)研,我們注意到了網(wǎng)易數(shù)帆開源的基于 Apache Iceberg 構(gòu)建的 Arctic 數(shù)據(jù)湖解決方案。Arctic 能相對(duì)較好地支持與服務(wù)于流批混用的場(chǎng)景,其開放的疊加式架構(gòu),可以幫助我們非常平滑地過(guò)渡與實(shí)現(xiàn) Hive 到數(shù)據(jù)湖的升級(jí)改造,且由于傳媒離線數(shù)倉(cāng)已接入有數(shù),通過(guò) Arctic 來(lái)改造現(xiàn)有業(yè)務(wù)的成本較低,于是我們準(zhǔn)備通過(guò)引入 Arctic ,嘗試解決 push 業(yè)務(wù)場(chǎng)景下的痛點(diǎn)。

Arctic 是由網(wǎng)易數(shù)帆開源的流式湖倉(cāng)系統(tǒng),在 Iceberg 和 Hive 之上添加了更多實(shí)時(shí)場(chǎng)景的能力。通過(guò) Arctic,用戶可以在 Flink、Spark、Trino、Impala 等引擎上實(shí)現(xiàn)更加優(yōu)化的 CDC、流式更新、OLAP 等功能。

c10dc434-6421-11ed-8abf-dac502259ad0.png

實(shí)現(xiàn) push 業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)湖改造,只需要使用 Arctic 提供的 Flink Connector,便可快速地實(shí)現(xiàn) push 明細(xì)數(shù)據(jù)的實(shí)時(shí)入湖。

此時(shí)需要我們關(guān)注的重點(diǎn)是,數(shù)據(jù)產(chǎn)出需要滿足分鐘級(jí)業(yè)務(wù)需求。數(shù)據(jù)產(chǎn)出延遲由兩部分組成:

數(shù)據(jù)就緒延遲,取決于 Flink 實(shí)時(shí)任務(wù)的 Commit 間隔,一般為分鐘級(jí)別;

數(shù)據(jù)計(jì)算耗時(shí),取決于計(jì)算引擎和業(yè)務(wù)邏輯:數(shù)據(jù)產(chǎn)出延遲 = 數(shù)據(jù)就緒延遲 + 數(shù)據(jù)計(jì)算耗時(shí)

2.2 解決方案

2.2.1 數(shù)據(jù)實(shí)時(shí)入湖

Arctic 能夠兼容已有的存儲(chǔ)介質(zhì)(如 HDFS)和表結(jié)構(gòu)(如 Hive、Iceberg),并在之上提供透明的流批一體表服務(wù)。存儲(chǔ)結(jié)構(gòu)上主要為 Basestore 和 Changestore 兩部分:

(1)Basestore 中存儲(chǔ)了表的存量數(shù)據(jù)。它通常由 Spark/Flink 等引擎完成第一次寫入,再之后則通過(guò)自動(dòng)的結(jié)構(gòu)優(yōu)化過(guò)程將 Changestore 中的數(shù)據(jù)轉(zhuǎn)化之后寫入。

(2)Changestore 中存儲(chǔ)了表上最近的變更數(shù)據(jù)。Changestore 中存儲(chǔ)了表上最近的變更數(shù)據(jù)。它通常由 Apache Flink 任務(wù)實(shí)時(shí)寫入,并用于下游 Flink 任務(wù)進(jìn)行準(zhǔn)實(shí)時(shí)的流式消費(fèi)。同時(shí)也可以對(duì)它直接進(jìn)行批量計(jì)算或聯(lián)合 Basestore 里的數(shù)據(jù)一起通過(guò) Merge-On-Read(以下簡(jiǎn)稱為MOR) 的查詢方式提供分鐘級(jí)延遲的批量查詢能力。

c1342db8-6421-11ed-8abf-dac502259ad0.png

Arctic 表支持實(shí)時(shí)數(shù)據(jù)的流式寫入,數(shù)據(jù)寫入過(guò)程中為了保證數(shù)據(jù)的實(shí)效性,寫入側(cè)需要頻繁的進(jìn)行數(shù)據(jù)提交,但因此會(huì)產(chǎn)生大量的小文件,積壓的小文件一方面會(huì)影響數(shù)據(jù)的查詢性能,另一方面也會(huì)對(duì)文件系統(tǒng)帶來(lái)壓力。這方面,Arctic 支持基于主鍵的行級(jí)更新,提供了 Optimizer 來(lái)進(jìn)行數(shù)據(jù) Update 和自動(dòng)的結(jié)構(gòu)優(yōu)化,以幫助用戶解決數(shù)據(jù)湖常見(jiàn)的小文件、讀放大、寫放大等問(wèn)題。

以傳媒 push 數(shù)倉(cāng)場(chǎng)景為例,push 發(fā)送、送達(dá)、點(diǎn)擊、展示等明細(xì)數(shù)據(jù)需要通過(guò) Flink 作業(yè)實(shí)時(shí)寫入到 Arctic 中。由于上游已經(jīng)做了 ETL 清洗,此階段只需要通過(guò) FlinkSQL 即可方便地將上游數(shù)據(jù)寫入 Changestore。Changestore 內(nèi)包含了存儲(chǔ)插入數(shù)據(jù)的 insert 文件和存儲(chǔ)刪除數(shù)據(jù)的 equality delete 文件,更新數(shù)據(jù)會(huì)被拆分為更新前項(xiàng)和更新后項(xiàng)分別存儲(chǔ)在 delete 文件與 insert 文件中。

具體的,對(duì)于有主鍵場(chǎng)景,insert/update_after 消息會(huì)寫入 Changestore 的 insert 文件,delete/update_before 會(huì)寫入 Arctic 的 delete 文件。當(dāng)進(jìn)行 Optimize 的時(shí)候,會(huì)先把 delete 文件讀到內(nèi)存中形成一個(gè) delete map, map 的 key 是記錄的主鍵,value 是 record_lsn。然后 再讀取 Basestore 和 Changestore 中的 insert 文件, 對(duì)主鍵相同的 row 進(jìn)行 record_lsn 的對(duì)比,如果 insert 記錄中 record_lsn 比 deletemap 中相同主鍵的 record_lsn 小,則認(rèn)為這條記錄已經(jīng)被刪除了,不會(huì)再追加到 base 里;否則把數(shù)據(jù)寫入到新文件里,最終實(shí)現(xiàn)了行級(jí)的更新。

2.2.2 湖水位感知

傳統(tǒng)的離線計(jì)算在調(diào)度方面需要有一個(gè)觸發(fā)機(jī)制,一般由作業(yè)調(diào)度系統(tǒng)按照任務(wù)之間的依賴關(guān)系來(lái)處理,當(dāng)上游任務(wù)全部成功后自動(dòng)調(diào)起下游的任務(wù)。但在實(shí)時(shí)入湖的場(chǎng)景下,下游任務(wù)缺乏一個(gè)感知數(shù)據(jù)是否就緒的途徑。以 push 場(chǎng)景為例,需要產(chǎn)出的指標(biāo)主要為按照指定的時(shí)間粒度來(lái)計(jì)算一次當(dāng)天累計(jì)的各種統(tǒng)計(jì)值,此時(shí)下游如果沒(méi)法感知當(dāng)前湖表水位的話,要么需要留出一個(gè)較冗余的緩沖時(shí)間來(lái)保證數(shù)據(jù)就緒,要么則有漏數(shù)據(jù)的可能,畢竟 push 場(chǎng)景的流量變化是非常起伏不定的。

傳媒大數(shù)據(jù)團(tuán)隊(duì)和 Arctic 團(tuán)隊(duì)借鑒了 Flink Watermark 的處理機(jī)制和 Iceberg 社區(qū)討論的方案,將 Watermark 信息寫入到 Iceberg 表的 metadata 文件里,然后由 Arctic 通過(guò)消息隊(duì)列或者 API 暴露出來(lái),從而做到下游任務(wù)的主動(dòng)感知,盡可能地降低了啟動(dòng)延遲。具體方案如下:

(1)Arctic 表水位感知

當(dāng)前只考慮 Flink 寫入的場(chǎng)景,業(yè)務(wù)在 Flink 的 source 定義事件時(shí)間和 Watermark。ArcticSinkConnector 包含兩個(gè)算子,一個(gè)是負(fù)責(zé)寫文件的多并發(fā)的 ArcticWriter, 一個(gè)是負(fù)責(zé)提交文件的的單并發(fā)的 ArcticFileCommitter。當(dāng)執(zhí)行 checkpoint 時(shí),ArcticFileCommitter 算子會(huì)進(jìn)行 Watermark 對(duì)齊之后取最小的 Watermark。會(huì)新建一個(gè)類似于 Iceberg 事務(wù)的 AMS Transaction,在這個(gè)事務(wù)里除了 AppendFiles 到 Iceberg,同時(shí)把 TransactionID,以及 Watermark 通過(guò) AMS 的 thrift 接口上報(bào)給 AMS。

c14b6456-6421-11ed-8abf-dac502259ad0.png

(2)Hive 表水位感知

Hive表里可見(jiàn)的數(shù)據(jù)是經(jīng)過(guò) Optimize 過(guò)后的數(shù)據(jù),Optimize 由 AMS 來(lái)調(diào)度,F(xiàn)link 任務(wù)異常執(zhí)行文件的讀寫合并,并且把 Metric 上報(bào)給 AMS, 由 AMS 來(lái)把這一次 Optimize 執(zhí)行的結(jié)果 Commit,AMS 天然知道這一次 Optimize 推進(jìn)到了哪次 Transaction, 并且 AMS 本身也存儲(chǔ)了 Transaction 對(duì)應(yīng)的 Watermark,也就知道 Hive 表水位推進(jìn)到了哪里。

2.2.3 數(shù)據(jù)湖查詢

Arctic 提供了 Spark/Flink/Trino/Impala 等計(jì)算引擎的 Connector 支持。通過(guò)使用Arctic數(shù)據(jù)源,各計(jì)算引擎都可以實(shí)時(shí)讀取到已經(jīng) Commit 的文件,Commit 的間隔按照業(yè)務(wù)的需求一般為分鐘級(jí)別。下面以 push 業(yè)務(wù)為例介紹幾種場(chǎng)景下的查詢方案和相應(yīng)成本:

(1)Arctic + Trino/Impala 滿足秒級(jí) OLAP 查詢

OLAP 場(chǎng)景下,用戶一般更關(guān)注計(jì)算上的耗時(shí),對(duì)數(shù)據(jù)就緒的敏感度相對(duì)不高。針對(duì)中小規(guī)模數(shù)據(jù)量的 Arctic 表或較簡(jiǎn)單的查詢,通過(guò) Trino/Impala 進(jìn)行 OLAP 查詢是一個(gè)相對(duì)高效的方案,基本上可以做到秒級(jí) MOR 查詢耗時(shí)。成本上,需要搭建 Trino/Impala 集群,如果團(tuán)隊(duì)中已有在使用的話,則可以根據(jù)負(fù)載情況考慮復(fù)用。

c1649c8c-6421-11ed-8abf-dac502259ad0.png

Arctic 在開源發(fā)布會(huì)上發(fā)布了自己的 benchmark 數(shù)據(jù),在數(shù)據(jù)庫(kù) CDC 持續(xù)流式攝取的場(chǎng)景下,對(duì)比各個(gè)數(shù)據(jù)湖 Format 的 OLAP benchmark 性能, 整體上帶 Optimize 的 Arctic 的性能優(yōu)于 Hudi,這主要得益于 Arctic 內(nèi)部有一套高效的文件索引 Arctic Tree,在 MOR 場(chǎng)景下可以做到更細(xì)粒度、精確地 merge。詳細(xì)的對(duì)比報(bào)告可以參考:https://arctic.netease.com/ch/benchmark/。

c17906a4-6421-11ed-8abf-dac502259ad0.png

(2)Arctic + Spark 滿足分鐘級(jí)預(yù)聚合查詢

針對(duì)提供下游數(shù)據(jù)報(bào)表展示的場(chǎng)景,一般需要走預(yù)計(jì)算的流程將結(jié)果持久化下來(lái),對(duì)數(shù)據(jù)就緒和計(jì)算耗時(shí)的敏感度都較高,而且查詢邏輯相對(duì)復(fù)雜,Trino/Impala 集群規(guī)模相對(duì)較小,執(zhí)行容易失敗,導(dǎo)致穩(wěn)定性欠佳。這個(gè)場(chǎng)景下我們使用了集群部署規(guī)模最大的 Spark 引擎來(lái)處理,在不引入新的資源成本的情況下,做到了離線計(jì)算資源的復(fù)用。

數(shù)據(jù)就緒方面,通過(guò) Arctic 表水位感知方案,可以做到較低的分鐘級(jí)就緒延遲。

計(jì)算方面,Arctic 對(duì) Spark Connector 提供了一些讀取優(yōu)化,用戶可以通過(guò)配置 Arctic 表的 read.split.planning-parallelism 和 read.split.planning-parallelism-factor 這兩個(gè)參數(shù)值,來(lái)調(diào)整 Arctic Combine Task 的數(shù)量,進(jìn)而控制計(jì)算任務(wù)的并發(fā)度。由于 Spark 離線計(jì)算的資源相對(duì)靈活和充足,我們可以通過(guò)上述調(diào)整并發(fā)度的方式來(lái)保證在 2~3 分鐘內(nèi)完成業(yè)務(wù)的計(jì)算需求。

c1fd69c6-6421-11ed-8abf-dac502259ad0.png

(3)Hive + Spark 滿足傳統(tǒng)離線數(shù)倉(cāng)生產(chǎn)鏈路的調(diào)度

Arctic 支持將 Hive 表作為 Basestore,F(xiàn)ull Optimize 時(shí)會(huì)將文件寫入到 Hive 數(shù)據(jù)目錄下,以達(dá)到更新 Hive 原生讀取內(nèi)容的目的,通過(guò)存儲(chǔ)架構(gòu)上的流批一體來(lái)降低成本。因此傳統(tǒng)的離線數(shù)倉(cāng)生產(chǎn)鏈路,可以直接使用對(duì)應(yīng)的 Hive 表來(lái)作為離線數(shù)倉(cāng)鏈路的一部分,時(shí)效性上相較于 Arctic 表雖缺少了 MOR,但通過(guò) Hive 表水位感知方案,可以做到業(yè)務(wù)能接受的就緒延遲,從而滿足傳統(tǒng)離線數(shù)倉(cāng)生產(chǎn)鏈路的調(diào)度。

c2141b8a-6421-11ed-8abf-dac502259ad0.png

3

項(xiàng)目影響力與產(chǎn)出價(jià)值

3.1 項(xiàng)目影響力

通過(guò) Arctic + X 方案在傳媒的探索和落地,為傳媒準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景提供了一個(gè)新的解決思路。該思路不但減輕了全鏈路 Flink 實(shí)時(shí)計(jì)算方案所帶來(lái)的實(shí)時(shí)資源壓力和開發(fā)運(yùn)維負(fù)擔(dān),而且還能較好地復(fù)用現(xiàn)有的 HDFS 和 Spark 等存儲(chǔ)計(jì)算資源,做到了降本增效。

此外 Arctic 在音樂(lè)、有道等多個(gè) BU 也有落地,比如在音樂(lè)公技,用于 ES 冷數(shù)據(jù)的存儲(chǔ),降低了用戶 ES 的存儲(chǔ)成本;而有道精品課研發(fā)團(tuán)隊(duì)也在積極探索和使用 Arctic 作為其部分業(yè)務(wù)場(chǎng)景下的解決方案。

目前 Arctic 已經(jīng)在 github 上開源,受到了開源社區(qū)與外部用戶的持續(xù)關(guān)注,在 Arctic 的建設(shè)與發(fā)展中,也收到了不少外部用戶提交的高質(zhì)量 PR 。

3.2 項(xiàng)目產(chǎn)出價(jià)值

通過(guò)上述方案我們將 push ETL 明細(xì)數(shù)據(jù)通過(guò) Flink 實(shí)時(shí)入湖到 Arctic,然后在調(diào)度平臺(tái)上配置分鐘級(jí)的調(diào)度任務(wù),按照不同交叉維度進(jìn)行計(jì)算后將累計(jì)型指標(biāo)后寫入關(guān)系數(shù)據(jù)庫(kù),最后通過(guò)有數(shù)直連進(jìn)行數(shù)據(jù)展示,做到了業(yè)務(wù)方要求的分鐘級(jí)時(shí)效數(shù)據(jù)產(chǎn)出。改造后的方案,同原來(lái)的全鏈路 Flink 實(shí)時(shí)計(jì)算方案相比:

(1)充分復(fù)用離線空閑算力,降低了實(shí)時(shí)計(jì)算資源開支

方案利用了空閑狀態(tài)下的離線計(jì)算資源,且基本不會(huì)帶來(lái)新的資源開支。離線計(jì)算業(yè)務(wù)場(chǎng)景注定了資源使用的高峰在凌晨,而新聞 push 推送及熱點(diǎn)新聞產(chǎn)生的場(chǎng)景大多為非凌晨時(shí)段,在滿足準(zhǔn)實(shí)時(shí)計(jì)算時(shí)效的前提下,通過(guò)復(fù)用提升了離線計(jì)算集群的綜合利用率。另外,該方案能幫我們釋放大約 2.4T 左右的實(shí)時(shí)計(jì)算內(nèi)存資源。

(2)降低任務(wù)維護(hù)成本,提升任務(wù)穩(wěn)定性

Arctic + Spark 水位感知觸發(fā)調(diào)度的方案可減少 17+ 實(shí)時(shí)任務(wù)的維護(hù)成本,減少了 Flink 實(shí)時(shí)計(jì)算任務(wù)大狀態(tài)所帶來(lái)的穩(wěn)定性問(wèn)題。通過(guò) Spark 離線調(diào)度任務(wù)可充分利用離線資源池調(diào)整計(jì)算并行度,有效提升了應(yīng)對(duì)突發(fā)熱點(diǎn)新聞流量洪峰時(shí)的健壯性。

(3)提升數(shù)據(jù)異常時(shí)的修復(fù)能力,降低數(shù)據(jù)修復(fù)時(shí)間開支

通過(guò)流批一體的 Arctic 數(shù)據(jù)湖存儲(chǔ)架構(gòu),當(dāng)數(shù)據(jù)出現(xiàn)異常需要修正時(shí),可靈活地對(duì)異常數(shù)據(jù)進(jìn)行修復(fù),降低修正成本;而如果通過(guò)實(shí)時(shí)計(jì)算鏈路回溯數(shù)據(jù)或通過(guò)額外的離線流程來(lái)修正,則需要重新進(jìn)行狀態(tài)累計(jì)或復(fù)雜的 ETL 流程。

4

項(xiàng)目未來(lái)規(guī)劃和展望

當(dāng)前還有一些場(chǎng)景 Arctic 不能做到較好的支持,傳媒大數(shù)據(jù)團(tuán)隊(duì)將和 Arctic 團(tuán)隊(duì)繼續(xù)對(duì)以下場(chǎng)景下的解決方案進(jìn)行探索和落地:

(1)當(dāng)前入湖前的 push 明細(xì)數(shù)據(jù)是通過(guò)上游多條數(shù)據(jù)流 join 生成的,也同樣會(huì)存在大狀態(tài)的問(wèn)題。而 Arctic 當(dāng)前只能支持行級(jí)的更新能力,如果能落地有主鍵表的部分列更新能力,則可以幫助業(yè)務(wù)在入湖的時(shí)候,以較低的成本直接實(shí)現(xiàn)多流 join。

(2)進(jìn)一步完善 Arctic 表和 Hive 表的水位定義和感知方案,提升時(shí)效,并推廣到更多的業(yè)務(wù)場(chǎng)景中。當(dāng)前的方案只支持單 Spark/Flink 任務(wù)寫入的場(chǎng)景,對(duì)于多個(gè)任務(wù)并發(fā)寫表的場(chǎng)景,還需要再完善。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:網(wǎng)易傳媒基于Arctic的低成本準(zhǔn)實(shí)時(shí)計(jì)算實(shí)踐

文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    低成本降壓調(diào)節(jié)器設(shè)計(jì):TL5001A的應(yīng)用與實(shí)踐

    低成本降壓調(diào)節(jié)器設(shè)計(jì):TL5001A的應(yīng)用與實(shí)踐 在電子工程領(lǐng)域,設(shè)計(jì)低成本且高效的降壓調(diào)節(jié)器是一項(xiàng)關(guān)鍵任務(wù)。本文將深入探討如何使用德州儀器(TI)的TL5001A設(shè)計(jì)低成本降壓調(diào)節(jié)器
    的頭像 發(fā)表于 04-23 12:15 ?186次閱讀

    中小車企 ASPICE 落地實(shí)戰(zhàn):低成本高效能研發(fā)體系搭建

    工具拆解 ASPICE 標(biāo)準(zhǔn)落地邏輯,針對(duì)中小車企痛點(diǎn)提出輕量化改造策略,為搭建低成本高效能的研發(fā)體系提供了可落地的解決方案。本文提煉核心要點(diǎn),全方位解析中小車企 ASPICE 的落地之道。 一、中小
    發(fā)表于 04-13 10:48

    64通道+166μs采樣!觸覺(jué)智能RK3506+OneOS低成本實(shí)時(shí)ADC采集方案

    本文基于觸覺(jué)智能RK3506核心板/開發(fā)板,介紹RK3506+OneOS低成本實(shí)時(shí)ADC采集方案。電網(wǎng)ADC采集隨著智能電網(wǎng)建設(shè)的加速推進(jìn),電力系統(tǒng)對(duì)數(shù)據(jù)采集的實(shí)時(shí)性、精度與抗干擾能力提出了前所未有的高要求。模數(shù)轉(zhuǎn)換器(ADC)
    的頭像 發(fā)表于 01-27 08:00 ?527次閱讀
    64通道+166μs采樣!觸覺(jué)智能RK3506+OneOS<b class='flag-5'>低成本</b><b class='flag-5'>實(shí)時(shí)</b>ADC采集方案

    北斗衛(wèi)星授時(shí)服務(wù)器:安徽京準(zhǔn)實(shí)時(shí)同步的“隱形守護(hù)者”

    北斗衛(wèi)星授時(shí)服務(wù)器:安徽京準(zhǔn)實(shí)時(shí)同步的“隱形守護(hù)者”
    的頭像 發(fā)表于 01-26 11:12 ?463次閱讀
    北斗衛(wèi)星授時(shí)服務(wù)器:安徽京<b class='flag-5'>準(zhǔn)</b><b class='flag-5'>實(shí)時(shí)</b>同步的“隱形守護(hù)者”

    Moku升級(jí)實(shí)時(shí)計(jì)算并顯示g(2)二階關(guān)聯(lián)函數(shù)及最新活動(dòng)更新

    摘要Moku時(shí)間間隔與頻率分析儀(TFA)功能進(jìn)一步升級(jí),在時(shí)間間隔測(cè)量精度與檢測(cè)配置靈活性方面實(shí)現(xiàn)顯著提升。全新版本支持實(shí)時(shí)計(jì)算并可視化顯示g(2)二階關(guān)聯(lián)函數(shù),為量子光學(xué)、單光子探測(cè)及相關(guān)前沿
    的頭像 發(fā)表于 01-22 16:45 ?3536次閱讀
    Moku升級(jí)<b class='flag-5'>實(shí)時(shí)計(jì)算</b>并顯示g(2)二階關(guān)聯(lián)函數(shù)及最新活動(dòng)更新

    實(shí)時(shí)模擬計(jì)算單元AD538:特性、應(yīng)用與設(shè)計(jì)指南

    實(shí)時(shí)模擬計(jì)算單元AD538:特性、應(yīng)用與設(shè)計(jì)指南 在電子設(shè)計(jì)領(lǐng)域,模擬計(jì)算單元的性能直接影響著系統(tǒng)的精度和穩(wěn)定性。AD538作為一款由Analog Devices推出的單芯片實(shí)時(shí)計(jì)算
    的頭像 發(fā)表于 01-15 14:50 ?642次閱讀

    澎峰科技榮獲2025新一代人工智能創(chuàng)業(yè)大賽總決賽二等獎(jiǎng)

    12月18日,由網(wǎng)易傳媒主辦的“2025新一代人工智能創(chuàng)業(yè)大賽”總決賽在北京網(wǎng)易大廈圓滿落幕。經(jīng)過(guò)多輪激烈角逐與專家評(píng)審,澎峰科技憑借其創(chuàng)新的技術(shù)方案與扎實(shí)的產(chǎn)業(yè)落地能力,在眾多優(yōu)秀項(xiàng)目中脫穎而出,榮獲大賽總決賽二等獎(jiǎng)。
    的頭像 發(fā)表于 12-28 10:24 ?480次閱讀

    低成本AI邊緣計(jì)算盒子DIY:基于迅為RK3568和開源模型,輕松玩轉(zhuǎn)智能識(shí)別

    低成本AI邊緣計(jì)算盒子DIY:基于迅為RK3568和開源模型,輕松玩轉(zhuǎn)智能識(shí)別
    的頭像 發(fā)表于 11-12 13:42 ?2071次閱讀
    <b class='flag-5'>低成本</b>AI邊緣<b class='flag-5'>計(jì)算</b>盒子DIY:基于迅為RK3568和開源模型,輕松玩轉(zhuǎn)智能識(shí)別

    風(fēng)華電阻:低成本與高穩(wěn)定性家電應(yīng)用

    風(fēng)華電阻在家電應(yīng)用中以低成本與高穩(wěn)定性為核心優(yōu)勢(shì),通過(guò)材料創(chuàng)新、工藝優(yōu)化及嚴(yán)格認(rèn)證,為家電提供高性價(jià)比、高可靠性的解決方案 ,具體分析如下: 一、低成本實(shí)現(xiàn)路徑 材料替代與工藝優(yōu)化 銅鎳合金漿料
    的頭像 發(fā)表于 10-29 15:39 ?542次閱讀

    MEMS組合導(dǎo)航如何實(shí)現(xiàn)超低成本?

    低成本,同時(shí)保障核心性能的呢? 關(guān)鍵轉(zhuǎn)變:從“硬件堆料”到“算法賦能” 傳統(tǒng)方案依賴于本身價(jià)格極高的慣性器件來(lái)保證性能。而ER-GNSS/MINS-05的思路是: · 采用經(jīng)過(guò)市場(chǎng)驗(yàn)證的低成本MEMS傳感器作為基礎(chǔ)。 · 通過(guò)強(qiáng)大的系統(tǒng)級(jí)溫度補(bǔ)償和智能算法,
    的頭像 發(fā)表于 10-23 15:30 ?544次閱讀
    MEMS組合導(dǎo)航如何實(shí)現(xiàn)超<b class='flag-5'>低成本</b>?

    德州儀器推出超低成本實(shí)時(shí)微控制器 (MCU),助力家用電器和電動(dòng)工具實(shí)現(xiàn)高端電機(jī)控制

    扭矩 前沿動(dòng)態(tài) 德州儀器 (TI) 于近日推出了一款高性價(jià)比C2000? 系列實(shí)時(shí)微控制器 (MCU),助力工程師以更低成本設(shè)計(jì)出行業(yè)性能領(lǐng)先的產(chǎn)品。新推出的F28E120SC 和 F28E120SB
    的頭像 發(fā)表于 09-19 17:17 ?3.9w次閱讀
    德州儀器推出超<b class='flag-5'>低成本</b><b class='flag-5'>實(shí)時(shí)</b>微控制器 (MCU),助力家用電器和電動(dòng)工具實(shí)現(xiàn)高端電機(jī)控制

    中小企業(yè)如何低成本、高效率地啟動(dòng)數(shù)智化轉(zhuǎn)型?

    中小企業(yè)數(shù)智化轉(zhuǎn)型需以“小快輕準(zhǔn)”為核心,通過(guò)技術(shù)輕量化(SaaS/RPA)、政策紅利(補(bǔ)貼/試點(diǎn))、生態(tài)協(xié)同(平臺(tái)/集群)三大杠桿,實(shí)現(xiàn)低成本破局。關(guān)鍵是從業(yè)務(wù)痛點(diǎn)出發(fā),避免盲目跟風(fēng),逐步構(gòu)建數(shù)據(jù)驅(qū)動(dòng)與智能決策能力。
    的頭像 發(fā)表于 08-07 14:20 ?940次閱讀

    還在為導(dǎo)航成本高而煩惱?組合導(dǎo)航開啟低成本新時(shí)代

    ER-GNSS/MINS-05低成本組合導(dǎo)航系統(tǒng)的出現(xiàn),徹底打破了這一僵局——它以創(chuàng)新技術(shù)實(shí)現(xiàn)硬件成本直降,同時(shí)通過(guò)深度優(yōu)化平衡精度、可靠性與穩(wěn)定性,為行業(yè)提供了一套“性能不妥協(xié)、成本可控制”的全參數(shù)導(dǎo)航解決方案,重新定義了
    的頭像 發(fā)表于 07-30 16:30 ?758次閱讀
    還在為導(dǎo)航<b class='flag-5'>成本</b>高而煩惱?組合導(dǎo)航開啟<b class='flag-5'>低成本</b>新時(shí)代

    基于DSP的SPWM混合查表實(shí)時(shí)計(jì)算

    ,內(nèi)部還集成了三相 PWM 波形發(fā)生器。兩者的結(jié)合,使我們完全能通過(guò)實(shí)時(shí)計(jì)算來(lái)產(chǎn)生任意頻率的 SPWM 波。TMS320F241的波形發(fā)生器屬于 DSP 芯片的外部事件管理模塊,占用CPU 的時(shí)間很少
    發(fā)表于 07-28 14:36

    低成本組合導(dǎo)航能實(shí)現(xiàn)精準(zhǔn)導(dǎo)航定位

    在自動(dòng)化、無(wú)人系統(tǒng)和精準(zhǔn)農(nóng)業(yè)等領(lǐng)域,高精度導(dǎo)航是核心需求,但傳統(tǒng)高端組合導(dǎo)航系統(tǒng)的高成本往往讓許多用戶望而卻步。ER-GNSS/MINS-05作為一款低成本組合導(dǎo)航系統(tǒng),通過(guò)技術(shù)優(yōu)化與精準(zhǔn)性能平衡
    的頭像 發(fā)表于 07-03 15:16 ?1018次閱讀
    <b class='flag-5'>低成本</b>組合導(dǎo)航能實(shí)現(xiàn)精準(zhǔn)導(dǎo)航定位
    安新县| 望城县| 藁城市| 都昌县| 永川市| 通化县| 德州市| 保德县| 潍坊市| 平定县| 桃园县| 高阳县| 垦利县| 舒兰市| 巢湖市| 平度市| 新疆| 福州市| 神农架林区| 合山市| 体育| 瑞昌市| 莒南县| 阳东县| 田林县| 铜川市| 朔州市| 疏附县| 石渠县| 特克斯县| 徐州市| 波密县| 芜湖市| 江山市| 新龙县| 崇仁县| 嘉鱼县| 贞丰县| 河源市| 武城县| 韶山市|