日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Apache Spark 3.2有哪些新特性

數(shù)據(jù)分析與開發(fā) ? 來源:過往記憶大數(shù)據(jù) ? 作者:過往記憶大數(shù)據(jù) ? 2021-11-17 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過七輪投票, Apache Spark 3.2 終于正式發(fā)布了。Apache Spark 3.2 已經(jīng)是 Databricks Runtime 10.0 的一部分,感興趣的同學(xué)可以去試用一下。按照慣例,這個版本應(yīng)該不是穩(wěn)定版,所以建議大家不要在生產(chǎn)環(huán)境中使用。

Spark 的每月 Maven 下載數(shù)量迅速增長到 2000 萬,與去年同期相比,Spark 的月下載量翻了一番。Spark 已成為在單節(jié)點機器或集群上執(zhí)行數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的最廣泛使用的引擎。

Spark 3.2 繼續(xù)以使 Spark 更加統(tǒng)一、簡單、快速和可擴展為目標(biāo),通過以下特性擴展其范圍:

?在 Apache Spark 上引入 panda API,統(tǒng)一小數(shù)據(jù)API和大數(shù)據(jù)API。

?完成 ANSI SQL 兼容模式,簡化 SQL 工作負載的遷移。

?自適應(yīng)查詢執(zhí)行產(chǎn)品化完成,以在運行時加速 Spark SQL。

?引入 RocksDB 狀態(tài)存儲以使?fàn)顟B(tài)處理更具可擴展性。

在這篇博文中,我們總結(jié)了一些更高層次的特性和改進。請關(guān)注即將發(fā)布的深入研究這些特性的文章。有關(guān)所有 Spark 組件的主要功能和已解決的 JIRA 的完整列表,請參閱 Apache Spark 3.2.0 release notes

統(tǒng)一小數(shù)據(jù) API 和大數(shù)據(jù) API

Python 是 Spark 上使用最廣泛的語言。為了使 Spark 更具 Python 風(fēng)格,Pandas API 被引入到 Spark,作為 Project Zen 的一部分(另請參閱 Data + AI Summit 2021 會議中的 Project Zen: Making Data Science Easier in PySpark 議題)?,F(xiàn)在 pandas 的現(xiàn)有用戶可以通過一行更改來擴展他們的 pandas 應(yīng)用程序。如下圖所示,得益于 Spark 引擎中的復(fù)雜優(yōu)化,單節(jié)點機器 [左] 和多節(jié)點 Spark 集群 [右] 的性能都可以得到極大提升。

同時,Python 用戶還可以無縫利用 Spark 提供的統(tǒng)一分析功能,包括通過 SQL 查詢數(shù)據(jù)、流處理和可擴展機器學(xué)習(xí) (ML)。新的 Pandas API 還提供了由 plotly 后端支持的交互式數(shù)據(jù)可視化。

簡化 SQL 遷移

添加了更多 ANSI SQL 功能(例如,支持 lateral join)。經(jīng)過一年多的發(fā)展,本次發(fā)布的 ANSI SQL 兼容處于 GA 狀態(tài)。為了避免大量破壞行為的更改,默認情況下 spark.sql.ansi.enabled 依然是未啟用的。ANSI 模式包括以下主要行為更改:

?當(dāng) SQL 運算符/函數(shù)的輸入無效時,會拋出運行時錯誤,而不是返回為 null (SPARK-33275)。例如,算術(shù)運算中的整數(shù)值溢出錯誤,或?qū)⒆址D(zhuǎn)換為數(shù)字/時間戳類型時的解析錯誤。

?標(biāo)準(zhǔn)化類型強制語法規(guī)則 (SPARK-34246)。新規(guī)則定義了給定數(shù)據(jù)類型的值是否可以基于數(shù)據(jù)類型優(yōu)先級列表隱式提升為另一種數(shù)據(jù)類型,這比默認的非 ANSI 模式更直接。

?新的顯式轉(zhuǎn)換語法規(guī)則 (SPARK-33354)。當(dāng) Spark 查詢包含非法類型轉(zhuǎn)換(例如,日期/時間戳類型轉(zhuǎn)換為數(shù)字類型)時,會拋出編譯時錯誤,告知用戶轉(zhuǎn)換無效。

此版本還包括一些尚未完全完成的新計劃。例如,標(biāo)準(zhǔn)化 Spark 中的異常消息(SPARK-33539);引入 ANSI interval type (SPARK-27790) 并提高相關(guān)子查詢的覆蓋范圍 (SPARK-35553)。

在運行時加速 Spark SQL

此版本 (SPARK-33679) 中默認啟用自適應(yīng)查詢執(zhí)行 (AQE)。為了提高性能,AQE 可以根據(jù)在運行時收集的準(zhǔn)確統(tǒng)計信息重新優(yōu)化查詢執(zhí)行計劃。在大數(shù)據(jù)中,維護和預(yù)先收集統(tǒng)計數(shù)據(jù)的成本很高。無論優(yōu)化器有多先進,缺乏準(zhǔn)確的統(tǒng)計信息通常會導(dǎo)致計劃效率低下。在這個版本中,AQE 與所有現(xiàn)有的查詢優(yōu)化技術(shù)(例如,動態(tài)分區(qū)修剪,Dynamic Partition Pruning)完全兼容,以重新優(yōu)化 JOIN 策略、傾斜 JOIN 和 shuffle分區(qū)合并。

小數(shù)據(jù)和大數(shù)據(jù)都應(yīng)該在統(tǒng)一的數(shù)據(jù)分析系統(tǒng)中以高效的方式處理。短查詢性能也變得至關(guān)重要。當(dāng)處理的數(shù)據(jù)量相當(dāng)小時,在復(fù)雜查詢中編譯 Spark 查詢的開銷非常大。為了進一步降低查詢編譯延遲,Spark 3.2.0刪除了分析器/優(yōu)化器規(guī)則(SPARK-35042、SPARK-35103) 中不必要的查詢計劃遍歷,并加快了新查詢計劃的構(gòu)建 (SPARK-34989)。因此,與 Spark 3.1.2 相比,TPC-DS 查詢的編譯時間減少了 61%。

更可擴展的狀態(tài)處理流

Structured Streaming 中狀態(tài)存儲的默認實現(xiàn)是不可伸縮的,因為可以維護的狀態(tài)數(shù)量受執(zhí)行器堆大小的限制。在此版本中,Databricks 為 Spark 社區(qū)基于 RocksDB 的狀態(tài)存儲實現(xiàn)做出了貢獻,該實現(xiàn)已在 Databricks 生產(chǎn)中使用了四年多。這種狀態(tài)存儲可以通過對鍵進行排序來避免完全掃描,并在不依賴于執(zhí)行器堆大小的情況下從磁盤提供數(shù)據(jù)。

此外,狀態(tài)存儲 API 還包含用于前綴匹配掃描 (SPARK-35861) 的 API,以有效支持基于事件時間的會話 (SPARK-10816),允許用戶在 eventTime 上對會話窗口進行聚合。更多細節(jié),請閱讀 Native support of session window in Apache Spark’s Structured Streaming 博文。

Spark 3.2 的其他更新

除了上面這些新功能外,這個版本還關(guān)注可用性、穩(wěn)定性和功能加強,解決了大約 1700 個 JIRA tickets。這是 200 多名貢獻者貢獻的結(jié)果,包括個人和公司,如 Databricks,蘋果,Linkedin, Facebook,微軟,英特爾,阿里巴巴,英偉達,Netflix, Adobe 等。我們在這篇博文中重點介紹了 Spark 中的許多關(guān)鍵 SQL、Python 和流數(shù)據(jù)改進,但 3.2 里程碑中還有許多其他功能,包括代碼生成覆蓋率的改進和連接器的增強,您可以在版本中了解更多信息。

開始使用 Spark 3.2

如果您想在 Databricks Runtime 10.0 中試用 Apache Spark 3.2,請注冊 Databricks 社區(qū)版或 Databricks 試用版,這兩者都是免費的,并在幾分鐘內(nèi)就可以使用。如果你想自己搭建的話,可以到 這里 下載。

本文翻譯自 《Introducing Apache Spark 3.2》:https://databricks.com/blog/2021/10/19/introducing-apache-spark-3-2.html

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95054
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2481

    瀏覽量

    67060

原文標(biāo)題:Apache Spark 3.2 正式發(fā)布,新特性詳解

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    首屆中國NVIDIA DGX Spark黑客松大賽開啟報名

    倒計時啟動!首屆中國 NVIDIA DGX Spark 黑客松(Hackathon)將于 3 月 13 日 - 3 月 28 日正式開啟報名!本屆賽事以“算力破局、AI 落地”為核心導(dǎo)向,依托
    的頭像 發(fā)表于 03-14 16:39 ?2745次閱讀

    NVIDIA DGX Spark助力高等教育領(lǐng)域重大項目

    在全球各地的頂尖高校,NVIDIA DGX Spark 桌面超級計算機正將數(shù)據(jù)中心級的 AI 能力帶到實驗室臺前、教師辦公室里和學(xué)生的終端設(shè)備上。在地球最南端的南極,也有一臺 DGX Spark 正在威斯康星大學(xué)麥迪遜分校運營的 IceCube 中微子天文臺中高速運轉(zhuǎn)。
    的頭像 發(fā)表于 03-09 16:33 ?708次閱讀

    NVIDIA DGX Spark桌面級AI超級計算機助力開發(fā)者構(gòu)建AI模型

    開源 AI 正在加速各行各業(yè)的創(chuàng)新,NVIDIA DGX Spark 將幫助開發(fā)者將創(chuàng)新轉(zhuǎn)化為影響力。
    的頭像 發(fā)表于 01-09 09:49 ?754次閱讀

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計要點

    TUSB8044A四端口USB 3.2第1代集線器:特性、應(yīng)用與設(shè)計要點 在電子設(shè)備不斷發(fā)展的今天,USB接口的應(yīng)用越來越廣泛,對USB集線器的性能和功能要求也越來越高。TUSB8044A作為一款
    的頭像 發(fā)表于 12-18 10:00 ?620次閱讀

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計要點

    TUSB8042A四端口USB 3.2 x1 Gen1集線器:特性、應(yīng)用與設(shè)計要點 引言 在當(dāng)今數(shù)字化時代,USB接口的應(yīng)用無處不在,而USB集線器作為擴展USB端口數(shù)量的重要設(shè)備,其性能和功能
    的頭像 發(fā)表于 12-17 17:55 ?1609次閱讀

    如何在DGX Spark上運行NVIDIA Omniverse

    首先感謝 Vigor 同學(xué)第一時間的分享,以下是具體如何在 DGX Spark 上運行 Omniverse 的方法。
    的頭像 發(fā)表于 12-17 10:13 ?964次閱讀
    如何在DGX <b class='flag-5'>Spark</b>上運行NVIDIA Omniverse

    TUSB1142:USB 3.2 轉(zhuǎn)接驅(qū)動器的卓越之選

    USB - C 應(yīng)用設(shè)計的 10Gbps USB 3.2 線性轉(zhuǎn)接驅(qū)動器,無疑是解決信號傳輸問題的得力助手。今天,我們就來深入了解一下 TUSB1142 的特性、應(yīng)用以及設(shè)計要點。 文件下載
    的頭像 發(fā)表于 12-16 14:50 ?748次閱讀

    正面對決GPT-5和Germini-3,DeepSeek-V3.2震撼發(fā)布

    12月1日,中國 AI創(chuàng)新企業(yè) DeepSeek 再度加速技術(shù)迭代,今日宣布推出 DeepSeek-V3.2 與 V3.2-Speciale 兩款模型。公司在官網(wǎng)上指出,DeepSeek-V3.2
    的頭像 發(fā)表于 12-02 14:10 ?9850次閱讀
    正面對決GPT-5和Germini-3,DeepSeek-V<b class='flag-5'>3.2</b>震撼發(fā)布

    NVIDIA DGX Spark系統(tǒng)恢復(fù)過程與步驟

    在使用 NVIDIA DGX Spark 的過程中,可能會出現(xiàn)配置故障,而導(dǎo)致開發(fā)中斷的問題,本篇教程將帶大家了解如何一步步完成系統(tǒng)恢復(fù)。
    的頭像 發(fā)表于 11-28 09:46 ?5997次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>系統(tǒng)恢復(fù)過程與步驟

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 項目,并于 3 月 18 日更名為 NVIDIA DGX Spark,進一步公布了產(chǎn)品細節(jié)。DGX Spark
    的頭像 發(fā)表于 11-21 09:25 ?1593次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>助力構(gòu)建自己的AI模型

    NVIDIA DGX Spark快速入門指南

    NVIDIA DGX Spark 已正式向 AI 開發(fā)者交付,對于剛?cè)胧值娜?DGX Spark,該如何進行初始化設(shè)置?本篇文章將引導(dǎo)您完成 DGX Spark 首次設(shè)置。在初始設(shè)置的過程中,您
    的頭像 發(fā)表于 11-17 14:11 ?7169次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入門指南

    NVIDIA DGX Spark新一代AI超級計算機正式交付

    NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛在 SpaceX 向埃隆·馬斯克交付 DGX Spark。
    的頭像 發(fā)表于 10-21 10:41 ?1553次閱讀

    NVIDIA DGX Spark桌面AI計算機開啟預(yù)訂

    DGX Spark 現(xiàn)已開啟預(yù)訂!麗臺科技作為 NVIDIA 授權(quán)分銷商,提供從產(chǎn)品到服務(wù)的一站式解決方案,助力輕松部署桌面 AI 計算機。
    的頭像 發(fā)表于 09-23 17:20 ?1575次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI計算機開啟預(yù)訂

    使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描

    的方式組織數(shù)據(jù),這使得 Parquet 在查詢時僅讀取所需的列,而無需掃描整行數(shù)據(jù),即可實現(xiàn)高性能的查詢和分析。高效的數(shù)據(jù)布局使 Parquet 在現(xiàn)代分析生態(tài)系統(tǒng)中成為了受歡迎的選擇,尤其是在 Apache Spark 工作負載中。
    的頭像 發(fā)表于 07-23 10:52 ?1247次閱讀
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet數(shù)據(jù)掃描

    FVT-3SVCTCXO 3.2×2.5mm:GPS/IoT/移動設(shè)備應(yīng)用規(guī)格與特性概述

    內(nèi)容概要:本文檔詳細介紹了FVT-3S系列SMD VCTCXO(電壓控制溫度補償晶體振蕩器)的技術(shù)規(guī)格和應(yīng)用特性。該產(chǎn)品具有緊湊的3.2×2.5×0.9毫米陶瓷封裝,適用于低功耗、小型化和輕量化要求
    發(fā)表于 06-25 13:50 ?0次下載
    蚌埠市| 金昌市| 乌兰察布市| 温泉县| 延寿县| 开封县| 封开县| 梧州市| 清水县| 恩平市| 常宁市| 驻马店市| 封开县| 深泽县| 花莲市| 武夷山市| 弥渡县| 邻水| 鄯善县| 兴化市| 呼伦贝尔市| 左云县| 莱西市| 蒙自县| 海兴县| 韶山市| 梧州市| 理塘县| 南华县| 平乐县| 丹寨县| 水城县| 桂林市| 宜昌市| 尚志市| 子洲县| 虞城县| 车致| 永嘉县| 台南市| 泰兴市|