Spark3.x的Adaptive Query Execution自適應(yīng)查詢技術(shù)

更新時間:2022-08-31 來源:黑馬程序員瀏覽量:

IT培訓(xùn)班

由于缺乏或者不準(zhǔn)確的數(shù)據(jù)統(tǒng)計信息(元數(shù)據(jù))和對成本的錯誤估算(執(zhí)行計劃調(diào)度)導(dǎo)致生成的初始執(zhí)行計劃不理想在Spark3.x版本提供Adaptive Query Execution自適應(yīng)查詢技術(shù)通過在”運(yùn)行時”對查詢執(zhí)行計劃進(jìn)行優(yōu)化, 允許Planner在運(yùn)行時執(zhí)行可選計劃,這些可選計劃將會基于運(yùn)行時數(shù)據(jù)統(tǒng)計進(jìn)行動態(tài)優(yōu)化, 從而提高性能。

Adaptive Query Execution AQE主要提供了三個自適應(yīng)優(yōu)化:

? 動態(tài)合并 Shuffle Partitions

? 動態(tài)調(diào)整Join策略

? 動態(tài)優(yōu)化傾斜Join(Skew Joins)

1.動態(tài)合并 Dynamically coalescing shuffle partitions

可以動態(tài)調(diào)整shuffle分區(qū)的數(shù)量。用戶可以在開始時設(shè)置相對較多的shuffle分區(qū)數(shù)，AQE會在運(yùn)行時將相鄰的小分區(qū)合并為較大的分區(qū)。

動態(tài)合并

2.動態(tài)調(diào)整Join策略 Dynamically switching join strategies

此優(yōu)化可以在一定程度上避免由于缺少統(tǒng)計信息或著錯誤估計大小(當(dāng)然也可能兩種情況同時存在)，而導(dǎo)致執(zhí)行計劃性能不佳的情況。這種自適應(yīng)優(yōu)化可以在運(yùn)行時sort merge join轉(zhuǎn)換成broadcast hash join，從而進(jìn)一步提升性能。

Adaptive Query Execution 自適應(yīng)查詢(SparkSQL)

3.動態(tài)優(yōu)化傾斜Join

skew joins可能導(dǎo)致負(fù)載的極端不平衡，并嚴(yán)重降低性能。在AQE從shuffle文件統(tǒng)計信息中檢測到任何傾斜后，它可以將傾斜的分區(qū)分割成更小的分區(qū)，并將它們與另一側(cè)的相應(yīng)分區(qū)連接起來。這種優(yōu)化可以并行化傾斜處理，獲得更好的整體性能。