首頁技術文章正文

PySpark如何輸入數(shù)據(jù)到Spark中?【RDD對象】

更新時間:2023-02-23 來源:黑馬程序員 瀏覽量:

PySpark支持多種數(shù)據(jù)的輸入,在輸入完成后,都會得到一個:RDD類的對象RDD全稱為彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets),PySpark針對數(shù)據(jù)的處理,都是以RDD對象作為載體,即:

  ?數(shù)據(jù)存儲在RDD內(nèi)

  ?各類數(shù)據(jù)的計算方法,也都是RDD的成員方法

  ?RDD的數(shù)據(jù)計算方法,返回值依舊是RDD對象

PySpark的編程模型(左圖)可以歸納為:準備數(shù)據(jù)到RDD -> RDD迭代計算 -> RDD導出為list、文本文件等,即:源數(shù)據(jù) -> RDD -> 結(jié)果數(shù)據(jù)
1677132404499_圖片1.png
PySpark支持通過SparkContext對象的parallelize成員方法,將list、tuple、set、dict、str轉(zhuǎn)換為PySpark的RDD對象,示例代碼如下:

from pyspark import SparkConf,SparkContext

conf = SparkConf(.setMaster("local[*]").\
    setAppName("test_spark_app")
sc = SparkContext(conf=conf)

rdd=sc.para1lelize(數(shù)據(jù)容器對象)

# 輸出RDD的內(nèi)容
print(rdd.collect(0)

注意:字符串會被拆分出1個個的字符,存入RDD對象,字典僅有key會被存入RDD對象。

PySpark也支持通過SparkContext入口對象,來讀取文件,來構(gòu)建出RDD對象,示例代碼如下:

from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("loca][*]").\
    setAppName("test_spark_app")
sc = SparkContext(conf=conf)

rdd=sc.textFile(文件路徑)

#打印RDD內(nèi)容
print(rdd.collect())


分享到:
在線咨詢 我要報名
和我們在線交談!