首頁技術(shù)文章正文

如何創(chuàng)建Spark連接和讀取數(shù)據(jù)集?【案例】

更新時間:2022-11-16 來源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

在類CategoryTopl0中定義main()方法,該方法是Java程序執(zhí)行的入口,在main()方法中實(shí)現(xiàn)Spark程序,具體代碼如文件1所示。

文件1 CategoryTop10.java

public class CategoryTop10{
   public static void main(String[] arg){
   //實(shí)現(xiàn)熱門品類Top10分析
   }
}
在文件1的main()方法中,創(chuàng)建JavaSparkContext和SparkConf對象.JavaSparkContext對象用于實(shí)現(xiàn)Spark 程序,SparkConf對象用于配置 Spark程序相關(guān)參數(shù),具體代碼如下。
SparkConf conf =new SparkConf():
//設(shè)置Application 名稱為topl0_category
conf.setAppName("top10_category"):
JavaSparkContext sc =new JavaSparkContext (conf);
在文件1的main()方法中,調(diào)用JavaSparkContext對象的textFile()方法讀取外部文件,將文件中的數(shù)據(jù)加載到textFileRDD,具體代碼如下。
JavaRDD<String> textFileRDD =sc.textFile (arg [0]);

上述代碼中,通過變量arg[o]指定文件路徑,目的是執(zhí)行提交Spark程序到Y(jié)ARN集群運(yùn)行的命令中,通過參數(shù)指定文件路徑。

分享到:
在線咨詢 我要報名
和我們在線交談!