首頁最新資訊

全部 新聞動態(tài) 技術文章 常見問題 技術問答

    • Spark RDD是什么?RDD特征介紹

      RDD( Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集),是一個容錯的、并行的數(shù)據(jù)結構,可以讓用戶顯式地將數(shù)據(jù)存儲到磁盤和內(nèi)存中,并且還能控制數(shù)據(jù)的分區(qū)。對于迭代式計算和交互式數(shù)據(jù)挖掘,RDD可以將中間計算的數(shù)據(jù)結果保存在內(nèi)存中,若是后面需要中間結果參與計算時,則可以直接從內(nèi)存中讀取,從而可以極大地提高計算速度。查看全文>>

      技術文章2020-12-22 |黑馬程序員 |Spark RDD是什么
    • Scala下載和環(huán)境變量配置教程

      Scala語言可以在Windows、Linux、Mac OS等系統(tǒng)上編譯運行。由于Scala是運JVM平臺上的,所以安裝Scala之前必須配置好JDK環(huán)境(JDK版本要求不低于1.5)。查看全文>>

      技術文章2020-12-22 |黑馬程序員 |Scala環(huán)境變量配置教程
    • 什么是Scala?有什么特點?

      Scala是Scalable Language的簡稱,它是一門多范式的編程語言,其設計初衷是實現(xiàn)種可擴展的語言,并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性?;谶@個目標與設計,Scala具有以下顯著的特性。查看全文>>

      技術文章2020-12-22 |黑馬程序員 |什么是Scala
    • RDD為什么要進行數(shù)據(jù)持久化?它的操作方法有哪些?

      在Spark中,RDD是采用惰性求值,即每次調(diào)用行動算子操作,都會從頭開始計算。然而,每次調(diào)用行動算子操作,都會觸發(fā)一次從頭開始的計算,這對于迭代計算來說,代價是很大的,因為迭代計算經(jīng)常需要多次重復的使用同一組數(shù)據(jù)集,所以,為了避免重復計算的開銷,可以讓Spark對數(shù)據(jù)集進行持久化。查看全文>>

      技術文章2020-12-22 |黑馬程序員 |數(shù)據(jù)持久化操作,持久化機制,RDD,Spark
    • Hadoop虛擬機怎樣遠程登錄和開啟SSH免密登錄功能?

      完成虛擬機的安裝和網(wǎng)絡配置,雖然可以正常使用,但是工作中還需要遠程操縱服務器進行各項操作,所以就需要對虛擬機實行配置遠程登錄和SSH免密登錄,進行相關操作。接下來,就分別對這兩種服務配置進行說明和詳細講解。查看全文>>

      技術文章2020-12-22 |黑馬程序員 |Hadoop虛擬機,SSH服務,遠程登錄虛擬機
    • Java API接口怎樣操作HBase分布式數(shù)據(jù)庫?

      HBase是由Java語言開發(fā)的,它對外提供了Java API的接口。接下來,通過Java API來操作HBase分布式數(shù)據(jù)庫,包括增、刪、改以及查等對數(shù)據(jù)表的操作,具體操作步驟如下:查看全文>>

      技術文章2020-12-22 |黑馬程序員 |HBase的Java API操作步驟,常見的Java API
和我們在線交談!