精品无码久久久久久久久免费看,在线成人播放视频,中文字幕日韩第十页在线观看,午夜精品秘a一区二区三区城中村,一本道(日本电影公司)

百科創(chuàng  )建
13.6K
3940

Spark計算引擎

為大規模數據處理而設計的快速通用的計算引擎。

Spark計算引擎是美國加利福尼亞大學(xué)伯克利分校的算法、機器和人(algorithms machines and people,AMP)實(shí)驗室所開(kāi)源的Hadoop映射-化簡(jiǎn)(MapReduce)的通用并行框架。Spark擁有MapReduce所具有的優(yōu)點(diǎn),不同于MapReduce的是其工作中間輸出結果可以保存在內存中,從而不再需要讀寫(xiě)Hadoop分布式文件系統(Hadoop distributed file system,HDFS),因此Spark能更好地適用于數據挖掘與機器學(xué)習等需要迭代的MapReduce的算法。

Spark的核心概念是彈性分布式數據集(resilient distributed datasets,RDD)。從本質(zhì)上來(lái)說(shuō),RDD是分布式內存的一個(gè)抽象概念,RDD提供了一種高度受限的共享內存模型,即RDD是只讀的記錄分區的集合,只能通過(guò)在其他RDD執行確定的轉換操作而創(chuàng )建,然而這些限制使得實(shí)現容錯的開(kāi)銷(xiāo)很低。對開(kāi)發(fā)者而言,RDD可以看作是Spark的一個(gè)對象,它本身運行于內存中,如讀文件是一個(gè)RDD,對文件計算是一個(gè)RDD,結果集也是一個(gè)RDD,不同的分片、數據之間的依賴(lài)、鍵值類(lèi)型的映射數據都可以看作RDD。

Spark已經(jīng)形成了較為完整的生態(tài)圈,其中包括:Spark Core是Spark的核心應用程序接口(application program interface,API),實(shí)現了很多基本的RDD轉換操作;Spark SQL是Spark針對結構化數據的API,能夠使SQL對結構化數據進(jìn)行標準分析;Spark Streaming是Spark針對流數據的API,可以實(shí)現對大規模數據流以元組為單位低延遲的處理;Spark MLib是Spark針對機器學(xué)習任務(wù)的API,可以有效地進(jìn)行大規模迭代計算;Spark GraphX是Spark針對圖數據的API。

3940

免責聲明:本站詞條系由網(wǎng)友創(chuàng )建、編輯和維護,內容僅供參考。

以上內容均為商業(yè)內容展示,僅供參考,不具備專(zhuān)業(yè)問(wèn)題解決服務(wù),

如果您需要解決具體問(wèn)題(尤其在法律、醫學(xué)等領(lǐng)域),建議您咨詢(xún)相關(guān)領(lǐng)域的專(zhuān)業(yè)人士。

如您發(fā)現詞條內容涉嫌侵權,請通過(guò) 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!

一秒推
精品无码久久久久久久久免费看,在线成人播放视频,中文字幕日韩第十页在线观看,午夜精品秘a一区二区三区城中村,一本道(日本电影公司)