Hadoop系統架構
美國阿帕奇(Apache)軟件基金會(huì )開(kāi)發(fā)的分布式系統基礎架構。用戶(hù)可以在不了解分布式底層細節的情況下,開(kāi)發(fā)分布式程序。
Hadoop由Apache軟件基金會(huì )于2005年秋正式引入。2006年3月,映射-化簡(jiǎn)(MapReduce)編程模型和Nutch分布式文件系統(Nutch distributed file system,NDFS)分別被納入Hadoop項目中?;贖adoop的應用與開(kāi)發(fā)非常廣泛,有很多公司開(kāi)始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓,如企業(yè)軟件公司、云計算基礎設施公司、數據安全公司等。
Hadoop由3部分組成:MapReduce負責計算,Hadoop分布式文件系統(Hadoop distributed file system,HDFS)負責存儲數據,另一種資源協(xié)調者(yet another resource negotiator,YARN)為統一資源調度器,負責管理計算資源,如中央處理器和內存等。
Hadoop的優(yōu)點(diǎn)主要有:①高可靠性。Hadoop按位存儲和處理數據的能力。②高擴展性。Hadoop是在可用的計算機集群間分配數據并完成計算任務(wù)的,這些集群可以方便地擴展到數以千計的節點(diǎn)中。③高效性。Hadoop能夠在節點(diǎn)之間動(dòng)態(tài)地移動(dòng)數據,并保證各個(gè)節點(diǎn)的動(dòng)態(tài)平衡。④高容錯性。Hadoop能夠自動(dòng)保存數據的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。⑤低成本。與一體機、商用數據倉庫相比,Hadoop是開(kāi)源的,項目的軟件成本因此會(huì )大大降低。

