2020-09-28
大數(shù)據(jù)培訓(xùn) Hadoop
好程序員大數(shù)據(jù)培訓(xùn)分享Hadoop常見問題解答,Hadoop的常見問題有很多,以前也曾給讀者們分享過一些,本篇文章小編繼續(xù)給讀者們分享一些Hadoop常見問題解答,感興趣的小伙伴就來了解一下吧。
1、100個以上hadoop節(jié)點,一般怎么開發(fā),運維?任務(wù)很多的情況下任務(wù)資源怎么分配,任務(wù)執(zhí)行順序是定時腳本還是別的什么方式控制?
a.首先大數(shù)據(jù)的應(yīng)用開發(fā)和hadoop集群的規(guī)模是沒有關(guān)系,你指的是集群的搭建和運維嗎,對于商用的hadoop系統(tǒng)來說涉及到很多東西。
b.任務(wù)的分配是有hadoop的調(diào)度器的調(diào)度策略決定的,默認為FIFO調(diào)度,商業(yè)集群一般使用多隊列多用戶調(diào)度器。
c.任務(wù)的執(zhí)行順序是有用戶控制的,你自然可以定時啟動,也可以手動啟動。
2、基于Hadoop做開發(fā),是否必須會使用Java,使用其他開發(fā)語言是否無法更好的融入整個Hadoop的開發(fā)體系?
基于Hadoop做開發(fā)可以使用任何語言,因為hadoop提高了streaming編程框架和pipes編程接口,streaming框架下用戶可以使用任何可以操作標準輸入輸出的計算機語言來開發(fā)hadoop應(yīng)用。
3、在reduce階段老是卡在最后階段很長時間,在網(wǎng)上查的說是有可能是數(shù)據(jù)傾斜,我想問這個有啥解決方法嗎?
a.你這個就是數(shù)據(jù)傾斜啊,好多數(shù)據(jù)都集中在一個reduce里其他reduce里分配的數(shù)據(jù)比較少。默認情況下決定哪些數(shù)據(jù)分配到哪個reduce是由reduce個數(shù)和partiiton分區(qū)決定的默認是對key進行hash運算,一般情況下用mapreuce傾斜很少除非你用的HIVE。
b.reduce分為3個子階段:shuffle、sort和reduce,如果reduce整個過程耗時較長,建議先看一下監(jiān)控界面是卡在哪個階段,如果是卡在shuffle階段往往是網(wǎng)絡(luò)阻塞問題,還有就是某reduce數(shù)據(jù)量太大,也就是你所說的數(shù)據(jù)傾斜問題,這種問題往往因為某個key的value太多,解決方法是:diyi,默認的partiiton可能不適合你的需求,你可以自定義partiiton;第二就是在map端截斷,盡量讓達到每個reduce端的數(shù)據(jù)分布均勻。
4、非大數(shù)據(jù)的項目能否用hadoop?
非大數(shù)據(jù)項目是否可以用Hadoop的關(guān)鍵問題在于是否有海量數(shù)據(jù)的存儲,計算,以及分析挖掘等需求,如果現(xiàn)有系統(tǒng)已經(jīng)很好滿足當(dāng)前需求那么就沒有必要使用Hadoop,沒有必要使用并不意味這不能使用Hadoop,很多傳統(tǒng)系統(tǒng)能做的Hadoop也是可以做的。
例如使用HDFS來代替LINUX NFS,使用MapReduce來代替單服務(wù)器的統(tǒng)計分析相關(guān)任務(wù),使用Hbase代替Mysql等關(guān)系數(shù)據(jù)庫等,在數(shù)據(jù)量不大的情況下通常Hadoop集群肯定比傳統(tǒng)系統(tǒng)消耗更多的資源。
5、hadoopmapreduce和第三方資源管理調(diào)度系統(tǒng)如何集成?
Hadoop的調(diào)度器設(shè)計的一個原則就是可插拔式調(diào)度器框架,因此是很容易和第三方調(diào)度器集成的,例如公平調(diào)度器FairScheduler和容量調(diào)度器CapacityScheduler,并配置mapred-site.xml的mapreduce.jobtracker.taskscheduler以及調(diào)度器本身的配置參數(shù)。
開班時間:2021-04-12(深圳)
開班盛況開班時間:2021-05-17(北京)
開班盛況開班時間:2021-03-22(杭州)
開班盛況開班時間:2021-04-26(北京)
開班盛況開班時間:2021-05-10(北京)
開班盛況開班時間:2021-02-22(北京)
開班盛況開班時間:2021-07-12(北京)
預(yù)約報名開班時間:2020-09-21(上海)
開班盛況開班時間:2021-07-12(北京)
預(yù)約報名開班時間:2019-07-22(北京)
開班盛況
Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right
京ICP備12003911號-5
京公網(wǎng)安備 11010802035720號