萬(wàn)網(wǎng)博通官網(wǎng)專(zhuān)業(yè)網(wǎng)站優(yōu)化排名
📋 博主簡(jiǎn)介
- 💖 作者簡(jiǎn)介:大家好,我是wux_labs。😜
熱衷于各種主流技術(shù),熱愛(ài)數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、云計(jì)算、人工智能。
通過(guò)了TiDB數(shù)據(jù)庫(kù)專(zhuān)員(PCTA)、TiDB數(shù)據(jù)庫(kù)專(zhuān)家(PCTP)、TiDB數(shù)據(jù)庫(kù)認(rèn)證SQL開(kāi)發(fā)專(zhuān)家(PCSD)認(rèn)證。
通過(guò)了微軟Azure開(kāi)發(fā)人員、Azure數(shù)據(jù)工程師、Azure解決方案架構(gòu)師專(zhuān)家認(rèn)證。
對(duì)大數(shù)據(jù)技術(shù)棧Hadoop、Hive、Spark、Kafka等有深入研究,對(duì)Databricks的使用有豐富的經(jīng)驗(yàn)。- 📝 個(gè)人主頁(yè):wux_labs,如果您對(duì)我還算滿(mǎn)意,請(qǐng)關(guān)注一下吧~🔥
- 📝 個(gè)人社區(qū):數(shù)據(jù)科學(xué)社區(qū),如果您是數(shù)據(jù)科學(xué)愛(ài)好者,一起來(lái)交流吧~🔥
- 🎉 請(qǐng)支持我:歡迎大家 點(diǎn)贊👍+收藏??+吐槽📝,您的支持是我持續(xù)創(chuàng)作的動(dòng)力~🔥
《PySpark大數(shù)據(jù)分析實(shí)戰(zhàn)》-03.了解Hive
- 《PySpark大數(shù)據(jù)分析實(shí)戰(zhàn)》-03.了解Hive
- 前言
- 了解Hive
- 結(jié)束語(yǔ)
《PySpark大數(shù)據(jù)分析實(shí)戰(zhàn)》-03.了解Hive
前言
大家好!今天為大家分享的是《PySpark大數(shù)據(jù)分析實(shí)戰(zhàn)》第1章第3節(jié)的內(nèi)容:了解Hive。
了解Hive
Hadoop生態(tài)系統(tǒng)是為了處理大數(shù)據(jù)而產(chǎn)生的解決方案,MapReduce框架將計(jì)算作業(yè)切分為多個(gè)小單元分布到各個(gè)節(jié)點(diǎn)去執(zhí)行,從而降低計(jì)算成本并提供高可擴(kuò)展性。但是使用MapReduce進(jìn)行數(shù)據(jù)處理分析的門(mén)檻是比較高的,需要學(xué)會(huì)使用Java根據(jù)MapReduce的API進(jìn)行代碼編寫(xiě),這對(duì)不熟悉Java的開(kāi)發(fā)人員、數(shù)據(jù)分析人員以及運(yùn)維人員等人群來(lái)說(shuō)門(mén)檻高、不易學(xué)。為了方便用戶(hù)從現(xiàn)有的數(shù)據(jù)基礎(chǔ)架構(gòu)轉(zhuǎn)移到Hadoop上來(lái),Hive就誕生了。Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,可以對(duì)存儲(chǔ)在HDFS的數(shù)據(jù)集進(jìn)行特殊查詢(xún)和分析處理。Hive的學(xué)習(xí)門(mén)檻比較低,它提供了類(lèi)似于關(guān)系型數(shù)據(jù)庫(kù)SQL的查詢(xún)語(yǔ)言HiveQL,通過(guò)HiveQL執(zhí)行類(lèi)SQL語(yǔ)句可以快速地實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),Hive底層會(huì)將HiveQL轉(zhuǎn)換成MapReduce任務(wù)進(jìn)行運(yùn)行,用戶(hù)不必開(kāi)發(fā)MapReduce程序,非常適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
在Hive中要完成WordCount程序,實(shí)現(xiàn)對(duì)單詞出現(xiàn)次數(shù)的統(tǒng)計(jì),首先需要在Hive中創(chuàng)建一張表,建表語(yǔ)句如下:
create table wordsTable(line String);
然后將文件內(nèi)容load到Hive的表中,語(yǔ)句如下:
load data local inpath 'words.txt' into table wordsTable;
最后只需要執(zhí)行一條SQL語(yǔ)句就可以完成對(duì)單詞出現(xiàn)次數(shù)的統(tǒng)計(jì),語(yǔ)句如下:
select word, count(1)from (select explode(split(line, ' ')) as word from wordsTable) tmpgroup by word;
結(jié)束語(yǔ)
好了,感謝大家的關(guān)注,今天就分享到這里了,更多詳細(xì)內(nèi)容,請(qǐng)閱讀原書(shū)或持續(xù)關(guān)注專(zhuān)欄。