哪有專做注冊小網站的客戶資源買賣平臺
1. 安裝 SSH 工具
SSH Secure Shell Client 傳輸軟件
FinalShell(推薦使用)
1.1使用SSH工具將JDK安裝包上傳至虛擬主機hadoop01, hadoop02, hadoop03,sogou500w 數(shù)據上傳至 hadoop01。
a. 在虛擬主機/usr 目錄下創(chuàng)建文件夾 java,JDK 上傳至此目錄(創(chuàng)建文件夾可能需要 root 角色)
mkdir java
b. 在虛擬主機創(chuàng)建文件夾 sogou, sogou500w 數(shù)據上傳至此目錄。
????????復制以后請使用 Linux 命令查看一下該文件的前 10 行和后 10 行數(shù)據。
mkdir sogou
2. 安裝 JDK 并且配置環(huán)境變量。
(注意 JDK 需要在三臺客戶虛擬機上分別獨立完整安裝配置,為分布式 Hadoop 集群安裝部署做準備。)
????????直接解壓縮 JDK 安裝包,如下所示,所在目錄為/usr/java 目錄下。安裝時
????????注意:文件夾權限,如果權限不足,需要使用 chmod 命令修改。
2.1 修改文件夾權限為可讀可寫可執(zhí)行權限
chomd -R 777 java
2.2 把window主機的jdk拖拽到/usr/java目錄下
2.3 解壓縮JDK安裝包
sudo tar -zxvf /usr/java/jdk-8u212-linux-x64.tar.gz -C /usr/java/
2.4 配置環(huán)境變量
????????添加 JAVA_HOME 變量并賦值;
????????編輯 PATH 變量,添加 JAVA 的 bin 目錄,如下圖所示內容。
export JAVA_HOME=/usr/java/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
????????使環(huán)境變量生效。
????????驗證安裝配置成功。
java -version
3. 將 JDK 遠程拷貝至虛擬主機 hadoop101,hadoop102并解壓縮
環(huán)境變量配置后續(xù)用xsync集群分發(fā)腳本復制粘貼即可。
3.1? 將JDK拷貝給虛擬機hadoop101
????????解壓縮
3.2 將JDK拷貝給虛擬機hadoop102
????????解壓縮
4. Hadoop 本地模式部署
4.1 下載 hadoop 安裝包并上傳至虛擬機文件目錄
????????我下載的版本是3.1.3。?
????????在主機 hadoop100 解壓縮 hadoop 壓縮包,命令如下所示:
獲取hadoop安裝路徑
4.2 配置hadoop環(huán)境變量
export HADOOP_HOME=?export PATH=$:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin
4.3 使環(huán)境變量生效
source .bash_profile
????????執(zhí)行以下命令驗證 hadoop 安裝配置成功。?
???????hadoop version
????????將hadoop從hadoop100拷貝到hadoop101
????????將hadoop從hadoop100拷貝到hadoop102
????????在/home/2130502441ryx/下創(chuàng)建以下數(shù)據目錄:
????????在此目錄下編輯數(shù)據文件 wc.input
????????在文件內輸入以下內容:
????????在/home/2130502441ryx/data 下創(chuàng)建文件夾 input,并將/home/gdpu/hadoop-2.8.1/etc/hadoop 目錄里下的 xml 文件拷貝至 input 目錄下。
5. Hadoop 自帶程序測試(StandAlone 模式下)
5.1 grep 官方案例,此案例的功能是將文件中符合規(guī)則的內容輸出。
????????在 data 目錄下運行以下 hadoop 命令,命令如下:
hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input ouput 'dfs[a-z.]+'
????????查看輸出到本地的 output 目錄下的結果文件:符合正則表達式 ‘dfs[az.]+’的內容輸出到 part-r-00000 結果文件中,另外還有一個文件_SUCCESS 文件,說明 Job 運行成功。
????????請將 part-r-00000 結果文件中的內容截圖并記錄在下面: ???????
可以看到符合正則表達式 ‘dfs[az.]+’只有一行。 |
前面output文件名打錯了,修改如下:
????????思考題:將 wc.input 文件移動到 input 目錄下,現(xiàn)如今要將 input 文件夾下所有文件內容中包含 ‘dfs’的內容提取,并將結果輸出到結果目錄 output中,請寫出相應的 hadoop 執(zhí)行命令在以下的方框內。并打印輸出結果 part-r-00000 文件的內容。
① 將 wc.input 文件移動到 input 目錄下 (mv wc.input /home/2130502441ryx/data/input/) ??② 查看是否成功 ?③ 將符合要求的結果輸出到output2中 ?④ 打印輸出結果 可以看到有四行包含dfs,前面沒有加入wc.input的時候只有一行,加上wc.input里面的三個剛好是4。 |
5.2 WordCount 官方案例
????????運行以下命令,實現(xiàn)對文件內容的單詞計數(shù)
?
hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar ?wordcount input/wc.input output3
????????查看執(zhí)行結果文件的內容 part-r-00000,輸出到以下方框內。
?① 運行命令 ?② 查看part-r-00000的輸出內容 |