本文将详细介绍如何使用Python进行HDFS的离线安装。
一、下载Hadoop和Spark安装包
1、访问Hadoop官方网站或Apache镜像站点,下载适用于您的操作系统版本的Hadoop安装包。
wget http://mirror.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
2、同样地,访问Spark官方网站或Apache镜像站点,下载适用于您的操作系统版本的Spark安装包。
wget http://mirror.apache.org/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
二、安装和配置Hadoop
1、解压Hadoop安装包。
tar -xzvf hadoop-3.2.1.tar.gz
2、创建Hadoop配置文件。
cd hadoop-3.2.1
cp etc/hadoop/core-default.xml etc/hadoop/core-site.xml
3、编辑core-site.xml文件,配置Hadoop的相关参数。
vi etc/hadoop/core-site.xml
在<configuration>标签内添加以下内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
4、配置Hadoop工作目录。
mkdir -p /usr/local/hadoop/data/hdfs/namenode
mkdir -p /usr/local/hadoop/data/hdfs/datanode
chown -R <用户名>:<组名> /usr/local/hadoop/data
5、启动Hadoop。
./sbin/start-dfs.sh
三、安装和配置Spark
1、解压Spark安装包。
tar -xzvf spark-3.0.0-bin-hadoop3.2.tgz
2、将Spark的jar包复制到Hadoop目录。
cp spark-3.0.0-bin-hadoop3.2/jars/* hadoop-3.2.1/share/hadoop/common/
3、编辑Spark配置文件。
cd spark-3.0.0-bin-hadoop3.2/conf
cp spark-defaults.conf.template spark-defaults.conf
4、在spark-defaults.conf文件中添加以下内容:
spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://localhost:9000/spark-logs
spark.history.fs.logDirectory hdfs://localhost:9000/spark-logs
5、启动Spark。
cd ..
./sbin/start-history-server.sh
四、测试Hadoop和Spark
1、创建HDFS目录。
./bin/hadoop fs -mkdir /input
./bin/hadoop fs -put README.md /input
2、运行Spark任务。
./bin/spark-submit --class org.apache.spark.examples.JavaWordCount --master yarn examples/jars/spark-examples_2.12-3.0.0.jar /input /output
3、查看Spark任务的输出。
./bin/hadoop fs -cat /output/
通过以上步骤,您已经成功完成了Python HDFS的离线安装。
原创文章,作者:LEBF,如若转载,请注明出处:https://www.beidandianzhu.com/g/7957.html