Hadoop集群怎么搭建及如何进行Python操作

这期内容当中小编将会给大家带来有关Hadoop集群怎么搭建及如何进行Python操作，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

察哈尔右翼后网站制作公司哪家好，找成都创新互联公司！从网页设计、网站建设、微信开发、APP开发、响应式网站设计等网站项目制作，到程序开发，运营维护。成都创新互联公司自2013年创立以来到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选成都创新互联公司。

最近项目中在做千亿大数据存储检索需求，要把10T的文本数据进行解析处理存入数据库进行实时检索，文件的存储成为一个首要处理的问题，使用了多种存储方式，都不是很满足要求，最后使用 HDFS 分布式文件存储系统发现效率、管理等各方面都挺不错，就研究了一下搭建使用方式，特此记录文档

环境

修改主机名

# 按照上面环境配置修改每个机器的hostname vi /etc/hostname  # 使用hostname命令使其生效，就不用重启了 hostname xxxx

修改hosts文件

vi /etc/hosts  192.168.143.130 master 192.168.143.131 slave1 192.168.143.132 slave2 192.168.143.133 slave3 192.168.143.134 slave4

配置免密登录

ssh-keygen -t rsa  ssh-copy-id -i ~/.ssh/id_rsa.pub master ssh-copy-id -i ~/.ssh/id_rsa.pub slave1 ssh-copy-id -i ~/.ssh/id_rsa.pub slave2 ssh-copy-id -i ~/.ssh/id_rsa.pub slave3 ssh-copy-id -i ~/.ssh/id_rsa.pub slave4

安装JDK(每台机器)

apt-get install -y openjdk-8-jre-headless openjdk-8-jdk

配置环境变量

在/etc/profile文件最后添加如下内容：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools/jar export HADOOP_HOME=/usr/hadoop-3.3.0/ export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

使环境变量生效

source /etc/profile

创建目录(每天机器)

创建目录的时候要注意，先通过df -h命令查看本机上的磁盘空间，确定好数据存储的磁盘，然后创建以下三个目录，在下面的配置文件hdfs-site.xml中修改对应的目录配置即可

mkdir -p /home/hadoop/dfs/name mkdir -p /home/hadoop/dfs/data mkdir -p /home/hadoop/temp

安装配置Hadoop

下载Hadoop安装包

http://archive.apache.org/dist/hadoop/core/stable/hadoop-3.3.0.tar.gz

# 解压后拷贝到/usr目录下 tar -xzvf hadoop-3.3.0.tar.gz mv hadoop-3.3.0 /usr

配置Hadoop

配置文件在

/usr/hadoop-3.3.0/etc/hadoop目录下

hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root

core-site.xml

        fs.defaultFS     hdfs://master:9000           hadoop.http.staticuser.user     root           dfs.permissions.enabled     false

hdfs-site.xml配置多个文件存储目录，使用逗号隔开即可

        dfs.namenode.name.dir     /home/hadoop/dfs/name           dfs.dataname.data.dir     /home/hadoop/dfs/data,/usr1/hadoop/dfs/data           dfs.replication     2

mapred-site.xml

        mapreduce.framework.name     yarn

yarn-site.xml

        yarn.resourcemanager.hostname     master           yarn.resourcemanager.webapp.address     master:8088           yarn.nodemanager.aux-services     mapreduce_shuffle

workers

这里配置的就是DataNode的存储机器，不建议用master作为存储，如果存满了集群就不能用了

slave1 slave2 slave3 slave4

将master上的/usr/hadoop-3.3.9拷贝到其他机器即可

scp /usr/hadoop-3.3.0 slave1:/usr scp /usr/hadoop-3.3.0 slave2:/usr scp /usr/hadoop-3.3.0 slave3:/usr scp /usr/hadoop-3.3.0 slave4:/usr

格式化HDFS目录（在master机器）

hdfs namenode-format

启动Hadoop

在master机器上执行就可以了，执行完以后可以使用jps命令在所有机器上查看进程状态

cd /usr/hadoop-3.3.0/sbin ./start-all.sh

查看进程状态

在master和slave上分别执行jps命令

查看是否成功

在浏览器上打开下面的网页，看能否正常访问

# Hadoop集群信息 http://192.168.143.130:8088/cluster  # HDFS地址 http://192.168.143.130:9870/dfshealth.html  # DataNode地址 http://192.168.143.130:9864/datanode.html  # NodeManager地址 http://192.168.143.130:8042/node  # SecondaryNameNode http://192.168.143.130:9868/status.html

测试文件上传（master）

hdfs dfs -mkdir /test hdfs dfs -put start-dfs.sh /test

HDFS操作命令

创建文件夹

hdfs dfs -mkdir /myTask

创建多层文件

hdfs dfs -mkdir -p /myTask/input

上传文件

hdfs dfs -put /opt/wordcount.txt /myTask

查看总目录下的文件和文件夹

hdfs dfs -ls /

查看myTask目录下的wordcount.txt文件内容

hdfs dfs -cat /myTask/wordcount.txt

删除文件或文件夹

hdfs dfs -rm -r /myTask/wordcount.txt

下载文件到本地

hdfs dfs -get /myTask/wordcount.txt /opt

Python操作hdfs

python操作hdfs时，如果要进行上传下载文件，必须在执行代码的机器上配置hosts文件，原因是hdfs的namenode和datanode注册后是以hostname进行记录的，如果不配置直接进行上传下载操作，那么将会采用hostname进行操作，因此需要在本机上配置hdfs集群机器IP和hostname的对应配置。例如我在本机上进行操作，必须配置如下：

C:\Windows\System32\drivers\etc\hosts  192.168.143.130 master 192.168.143.131 slave1 192.168.143.132 slave2 192.168.143.133 slave3 192.168.143.134 slave4

安装库

pip install hdfs

操作

连接

from hdfs.client import Client client = Client("http://192.168.143.130:9870")

创建目录

client.makedirs(hdfs_path)

删除文件

client.delete(hdfs_path)

上传文件

client.download(hdfs_path, local_path)

获取目录下文件列表

client.list(hdfs_path)

HDFS 文件存储集群的优点是：配置要求低、易于扩展、效率比较高、非常适合大批量文件存储，而且可以提供 web 管理页面，提供非常好的第三方库。在进行 web 开发时，作为文件和图片存储库也是非常好的选择。

上述就是小编为大家分享的Hadoop集群怎么搭建及如何进行Python操作了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注创新互联行业资讯频道。

网站名称：Hadoop集群怎么搭建及如何进行Python操作
网页地址：http://chengdu.cdxwcx.cn/article/ippcog.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Hadoop集群怎么搭建及如何进行Python操作

修改主机名

修改hosts文件

配置免密登录

安装JDK(每台机器)

配置环境变量

创建目录(每天机器)

安装配置Hadoop

配置Hadoop

格式化HDFS目录（在master机器）

启动Hadoop

查看进程状态

查看是否成功

HDFS操作命令

Python操作hdfs

安装库

操作

其他资讯

深度定制Redis源码设置（redis源码设置）

關於域名的解析與指向的方法？(域名如何解析)

微服务，Java目前很火热的系统架构

国外大宽带服务器有何优势？价格一般多少钱？

阿里云怎么在电脑上登录？()

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Hadoop集群怎么搭建及如何进行Python操作

修改主机名

修改hosts文件

配置免密登录

安装JDK(每台机器)

配置环境变量

创建目录(每天机器)

安装配置Hadoop

配置Hadoop

格式化HDFS目录（在master机器）

启动Hadoop

查看进程状态

查看是否成功

HDFS操作命令

Python操作hdfs

安装库

操作

其他资讯

深度定制Redis源码设置（redis源码设置）

關於域名的解析與指向的方法？(域名如何解析)

微服务，Java目前很火热的系统架构

国外大宽带服务器有何优势？价格一般多少钱？

阿里云怎么在电脑上登录？()

成都网站建设设计将想法与焦点和您一起共享