大数据Flink进阶（九）：集群基础环境搭建世界观焦点

来源：腾讯云时间：2023-03-31 01:25:37

集群基础环境搭建

Flink可以运行在所有类unix环境中，例如：Linux，Mac OS 和Windows，一般企业中使用Flink基于的都是Linux环境，后期我们进行Flink搭建和其他框架整合也是基于linux环境，使用的是Centos7.6版本，JDK使用JDK8版本(Hive版本不支持JDK11,所以这里选择JDK8)，本小节主要针对Flink集群使用到的基础环境进行配置，不再从零搭建Centos系统，另外对后续整合使用到的技术框架也一并进行搭建，如果你目前已经有对应的基础环境，可以忽略本小节，Linux及各个搭建组件使用版本如下表所示。

(资料图)

系统或组件名称	版本
Centos	CentOS-7-x86_64-DVD-1810
JDK	jdk-8u181-linux-x64
MySQL	5.7.32
Zookeeper	3.6.3
HDFS	3.3.4
Hive	3.1.3
Hbase	2.5.1
Redis	6.2.7
Kafka	3.3.1

一、Centos7节点配置

这里准备5台Linux节点，节点名称和ip信息如下，我们可以从头搭建各个Linux节点也可以基于已有快照创建各个Linux节点。

节点IP	节点名称
192.168.179.4	node1
192.168.179.5	node2
192.168.179.6	node3
192.168.179.7	node4
192.168.179.8	node5

这里默认已经创建好以上各个节点，并且每个节点分配资源为4核2G，下面进行节点的其他配置。

1、配置各个节点的Ip

启动每台节点，在对应的节点路径"/etc/sysconfig/network-scripts"下配置ifg-ens33文件配置IP（注意，不同机器可能此文件名称不同，一般以ifcfg-xxx命名），以配置ip 192.168.179.4为例，ifcfg-ens33配置内容如下：

TYPE=EthernetBOOTPROTO=static     #使用static配置DEFROUTE=yesPEERDNS=yesPEERROUTES=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_PEERDNS=yesIPV6_PEERROUTES=yesIPV6_FAILURE_FATAL=noONBOOT=yes      #开机启用本配置IPADDR=192.168.179.4   #静态IPGATEWAY=192.168.179.2   #默认网关NETMASK=255.255.255.0   #子网掩码DNS1=192.168.179.2       #DNS配置 可以与默认网关相同

以上其他节点配置只需要修改对应的ip即可，配置完成后，在每个节点上执行如下命令重启网络服务：

systemctl restart network.service

检查每个节点ip执行如下命令：

ip addr

2、配置主机名

在每台节点上修改/etc/hostname,配置对应的主机名称，参照节点IP与节点名称对照表分别为：node1、node2、node3、node4、node5。配置完成后 需要重启各个节点，才能正常显示各个主机名。

3、关闭防火墙

执行如下命令确定各个节点上的防火墙开启情况，需要将各个节点上的防火墙关闭：

#检查防火墙状态firewall-cmd --state#临时关闭防火墙（重新开机后又会自动启动）systemctl stop firewalld 或者systemctl stop firewalld.service#设置开机不启动防火墙systemctl disable firewalld

4、关闭SELinux

SELinux就是Security-Enhanced Linux的简称，安全加强的linux。传统的linux权限是对文件和目录的owner, group和other的rwx进行控制，而SELinux采用的是委任式访问控制，也就是控制一个进程对具体文件系统上面的文件和目录的访问，SELinux规定了很多的规则，来决定哪个进程可以访问哪些文件和目录。虽然SELinux很好用，但是在多数情况我们还是将其关闭，因为在不了解其机制的情况下使用SELinux会导致软件安装或者应用部署失败。

在每台节点/etc/selinux/config中将SELINUX=enforcing改成SELINUX=disabled即可。

5、配置国内云yum源

后续为了方便在Linux节点上安装各个软件，我们将yum源改成国内yum源，这样下载软件速度快一些，每个节点具体操作按照以下步骤进行。

#安装wget，wget是linux最常用的下载命令(有些系统默认安装，可忽略)yum -y install wget#备份当前的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup#下载国内云的yum源配置wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo#清除原来文件缓存，构建新加入的repo结尾文件的缓存yum clean allyum makecache

配置完成后，可以在每台节点上安装"vim"命令，方便后续操作：

#在各个节点上安装 vim命令yum -y install vim

6、设置Linux 系统显示中文/英文

Linux系统默认显示不支持中文，可以通过配置支持显示中文。每台节点具体操作参照如下步骤。

#查看当前系统语言echo $LANG#显示结果如下，说明默认支持显示英文en_US.UTF-8#临时修改系统语言为中文，重启节点后恢复英文LANG="zh_CN.UTF-8"#如果想要永久修改系统默认语言为中文，需要创建/修改/etc/locale.conf文件,写入以下内容，设置完成后需要重启各节点。LANG="zh_CN.UTF-8"

7、设置自动更新时间

后续基于Linux各个节点搭建HDFS时，需要各节点的时间同步，可以通过设置各个节点自动更新时间来保证各个节点时间一致，具体按照以下操作来执行。

7.1、修改本地时区及ntp服务

yum -y install ntprm -rf /etc/localtimeln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime/usr/sbin/ntpdate -u pool.ntp.org

7.2、自动同步时间

设置定时任务，每10分钟同步一次，配置/etc/crontab文件，实现自动执行任务。建议直接crontab -e 来写入定时任务。使用crontab -l 查看当前用户定时任务。

#各个节点执行 crontab -e 写入以下内容*/10 * * * *  /usr/sbin/ntpdate -u pool.ntp.org >/dev/null2>&1#重启定时任务   service crond restart#查看日期date

8、设置各个节点之间的ip映射

每个节点都有自己的IP和主机名，各个节点默认进行文件传递或通信时需要使用对应的ip进行通信，后续为了方便各个节点之间的通信和文件传递，可以配置各个节点名称与ip之间的映射，节点之间通信时可以直接写对应的主机名称，不必写复杂的ip。每台节点具体操作按照以下操作进行。

进入每台节点的/etc/hosts下，修改hosts文件，vim /etc/hosts:

#在文件后面追加以下内容192.168.179.4 node1192.168.179.5 node2192.168.179.6 node3192.168.179.7 node4192.168.179.8 node5

各个节点配置完成后，可以使用ping命令互相测试使用节点名称是否可以正常通信。

[root@node5 ~]# ping node1PING node1 (192.168.179.4) 56(84) bytes of data.64 bytes from node1 (192.168.179.4): icmp_seq=1 ttl=64 time=0.892 ms64 bytes from node1 (192.168.179.4): icmp_seq=2 ttl=64 time=0.415 ms... ...

9、配置节点之间免密访问

后续搭建HDFS集群时需要Linux各个节点之间免密，节点两两免秘钥的根本原理如下：假设A节点需要免秘钥登录B节点，只要B节点上有A节点的公钥，那么A节点就可以免密登录当前B节点。具体操作步骤如下。

9.1、安装ssh客户端

需要在每台节点上安装ssh客户端，否则，不能使用ssh命令（最小化安装Liunx，默认没有安装ssh客户端），这里在Centos7系统中默认已经安装，此步骤可以省略：

yum -y install openssh-clients

9.2、创建.ssh目录

在每台节点执行如下命令，在每台节点的"~"目录下，创建.ssh目录，注意，不要手动创建这个目录，因为有权限问题。

cd~ssh localhost#这里会需要输入节点密码#exit

9.3、配置各节点向一台节点通信免密

在每台节点上执行如下命令，给当前节点创建公钥和私钥：

ssh-keygen -t rsa -P ""-f ~/.ssh/id_rsa

将node1、node2、node3、node4、node5的公钥copy到node1上，这样这五台节点都可以免密登录到node1。命令如下：

#在node1上执行如下命令，需要输入密码ssh-copy-id node1 #会在当前~/.ssh目录下生成authorized_keys文件，文件中存放当前node1的公钥##在node2上执行如下命令，需要输入密码ssh-copy-id node1 #会将node2的公钥追加到node1节点的authorized_keys文件中#在node3上执行如下命令，需要输入密码ssh-copy-id node1 #会将node3的公钥追加到node1节点的authorized_keys文件中#在node4上执行如下命令，需要输入密码ssh-copy-id node1 #会将node4的公钥追加到node1节点的authorized_keys文件中#在node5上执行如下命令，需要输入密码ssh-copy-id node1 #会将node5的公钥追加到node1节点的authorized_keys文件中

9.4、各节点免密

将node1节点上~/.ssh/authorized_keys拷贝到node2、node3、node4、node5各节点的~/.ssh/目录下，执行如下命令：

scp ~/.ssh/authorized_keys node2:`pwd`scp ~/.ssh/authorized_keys node3:`pwd`scp ~/.ssh/authorized_keys node4:`pwd`scp ~/.ssh/authorized_keys node5:`pwd`

以上node1向各个几点发送文件时需要输入密码，经过以上步骤，节点两两免密完成。

二、安装JDK

按照以下步骤在各个节点上安装JDK8。

1、各个节点创建/software 目录，上传并安装jdk8 rpm包

rpm -ivh /software/jdk-8u181-linux-x64.rpm

以上命令执行完成后，会在每台节点的/user/java下安装jdk8。

2、配置jdk环境变量

在每台节点上配置jdk的环境变量：

export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

每台节点配置完成后，最后执行"source /etc/profile"使配置生效。

三、安装MySQL

1、节点划分

在Linux集群中我们选择一台节点进行MySQL安装，这里选择在node2节点上安装MySQL。

节点IP	节点名称	mysql
192.168.179.5	node2	★

2、安装MySQL

在Centos6中安装mysql可以直接执行命令：

yum install –y mysql-server

但是在Centos7中yum源中没有自带mysql的安装包，需要执行命令下载mysql 的rpm配置文件，然后进行repo的安装，安装repo后在/etc/yum.repos.d路径下会有对应的mysql repo配置，然后再安装mysql,这里安装的mysql是5.7版本。命令如下：

#下载mysql repo,下载完成后会在当前执行命令目录下生成 rpm -ivh mysql57-community-release-el7-9.noarch.rpm文件。[root@node2 ~]# wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm#安装repo，安装完成后再/etc/yum.repos.d 目录下会生成mysql的 repo文件[root@node2 ~]# rpm -ivh mysql57-community-release-el7-9.noarch.rpm#安装mysql[root@node2 ~]# yum install mysql-server -y --nogpgcheck

执行完成之后，启动mysql:systemctl start mysqld，也可以使用service mysqld start启动msyql。

以上安装mysql的方式是直接从外网下载mysql 5.7版本安装，由于网络慢等原因导致mysql下载安装速度慢。我们也可以选择在mysql官网中找到linux版本对应的mysql版本先下载好,然后直接使用rpm安装。安装mysql rpm包有依赖关系，安装的顺序如下(--force：强制安装 --nodeps:不检查环境依赖)：

rpm -ivh mysql-community-common-5.7.32-1.el7.x86_64.rpm --force --nodepsrpm -ivh mysql-community-libs-5.7.32-1.el7.x86_64.rpm --force --nodepsrpm -ivh mysql-community-client-5.7.32-1.el7.x86_64.rpm --force --nodepsrpm -ivh mysql-community-server-5.7.32-1.el7.x86_64.rpm --force --nodeps

以上安装完成后，执行如下命令来启动MySQL：

service mysqld start

3、配置MySQL

mysql5.7开始初始登录mysql需要使用初始密码，启动后登录mysql需要指定安装时的临时密码，使用命令：grep "temporary password" /var/log/mysqld.log 获取临时密码后，执行如下语句：

#使用临时密码登录mysql[root@node2 log]# mysql -u root -pK-BJt9jV0jb0#默认mysql密码需要含有数字、大小写字符、下划线等，这里设置密码验证级别为低即可mysql> setglobal validate_password_policy=LOW;#默认mysql密码设置长度是8位，这里修改成6位mysql> setglobal validate_password_length=6;#初始登录mysql必须重置密码才能操作，这里先修改密码为 123456mysql> alter user "root"@"localhost" identified by"123456";

也可以删除usr表中的数据，重新设置下mysql root密码也可以，命令如下：

[root@node2 java]# mysql -u root -p123456mysql> use mysql;mysql> selectuser,authentication_string fromuser; mysql> deletefromuser;mysql> GRANTALLPRIVILEGESON *.* TO"root"@"%" IDENTIFIED BY"123456"WITHGRANTOPTION;mysql> flush privileges;

执行如下命令，将mysql设置成开机启动，如果不设置开机启动，后期每次重启节点后需要手动启动MySQL。

#设置mysql 开机自动启动[root@cm1 ~]# systemctl enable mysqld [root@cm1 ~]# systemctl list-unit-files |grep mysqld

以上设置密码验证级别和密码长度验证当mysql重启后还需要重复设置，如果mysql中密码设置不想要太复杂或者密码长度不想设置长度验证，可以在"/etc/my.cnf"中配置如下内容：

[mysqld]plugin-load=validate_password.sovalidate-password=off

配置完成后执行"systemctl restart mysqld"，重启mysql即可。

4、Mysql密码忘记处理

如果MySQL安装后，登录密码忘记，可以按照以下步骤来解决。

4.1、修改/etc/my.conf 文件，在mysqld 标签下加入以下参数

[mysqld]skip-grant-tables

配置完成后重启MySQL服务：service mysqld restart

4.2、执行如下命令修改mysql root用户密码

# 使用mysql库mysql> use mysql;# 更新修改root用户密码mysql> update user set authentication_string = password ( "123456" ) where user = "root";

更新完密码之后，去掉/etc/my.cnf中的skip-grant-tables配置，重启mysql服务使用更新后的密码登录MySQL即可。

四、安装Zookeeper

1、节点划分

这里搭建zookeeper版本为3.6.3，搭建zookeeper对应的角色分布如下：

节点IP	节点名称	Zookeeper
192.168.179.4	node1
192.168.179.5	node2
192.168.179.6	node3	★
192.168.179.7	node4	★
192.168.179.8	node5	★

2、安装Zookeeper

2.1、上传zookeeper 并解压, 配置环境变量

将zookeeper安装包上传到node3节点/software目录下并解压：

[root@node3 software]# tar -zxvf ./apache-zookeeper-3.6.3-bin.tar.gz

在node3节点配置环境变量：

#进入vim /etc/profile，在最后加入：export ZOOKEEPER_HOME=/software/apache-zookeeper-3.6.3-bin/export PATH=$PATH:$ZOOKEEPER_HOME/bin#使配置生效source /etc/profile

2.2、在node3 节点配置 zookeeper

进入"$ZOOKEEPER_HOME/conf"修改zoo_sample.cfg为zoo.cfg：

[root@node3 conf]# mv zoo_sample.cfg  zoo.cfg

配置zoo.cfg中内容如下：

tickTime=2000initLimit=10syncLimit=5dataDir=/opt/data/zookeeperclientPort=2181server.1=node3:2888:3888server.2=node4:2888:3888server.3=node5:2888:3888

2.3、将配置好的zookeeper 发送到 node4,node5节点

[root@node3 software]# scp -r apache-zookeeper-3.6.3-bin node4:/software/[root@node3 software]# scp -r apache-zookeeper-3.6.3-bin node5:/software/

2.4、各个节点上创建数据目录，并配置zookeeper环境变量

在node3,node4,node5各个节点上创建zoo.cfg中指定的数据目录"/opt/data/zookeeper"。

mkdir -p /opt/data/zookeeper

在node4,node5节点配置zookeeper环境变量

#进入vim /etc/profile，在最后加入：export ZOOKEEPER_HOME=/software/apache-zookeeper-3.6.3-bin/export PATH=$PATH:$ZOOKEEPER_HOME/bin#使配置生效source /etc/profile

2.5、各个节点创建节点ID

在node3,node4,node5各个节点路径"/opt/data/zookeeper"中添加myid文件分别写入1,2,3:

#在node3的/opt/data/zookeeper中创建myid文件写入1#在node4的/opt/data/zookeeper中创建myid文件写入2#在node5的/opt/data/zookeeper中创建myid文件写入3

2.6、各个节点启动zookeeper, 并检查进程状态

#各个节点启动zookeeper命令zkServer.sh start#检查各个节点zookeeper进程状态zkServer.sh status

五、安装HDFS

1、节点划分

这里安装HDFS版本为3.3.4，搭建HDFS对应的角色在各个节点分布如下：

节点IP	节点名称	NN	DN	ZKFC	JN	RM	NM
192.168.179.4	node1	★		★		★
192.168.179.5	node2	★		★		★
192.168.179.6	node3		★		★		★
192.168.179.7	node4		★		★		★
192.168.179.8	node5		★		★		★

2、安装配置HDFS

2.1、各个节点安装HDFS HA自动切换必须的依赖

yum -y install psmisc

2.2、上传下载好的Hadoop 安装包到 node1节点上，并解压

[root@node1 software]# tar -zxvf ./hadoop-3.3.4.tar.gz

2.3、在node1 节点上配置 Hadoop的环境变量

[root@node1 software]# vim /etc/profileexport HADOOP_HOME=/software/hadoop-3.3.4/export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:#使配置生效source/etc/profile

2.4、配置$HADOOP_HOME/etc/hadoop 下的hadoop-env.sh文件

#导入JAVA_HOMEexport JAVA_HOME=/usr/java/jdk1.8.0_181-amd64/

2.5、配置$HADOOP_HOME/etc/hadoop 下的hdfs-site.xml文件

                    dfs.nameservices        mycluster                        dfs.permissions.enabled        false                        dfs.ha.namenodes.mycluster        nn1,nn2                        dfs.namenode.rpc-address.mycluster.nn1        node1:8020                        dfs.namenode.rpc-address.mycluster.nn2        node2:8020                        dfs.namenode.http-address.mycluster.nn1        node1:50070                        dfs.namenode.http-address.mycluster.nn2        node2:50070                        dfs.namenode.shared.edits.dir        qjournal://node3:8485;node4:8485;node5:8485/mycluster                        dfs.client.failover.proxy.provider.mycluster        org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider                        dfs.ha.fencing.methods        sshfence                dfs.ha.fencing.ssh.private-key-files        /root/.ssh/id_rsa                        dfs.journalnode.edits.dir        /opt/data/journal/node/local/data                        dfs.ha.automatic-failover.enabled        true

2.6、配置$HADOOP_HOME/ect/hadoop/core-site.xml

                    fs.defaultFS        hdfs://mycluster                        hadoop.tmp.dir        /opt/data/hadoop/                        ha.zookeeper.quorum        node3:2181,node4:2181,node5:2181

2.7、配置$HADOOP_HOME/etc/hadoop/yarn-site.xml

            yarn.nodemanager.aux-services        mapreduce_shuffle                yarn.nodemanager.env-whitelist        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME                        yarn.resourcemanager.ha.enabled        true                        yarn.resourcemanager.cluster-id        mycluster                        yarn.resourcemanager.ha.rm-ids        rm1,rm2                        yarn.resourcemanager.hostname.rm1        node1                        yarn.resourcemanager.hostname.rm2        node2                        yarn.resourcemanager.webapp.address.rm1        node1:8088                        yarn.resourcemanager.webapp.address.rm2        node2:8088                        yarn.resourcemanager.zk-address        node3:2181,node4:2181,node5:2181           yarn.nodemanager.vmem-check-enabled    false

2.8、配置$HADOOP_HOME/etc/hadoop/mapred-site.xml

            mapreduce.framework.name        yarn

2.9、配置$HADOOP_HOME/etc/hadoop/workers文件

[root@node1 ~]# vim /software/hadoop-3.3.4/etc/hadoop/workersnode3node4node5

2.10、配置$HADOOP_HOME/sbin/start-dfs.sh 和 stop-dfs.sh两个文件中顶部添加以下参数，防止启动错误

HDFS_DATANODE_USER=rootHDFS_DATANODE_SECURE_USER=hdfsHDFS_NAMENODE_USER=rootHDFS_JOURNALNODE_USER=rootHDFS_ZKFC_USER=root

2.11、配置$HADOOP_HOME/sbin/start-yarn.sh 和stop-yarn.sh 两个文件顶部添加以下参数，防止启动错误

YARN_RESOURCEMANAGER_USER=rootYARN_NODEMANAGER_USER=root

2.12、将配置好的 Hadoop 安装包发送到其他 4个节点

[root@node1 ~]# scp -r /software/hadoop-3.3.4 node2:/software/[root@node1 ~]# scp -r /software/hadoop-3.3.4 node3:/software/[root@node1 ~]# scp -r /software/hadoop-3.3.4 node4:/software/[root@node1 ~]# scp -r /software/hadoop-3.3.4 node5:/software/

也可以在对应其他节点上解压对应的安装包后，只发送对应的配置文件，这样速度较快。

2.13、在node2 、node3 、node4 、node5 节点上配置HADOOP_HOME

#分别在node2、node3、node4、node5节点上配置HADOOP_HOMEvim /etc/profileexport HADOOP_HOME=/software/hadoop-3.3.4/export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:#最后记得Sourcesource/etc/profile

3、初始化HDFS

#在node3,node4,node5节点上启动zookeeperzkServer.sh start#在node1上格式化zookeeper[root@node1 ~]# hdfs zkfc -formatZK#在每台journalnode中启动所有的journalnode,这里就是node3,node4,node5节点上启动hdfs --daemon start journalnode#在node1中格式化namenode[root@node1 ~]# hdfs namenode -format#在node1中启动namenode,以便同步其他namenode[root@node1 ~]# hdfs --daemon start namenode#高可用模式配置namenode,使用下列命令来同步namenode(在需要同步的namenode中执行，这里就是在node2上执行):[root@node2 software]# hdfs namenode -bootstrapStandby

4、启动及停止

#node1上启动HDFS,启动Yarn[root@node1 sbin]# start-dfs.sh[root@node1 sbin]# start-yarn.sh注意以上也可以使用start-all.sh命令启动Hadoop集群。#停止集群 [root@node1 ~]# stop-dfs.sh [root@node1 ~]# stop-yarn.sh注意：以上也可以使用 stop-all.sh 停止集群。

5、访问WebUI

#访问HDFS : http://node1:50070

六、安装Hive

1、节点划分

这里搭建Hive的版本为3.1.3，搭建Hive的节点划分如下：

节点IP	节点名称	Hive服务器	Hive客户端	MySQL
192.168.179.4	node1	★
192.168.179.5	node2			★（已搭建）
192.168.179.6	node3		★

2、安装配置Hive

2.1、将下载好的Hive 安装包上传到node1 节点上,并修改名称

[root@node1 ~]# cd /software/[root@node1 software]# tar -zxvf ./apache-hive-3.1.3-bin.tar.gz[root@node1 software]# mv apache-hive-3.1.3-bin hive-3.1.3

2.2、将解压好的Hive 安装包发送到node3节点上

[root@node1 software]# scp -r /software/hive-3.1.3/ node3:/software/

2.3、配置node1 、node3 两台节点的Hive 环境变量

vim /etc/profileexport HIVE_HOME=/software/hive-3.1.3/export PATH=$PATH:$HIVE_HOME/bin#source  生效source/etc/profile

2.4、在node1 节点$HIVE_HOME/conf 下创建hive-site.xml 并配置

   hive.metastore.warehouse.dir  /user/hive/warehouse    javax.jdo.option.ConnectionURL  jdbc:mysql://node2:3306/hive?createDatabaseIfNotExist=true&useSSL=false    javax.jdo.option.ConnectionDriverName  com.mysql.jdbc.Driver    javax.jdo.option.ConnectionUserName  root    javax.jdo.option.ConnectionPassword  123456

2.5、在node3 节点$HIVE_HOME/conf/ 中创建hive-site.xml并配置

   hive.metastore.warehouse.dir  /user/hive/warehouse    hive.metastore.local  false    hive.metastore.uris  thrift://node1:9083

2.6、node1、 node3节点删除 $HIVE_HOME/lib下" guava"包，使用 Hadoop下的包替换

#删除Hive lib目录下“guava-19.0.jar ”包[root@node1 ~]# rm -rf /software/hive-3.1.3/lib/guava-19.0.jar [root@node3 ~]# rm -rf /software/hive-3.1.3/lib/guava-19.0.jar #将Hadoop lib下的“guava”包拷贝到Hive lib目录下[root@node1 ~]# cp /software/hadoop-3.3.4/share/hadoop/common/lib/guava-27.0-jre.jar /software/hive-3.1.3/lib/[root@node3 ~]# cp /software/hadoop-3.3.4/share/hadoop/common/lib/guava-27.0-jre.jar /software/hive-3.1.3/lib/

2.7、将"mysql-connector-java-5.1.47.jar" 驱动包上传到 $HIVE_HOME/lib目录下

这里node1,node3节点都需要传入,将mysql驱动包上传$HIVE_HOME/lib/目录下。

2.8、在node1 节点中初始化Hive

#初始化hive,hive2.x版本后都需要初始化[root@node1 ~]# schematool -dbType mysql -initSchema

3、Hive 操作

在服务端和客户端操作Hive，操作Hive之前首先启动HDFS集群，命令为：start-all.sh，启动HDFS集群后再进行Hive以下操作：

#在node1中登录Hive ，创建表test[root@node1 conf]# hivehive> create table test (id int,name string,age int) row format delimited fields terminated by "\t";#向表test中插入数据hive> insert into test values(1,"zs",18);#在node1启动Hive metastore[root@node1 hadoop]# hive --service metastore &#在node3上登录Hive客户端查看表数据[root@node3 lib]# hivehive> select * from test;OK1zs18

七、安装HBase

1、节点划分

这里选择HBase版本为2.5.1，搭建HBase各个角色分布如下：

节点IP	节点名称	HBase服务
192.168.179.6	node3	RegionServer
192.168.179.7	node4	HMaster,RegionServer
192.168.179.8	node5	RegionServer

2、安装配置HBase

2.1、将下载好的安装包发送到node4 节点上, 并解压, 配置环境变量

#将下载好的HBase安装包上传至node4节点/software下，并解压[root@node4 software]# tar -zxvf ./hbase-2.5.1-bin.tar.gz

当前节点配置HBase环境变量

#配置HBase环境变量[root@node4 software]# vim /etc/profileexport HBASE_HOME=/software/hbase-2.5.1/export PATH=$PATH:$HBASE_HOME/bin#使环境变量生效[root@node4 software]# source /etc/profile

2.2、配置$HBASE_HOME/conf/hbase-env.sh

#配置HBase JDKexport JAVA_HOME=/usr/java/jdk1.8.0_181-amd64/#配置 HBase不使用自带的zookeeperexport HBASE_MANAGES_ZK=false#Hbase中的jar包和HDFS中的jar包有冲突，以下配置设置为true，启动hbase不加载HDFS jar包export HBASE_DISABLE_HADOOP_CLASSPATH_LOOKUP="true"

2.3、配置$HBASE_HOME/conf/hbase-site.xml

          hbase.rootdir        hdfs://mycluster/hbase            hbase.cluster.distributed        true            hbase.zookeeper.quorum        node3,node4,node5            hbase.unsafe.stream.capability.enforce        false

2.4、配置$HBASE_HOME/conf/regionservers ，配置RegionServer 节点

node3node4node5

2.5、配置backup-masters文件

手动创建$HBASE_HOME/conf/backup-masters文件，指定备用的HMaster,需要手动创建文件，这里写入node5,在HBase任意节点都可以启动HMaster，都可以成为备用Master ,可以使用命令：hbase-daemon.sh start master启动。

#创建 $HBASE_HOME/conf/backup-masters 文件，写入node5[root@node4 conf]# vim backup-mastersnode5

2.6、复制hdfs-site.xml 到$HBASE_HOME/conf/ 下

[root@node4 ~]# cp /software/hadoop-3.3.4/etc/hadoop/hdfs-site.xml /software/hbase-2.5.1/conf/

2.7、将HBase 安装包发送到node3 ，node5 节点上，并在node3 ，node5 节点上配置HBase 环境变量

[root@node4 ~]# scp -r /software/hbase-2.5.1 node3:/software/[root@node4 ~]# scp -r /software/hbase-2.5.1 node5:/software/注意：在node3、node5上配置HBase环境变量。vim /etc/profileexport HBASE_HOME=/software/hbase-2.5.1/export PATH=$PATH:$HBASE_HOME/bin#使环境变量生效source/etc/profile

2.8、重启Zookeeper 、重启HDFS 及启动HBase集群

#注意:一定要重启Zookeeper,重启HDFS,在node4节点上启动HBase集群[root@node4 software]# start-hbase.sh #访问WebUI，http://node4:16010。停止集群：在任意一台节点上stop-hbase.sh

3、HBase操作

在Hbase中创建表test，指定"cf1","cf2"两个列族，并向表test中插入几条数据：

#进入hbase[root@node4 ~]# hbase shell#创建表testcreate "test","cf1","cf2"#查看创建的表list#向表test中插入数据put "test","row1","cf1:id","1"put "test","row1","cf1:name","zhangsan"put "test","row1","cf1:age",18#查询表test中rowkey为row1的数据get"test","row1"

八、安装Redis

1、节点划分

这里选择Redis版本为6.2.7版本，Redis安装在node4节点上，节点分布如下：

节点IP	节点名称	Redis服务
192.168.179.7	node4	client

2、安装Redis

2.1、将redis 安装包上传到node4节点，并解压

[root@node4 ~]# cd /software/[root@node4 software]# tar -zxvf ./redis-6.2.7.tar.gz

2.2、node4安装需要的 C插件

[root@node4 ~]# yum -y install gcc tcl

2.3、编译Redis

进入/software/cd /software/redis-6.2.7目录中，编译redis。

[root@node4 ~]# cd /software/redis-6.2.7[root@node4 redis-6.2.7]# make

2.4、创建安装目录安装Redis

#创建安装目录[root@node4 ~]# mkdir -p /software/redis#进入redis编译目录，安装redis[root@node4 ~]# cd /software/redis-6.2.7[root@node4 redis-6.2.7]# make PREFIX=/software/redis install

注意：现在就可以使用redis了，进入/software/redis/bin下，就可以执行redis命令。

2.5、将Redis加入环境变量，加入系统服务，设置开机启动

#将redis-server链接到/usr/local/bin/目录下，后期加入系统服务时避免报错[root@node4 ~]# ln -sf /software/redis-6.2.7/src/redis-server /usr/local/bin/#进入下方目录，配置install_server.sh，将文件中以下内容前面加上#注释掉，原因为一个物理机中可以有多个redis实例（进程），通过port区分，可执行程序就一份在目录，但是内存中未来的多个实例需要各自的配置文件，持久化目录等资源。[root@node4 ~]# cd /software/redis-6.2.7/utils/#_pid_1_exe="$(readlink -f /proc/1/exe)"#if [ "${_pid_1_exe##*/}" = systemd ]#then#        echo "This systems seems to use systemd."#        echo "Please take a look at the provided example service unit files in this #directory, and adapt and install them. Sorry!"#        exit 1#fi#执行如下命令，配置redis Server，一直回车即可[root@node4 utils]# ./install_server.sh#执行完以上安装，在/etc/init.d下会修改redis_6379名称并加入系统服务[root@node4 utils]# cd /etc/init.d/[root@node4 init.d]# mv redis_6379 redisd[root@node4 init.d]# chkconfig --add redisd#检查加入系统状态,3,4,5为开，就是开机自动启动[root@node4 init.d]# chkconfig --list

2.6、配Redis环境变量

# 在node4节点上编辑profile文件，vim /etc/profileexport REDIS_HOME=/software/redisexport PATH=$PATH:$REDIS_HOME/bin#使环境变量生效source /etc/profile

2.7、启动| 停止 Redis服务

后期每次开机启动都会自动启动Redis，也可以使用以下命令手动启动|停止redis

#启动redis[root@node4 init.d]# service redisd start#停止redis[root@node4 init.d]# redis-cli shutdown

3、Redis 操作

#进入redis客户端[root@node4 ~]# redis-cli#切换1号库，并插入key127.0.0.1:6379> select 1127.0.0.1:6379[1]> hset rediskey zhangsan 100#查看所有key并获取key值127.0.0.1:6379[1]> keys *127.0.0.1:6379[1]> hgetall rediskey#删除指定key127.0.0.1:6379[1]> del "rediskey"

九、安装Kafka

1、节点划分

这里选择Kafka版本为3.3.1,对应的搭建节点如下：

节点IP	节点名称	Kafka服务
192.168.179.4	node1	kafka broker
192.168.179.5	node2	kafka broker
192.168.179.6	node3	kafka broker

2、安装配置Kafka

2.1、上传解压

[root@node1 software]# tar -zxvf ./kafka_2.12-3.3.1.tgz

2.2、配置Kafka环境变量

# 在node1节点上编辑profile文件，vim /etc/profileexport KAFKA_HOME=/software/kafka_2.12-3.3.1/export PATH=$PATH:$KAFKA_HOME/bin#使环境变量生效source /etc/profile

2.3、配置Kafka

在node1节点上配置Kafka，进入$KAFKA_HOME/config中修改server.properties，修改内容如下：

broker.id=0     #注意：这里要唯一的Integer类型log.dirs=/kafka-logs    #真实数据存储的位置zookeeper.connect=node3:2181,node4:2181,node5:2181  #zookeeper集群

2.4、将以上配置发送到node2 ，node3节点上

[root@node1 software]# scp -r /software/kafka_2.12-3.3.1 node2:/software/[root@node1 software]# scp -r /software/kafka_2.12-3.3.1 node3:/software/

发送完成后，在node2、node3节点上配置Kafka的环境变量。

2.5、修改node2,node3 节点上的server.properties 文件

node2、node3节点修改$KAFKA_HOME/config/server.properties文件中的broker.id，node2中修改为1，node3节点修改为2。

2.6、创建Kafka启动脚本

在node1,node2,node3节点$KAFKA_HOME/bin路径中编写Kafka启动脚本"startKafka.sh"，内容如下：

nohup /software/kafka_2.12-3.3.1/bin/kafka-server-start.sh /software/kafka_2.12-3.3.1/config/server.properties > /software/kafka_2.12-3.3.1/kafkalog.txt 2>&1 &

node1,node2,node3节点配置完成后修改"startKafka.sh"脚本执行权限：

chmod +x ./startKafka.sh

2.7、启动Kafka集群

在node1,node2,node3三台节点上分别执行startKafka.sh脚本，启动Kafka。

[root@node1 ~]# startKafka.sh[root@node2 ~]# startKafka.sh[root@node3 ~]# startKafka.sh

3、Kafka命令操作

在Kafka 任意节点上操作如下命令测试Kafka。

#创建topic kafka-topics.sh --create --bootstrap-server node1:9092,node2:9092,node3:9092 --topic testtopic  --partitions 3 --replication-factor 3#查看集群中的topickafka-topics.sh  --list --bootstrap-server node1:9092,node2:9092,node3:9092#console控制台向topic 中生产数据kafka-console-producer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --topic testtopic#console控制台消费topic中的数据kafka-console-consumer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --topic testtopic注意：以上创建好之后，可以向Kafka topic中写入数据测试Kafka是否正常。#删除topickafka-topics.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --delete --topic testtopic

关键词：

大数据Flink进阶（九）：集群基础环境搭建 世界观焦点

集群基础环境搭建

一、Centos7节点配置

1、配置各个节点的Ip

2、配置主机名

3、关闭防火墙

4、关闭SELinux

5、配置国内云yum源

6、设置Linux 系统显示中文/英文

7、设置自动更新时间

7.1、修改本地时区及ntp服务

7.2、自动同步时间

8、设置各个节点之间的ip映射

9、配置节点之间免密访问

9.1、安装ssh客户端

9.2、创建.ssh目录

9.3、配置各节点向一台节点通信免密

9.4、各节点免密

二、安装JDK

1、各个节点创建/software 目录，上传并安装jdk8 rpm包

2、配置jdk环境变量

三、安装MySQL

1、节点划分

2、安装MySQL

3、配置MySQL

4、Mysql密码忘记处理

4.1、修改/etc/my.conf 文件，在mysqld 标签下加入以下参数

4.2、执行如下命令修改mysql root用户密码

四、安装Zookeeper

1、节点划分

2、安装Zookeeper

2.1、上传zookeeper 并解压, 配置环境变量

2.2、在node3 节点配置 zookeeper

2.3、将配置好的zookeeper 发送到 node4,node5节点

2.4、各个节点上创建数据目录，并配置zookeeper环境变量

2.5、各个节点创建节点ID

2.6、各个节点启动zookeeper, 并检查进程状态

五、安装HDFS

1、节点划分

2、安装配置HDFS

2.1、各个节点安装HDFS HA自动切换必须的依赖

2.2、上传下载好的Hadoop 安装包到 node1节点上，并解压

2.3、在node1 节点上配置 Hadoop的环境变量

2.4、配置$HADOOP_HOME/etc/hadoop 下的hadoop-env.sh文件

2.5、配置$HADOOP_HOME/etc/hadoop 下的hdfs-site.xml文件

2.6、配置$HADOOP_HOME/ect/hadoop/core-site.xml

2.7、配置$HADOOP_HOME/etc/hadoop/yarn-site.xml

2.8、配置$HADOOP_HOME/etc/hadoop/mapred-site.xml

2.9、配置$HADOOP_HOME/etc/hadoop/workers文件

2.10、配置$HADOOP_HOME/sbin/start-dfs.sh 和 stop-dfs.sh两个文件中顶部添加以下参数，防止启动错误

2.11、配置$HADOOP_HOME/sbin/start-yarn.sh 和stop-yarn.sh 两个文件顶部添加以下参数，防止启动错误

2.12、将配置好的 Hadoop 安装包发送到其他 4****个节点

2.13、在node2 、node3 、node4 、node5 节点上配置HADOOP_HOME

3、初始化HDFS

4、启动及停止

5、访问WebUI

六、安装Hive

1、节点划分

2、安装配置Hive

2.1、将下载好的Hive 安装包上传到node1 节点上,并修改名称

2.2、将解压好的Hive 安装包发送到node3节点上

2.3、配置node1 、node3 两台节点的Hive 环境变量

2.4、在node1 节点$HIVE_HOME/conf 下创建hive-site.xml 并配置

2.5、在node3 节点$HIVE_HOME/conf/ 中创建hive-site.xml并配置

2.6、node1、 node3节点删除 $HIVE_HOME/lib下" guava"包，使用 Hadoop下的包替换

2.7、将"mysql-connector-java-5.1.47.jar" 驱动包上传到 $HIVE_HOME/lib目录下

2.8、在node1 节点中初始化Hive

3、Hive 操作

七、安装HBase

1、节点划分

2、安装配置HBase

2.1、将下载好的安装包发送到node4 节点上, 并解压, 配置环境变量

2.2、配置$HBASE_HOME/conf/hbase-env.sh

2.3、配置$HBASE_HOME/conf/hbase-site.xml

2.4、配置$HBASE_HOME/conf/regionservers ，配置RegionServer 节点

2.5、配置backup-masters文件

2.6、复制hdfs-site.xml 到$HBASE_HOME/conf/ 下

2.7、将HBase 安装包发送到node3 ，node5 节点上，并在node3 ，node5 节点上配置HBase 环境变量

2.8、重启Zookeeper 、重启HDFS 及启动HBase集群

3、HBase操作

大数据Flink进阶（九）：集群基础环境搭建世界观焦点

2.12、将配置好的 Hadoop 安装包发送到其他 4个节点