Hadoop单机版和全分布式(集群)安装

更新时间：2013年10月29日 15:01:47 作者：

Hadoop，分布式的大数据存储和计算, 免费开源，本文介绍Hadoop单机版、集群安装步骤。

Hadoop，分布式的大数据存储和计算, 免费开源！有Linux基础的同学安装起来比较顺风顺水，写几个配置文件就可以启动了，本人菜鸟，所以写的比较详细。为了方便，本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的网络连接使用桥接方式，这样在一个局域网方便调试。单机和集群安装相差不多，先说单机然后补充集群的几点配置。

第一步，先安装工具软件
编辑器：vim

复制代码代码如下:

sudo apt-get install vim

ssh服务器: openssh，先安装ssh是为了使用远程终端工具（putty或xshell等），这样管理虚拟机就方便多了。

复制代码代码如下:

sudo apt-get install openssh-server

第二步，一些基本设置
最好给虚拟机设置固定IP

复制代码代码如下:

sudo vim /etc/network/interfaces
加入以下内容：
iface eth0 inet static
address 192.168.0.211
gateway 192.168.0.222
netmask 255.255.255.0

修改机器名，我这里指定的名字是：hadoopmaster ，以后用它做namenode

复制代码代码如下:

sudo vim /etc/hostname

修改hosts，方便应对IP变更，也方便记忆和识别

复制代码代码如下:

sudo vim /etc/hosts
加入内容：
192.168.0.211   hadoopmaster

第三步，添加一个专门为hadoop使用的用户

复制代码代码如下:

sudo addgroup hadoop
sudo adduser -ingroup hadoop hadoop

设置hadoop用户的sudo权限

复制代码代码如下:

sudo vim /etc/sudoers

在 root ALL=(ALL:ALL)
下面加一行 hadoop ALL=(ALL:ALL)
切换到hadoop用户 su hadoop

第四步，解压安装JDK，HADOOP，PIG(顺便把PIG也安装了)

复制代码代码如下:

sudo tar zxvf ./jdk-7-linux-i586.tar.gz  -C /usr/local/jvm/
sudo tar zxvf ./hadoop-1.0.4.tar.gz -C /usr/local/hadoop
sudo tar zxvf ./pig-0.11.1.tar.gz -C /usr/local/pig

修改解压后的目录名并且最终路径为：

复制代码代码如下:

jvm: /usr/local/jvm/jdk7
hadoop: /usr/local/hadoop/hadoop （注意：hadoop所有节点的安装路径必须相同）
pig: /usr/local/pig

设置目录所属用户

复制代码代码如下:

sudo chown -R hadoop:hadoop jdk7
sudo chown -R hadoop:hadoop hadoop
sudo chown -R hadoop:hadoop pig

设置环境变量, 编辑~/.bashrc 或 ~/.profile 文件加入

复制代码代码如下:

export JAVA_HOME=/usr/local/jvm/jdk7
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_INSTALL=/usr/local/hadoop/hadoop
export PATH=${HADOOP_INSTALL}/bin:$PATH
source ~/.profile 生效

第五步，.ssh无密码登录本机，也就是说ssh到本机不需要密码

复制代码代码如下:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub &gt;&gt; ~/.ssh/authorized_keys

如果不起作用请修改权限：

复制代码代码如下:

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys  

authorized_keys相当于白名单，id_rsa.pub是公钥，凡是在authorized_keys有请求者机器的公钥时ssh服务器直接放行，无需密码！

第六步，Hadoop必要设置
所有设置文件在hadoop/conf目录下
1、hadoop-env.sh 找到 #export JAVA_HOME 去掉注释#，并设置实际jdk路径
2、core-site.xml

复制代码代码如下:

<property>
<name>fs.default.name</name>
<value>hdfs://hadoopmaster:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>

3、mapred-site.xml

复制代码代码如下:

<property>
<name>mapred.job.tracker</name>
<value>hadoopmaster:9001</value>
</property>

4、hdfs-site.xml

复制代码代码如下:

<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

5、文件masters 和文件slaves，单机写 localhost 即可

第七步，启动Hadoop
格式化Hadoop的HDFS文件系统

复制代码代码如下:

hadoop namenode -format

执行Hadoop启动脚本，如果是集群的话在master上执行，其他slave节点Hadoop会通过ssh执行：

复制代码代码如下:

start-all.sh

执行命令 jps 如果显示有： Namenode，SecondaryNameNode，TaskTracker，DataNode，JobTracker等五个进程表示启动成功了！

第八步，集群的配置
所有其他单机的安装跟上面相同，下面只增加集群的额外配置！
最好先配置好一台单机，其他的可以通过scp直接复制，路径也最好相同包括java！
本例的主机列表（设置hosts）：

设置ssh，让master能够不要密码登录到其他slaves上，主要用来启动slaves

复制代码代码如下:

复制hadoopmaster下id_rsa.pub到子结点：
scp ./ssh/id_rsa.pub hadoopnode1:/home/hadoop/.ssh/id_master
scp ./ssh/id_rsa.pub hadoopnode2:/home/hadoop/.ssh/id_master

分别在子结点~/.ssh/目录下执行：
cat ./id_master >> authorized_keys

masters文件，添加作为secondarynamenode或namenode的主机名,一行一个。
集群写master名如：hadoopmaster
slaves文件，添加作为slave的主机名，一行一个。
集群写子结点名：如 hadoopnode1、hadoopnode2

Hadoop管理
hadoop启动后会启动一个任务管理服务和一个文件系统管理服务，是两个基于JETTY的WEB服务，所以可在线通过WEB的方式查看运行情况。
任务管理服务运行在50030端口，如 http://127.0.0.1:50030文件系统管理服务运行在50070端口。

参数说明：
1、dfs.name.dir：是NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
2、dfs.data.dir：是DataNode存放块数据的本地文件系统路径，逗号分割的列表。当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
3、dfs.replication：是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错。

您可能感兴趣的文章:

Linux shell使用trap命令优雅进行处理程序中断
这篇文章主要为大家详细介绍了Linux shell如何使用trap命令优雅进行处理程序中断,文中的示例代码简洁易懂,有需要的小伙伴可以参考一下
2024-12-12
Linux下Tomcat启动正常,但浏览器无法访问的解决方法
下面小编就为大家带来一篇Linux下Tomcat启动正常,但浏览器无法访问的解决方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-02-02
Rsync 秒杀一切备份工具,你能手动屏蔽某些目录吗？
这篇文章主要介绍了Rsync 秒杀一切备份工具,你能手动屏蔽某些目录吗？本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-12-12
Bash Shell中忽略大小写的设置方法
这篇文章主要介绍了Bash Shell中忽略大小写的设置方法,本文还讲解了其它的一些方便输入命令的设置,如关闭显示隐藏文件、只按一次TAB键、搜索历史命令等技巧,需要的朋友可以参考下
2015-04-04
shell字符串截取报错：Bad substitution的解决
这篇文章主要介绍了shell字符串截取报错：Bad substitution的解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
数据结构二叉树的递归与非递归
这篇文章主要介绍了数据结构二叉树的递归与非递归的相关资料,需要的朋友可以参考下
2017-05-05
使用bash shell删除目录中的特定文件的3种方法
这篇文章主要介绍了使用bash shell删除目录中的特定文件的3种方法,分别为扩展模式匹配符、GLOBIGNORE 变量和find 命令,需要的朋友可以参考下
2014-06-06
shell set -u 和set +u的具体使用
本文主要介绍了shell set -u 和set +u的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2024-05-05
linux shell查看当前外网IP
这篇文章主要介绍了如何在LINUX操作系统下查看本地IP地址(在SHELL下)的相关资料,需要的朋友可以参考下
2015-09-09
shell脚本转发80端口数据包给Node.js服务器
开发基于Node.js的WEB应用很方便,但是服务端口问题,由于Linux内核规定普通用户只能使用大于1024的端口号,所以使用普通用户运行Node.js服务就不80端口
2014-03-03

Hadoop单机版和全分布式(集群)安装

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具