Hadoop1.2中配置伪分布式的实例

更新时间：2014年04月28日 08:44:20 投稿：junjie

这篇文章主要介绍了Hadoop1.2中配置伪分布式的实例,使用的系统是linux mint 15 64bit，hadoop使用的是1.2.1版本,需要的朋友可以参考下

1、设置ssh

安装ssh相关软件包：

sudo apt-get install openssh-client openssh-server

然后使用下面两个命令之一启动/关闭sshd：

sudo /etc/init.d/ssh start|stop
sudo service ssh start|stop

若成功启动sshd，我们能看到如下类似结果：

复制代码代码如下:

$ ps -e | grep ssh
 2766 ?        00:00:00 ssh-agent
10558 ?        00:00:00 sshd

这时候，如果运行如下ssh登录本机的命令，会提示输入密码：

复制代码代码如下:

ssh localhost

现在我们要做的就是让它不需要输入密码：

复制代码代码如下:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  #一个空密码的SSH密钥
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

这样的话就行了。如果仍不凑效，可能是密钥文件的权限设置不当。

2、配置hadoop

将hadoop-1.2.1解压到~/下，同时在~/下建立目录hadoop-env，继续在hadoop-env下建立如下的目录结构：

├── dfs
│   ├── checkpoint1
│   ├── data1
│   ├── data2
│   └── name1
└── test
    └── input
配置文件hadoop-1.2.1/conf/core-site.xml：

复制代码代码如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
    <final>true</final>
  </property>
</configuration>

fs.default.name来指定HDFS的uri，如果value中没有提供端口，默认为8020。

配置文件hadoop-1.2.1/conf/hdfs-site.xml：

复制代码代码如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
    <name>dfs.name.dir</name>
    <value>~/hadoop-env/dfs/name1</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>~/hadoop-env/dfs/data1,~/hadoop-env/dfs/data2</value>
    <final>true</final>
  </property>
  <property>
    <name>fs.checkpoint.dir</name>
    <value>~/hadoop-env/dfs/checkpoint1</value>
    <final>true</final>
  </property>
</configuration>

dfs.name.dir指定namenode存储元数据的目录，可以指定多个目录，这些目录要用逗号分开；dfs.data.dir指定datanode存放数据的目录，可以指定多个目录；fs.checkpoint.dir指定辅助namenode存放检查点的目录。

配置文件hadoop-1.2.1/conf/mapred-site.xml：

复制代码代码如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
    <final>true</final>
  </property>
</configuration>

3、测试

先格式化HDFS：

复制代码代码如下:

./hadoop-1.2.1/bin/hadoop namenode -format

启动HDFS和MapReduce进程：

复制代码代码如下:

$ ./hadoop-1.2.1/bin/start-dfs.sh
$ ./hadoop-1.2.1/bin/start-mapred.sh

启动时候如果报错，例如localhost: Error: JAVA_HOME is not set.，需要在./hadoop-1.2.1/conf/hadoop-env.sh文件中export JAVA_HOME，例如：

export JAVA_HOME=~/jdk1.7.0_25
如何检查是否成功启动了：第一种方法是使用jps命令（Java Virtual Machine Process Status Tool），应该有如下类似输出：

复制代码代码如下:

$ jps
DataNode
SecondaryNameNode
JobTracker
NameNode
TaskTracker
Jps

第二种方法是浏览器登录http://localhost:50030查看jobtracker，http://localhost:50070查看namenode。

现在我们在~/hadoop-env/test/input目录下建立两个文件：

复制代码代码如下:

$ echo "hello world" > test1.txt
$ echo "hi,world" > test2.txt

把这两个文件导入HDFS：

复制代码代码如下:

./hadoop-1.2.1/bin/hadoop dfs -put hadoop-env/test/input/ output/

查看：

复制代码代码如下:

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /
Found 2 items
drwxr-xr-x - user supergroup 0 2013-10-22 22:07 /test
drwxr-xr-x - user supergroup 0 2013-10-22 21:58 /tmp

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /test
Found 2 items
-rw-r--r-- 3 user supergroup 12 2013-10-22 22:07 /test/test1.txt
-rw-r--r-- 3 user supergroup 9 2013-10-22 22:07 /test/test2.txt

OK，配置完成。

注：本文使用的系统是linux mint 15 64bit，hadoop使用的是1.2.1版本。

您可能感兴趣的文章:

java并发中ExecutorService的具体用法
本文深入探讨Java中的ExecutorService框架,介绍其创建方法、任务分配、关闭策略及Future、ScheduledExecutorService的使用,对比Fork/Join框架,提供丰富的代码示例,感兴趣的朋友跟随小编一起看看吧
2025-09-09
Java多线程及线程安全实现方法解析
这篇文章主要介绍了Java多线程及线程安全实现方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
关于servlet向mysql添加数据时中文乱码问题的解决
最近在工作中遇到一个小问题，出现了中文乱码的问题，无奈只能想办法解决，下面这篇文章主要给大家介绍了关于servlet向mysql添加数据时中文乱码问题的解决方法，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-08-08
MyBatis的mapper.xml文件热加载功能实现方案
文章分析了Arthas无法直接热替换MyBatis的mapper.xml文件的限制,并提出了多种变通方法来实现类似效果,这些方法包括结合MyBatis的热加载功能、使用Arthas和类重加载、动态刷新MappedStatement等,文章还建议在不同环境中使用不同的解决方案,需要的朋友可以参考下
2026-02-02
java线程池ThreadPoolExecutor类使用小结
这篇文章主要介绍了java线程池ThreadPoolExecutor类使用,本文主要对ThreadPoolExecutor的使用方法进行一个详细的概述，示例代码介绍了ThreadPoolExecutor的构造函数的相关知识，感兴趣的朋友一起看看吧
2022-03-03
Java对xls文件进行读写操作示例代码
Java开发项目中经常会碰到处理Excel文件中数据的情况，下面这篇文章主要给大家介绍了利用Java对xls文件进行读写操作的相关资料，文中通过示例代码介绍的非常详细，对大家具有一定的参考学习价值，需要的朋友们下面来一起看看吧。
2017-08-08
详解Java去除json数据中的null空值问题
这篇文章主要介绍了详解Java去除json数据中的null空值问题，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-08-08
Java实现FIFO功能的完整代码实践
在软件开发中,队列（Queue）是一种常见的数据结构,其特点是先进先出（FIFO,First In First Out）,FIFO 队列在生产者-消费者模型、任务调度、缓冲区管理等场景中具有广泛的应用,本文给大家介绍了Java实现FIFO功能的完整代码实践,需要的朋友可以参考下
2025-03-03
SpringBoot 整合Tess4J库实现图片文字识别案例详解
Tess4J是一个基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,说白了,就是封装了它的API,让Java可以直接调用,今天给大家分享一个SpringBoot整合Tess4j库实现图片文字识别的小案例
2023-10-10
Java多线程编程中synchronized关键字的基础用法讲解
Java的synchronized关键字用于修饰线程同步,用以线程资源共享的目的等,下面就带来简单的Java多线程编程中synchronized关键字的基础用法讲解
2016-06-06

Hadoop1.2中配置伪分布式的实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具