Linux中安装配置hadoop集群详细步骤

一. 简介

参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。(前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置文件有所不同,后边会有详细说明)

二. 准备工作

2.1 创建用户

创建用户,并为其添加root权限,经过亲自验证下面这种方法比较好。

 sudo adduser hadoop
 sudo vim /etc/sudoers
 # 修改内容如下:
 root ALL = (ALL)ALL
hadoop ALL = (ALL)ALL

给hadoop用户创建目录,并添加到sudo用户组中,命令如下:

 sudo chown hadoop /home/hadoop
 # 添加到sudo用户组
 sudo adduser hadoop sudo

最后注销当前用户,使用新创建的hadoop用户登陆。

2.2 安装ssh服务

ubuntu中默认是没有装ssh server的(只有ssh client),所以先运行以下命令安装openssh-server。安装过程轻松加愉快~

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码:执行完下边的代码就可以直接登陆了(可以运行ssh localhost进行验证)

cd ~/.ssh  # 如果找不到这个文件夹,先执行一下 "ssh localhost"
 ssh-keygen -t rsa
 cp id_rsa.pub authorized_keys

注意:

这里实现的是无密登陆自己,只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可以参考我的另一篇博文:http://www.jb51.net/article/105483.htm

 三. 安装过程

3.1 下载hadoop安装包

有两种下载方式:

1. 直接去官网下载:

http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

2. 使用wget命令下载:

代码如下:

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

3.2 配置hadoop

1. 解压下载的hadoop安装包,并修改配置文件。我的解压目录是(/home/hadoop/hadoop-2.7.1),即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件:(hadoop2.7.1/etc/hadoop/)目录下,hadoop-env.sh,core-site.xml,mapred-site.xml.template,hdfs-site.xml。

(1). core-site.xml 配置:其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

(2). mapred-site.xml.template配置:

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路径可以自由设置,最好在hadoop.tmp.dir的目录下面。

注意:如果运行Hadoop的时候发现找不到jdk,可以直接将jdk的路径放置在hadoop-env.sh里面,具体如下:

export JAVA_HOME="/opt/java_file/jdk1.7.0_79",即安装java时的路径。

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/hadoop/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/hadoop/tmp/dfs/data</value>

</property>

</configuration>

配置完成后运行hadoop。

四. 运行hadoop

4.1 初始化HDFS系统

在hadop2.7.1目录下执行命令:

bin/hdfs namenode -format

出现如下结果说明初始化成功。

4.2 开启 NameNode 和 DataNode 守护进程

在hadop2.7.1目录下执行命令:

sbin/start-dfs.sh

成功的截图如下:

4.3 使用jps命令查看进程信息:

若出现如图所示结果,则说明DataNode和NameNode都已经开启。

4.4 查看web界面

在浏览器中输入 http://localhost:50070 ,即可查看相关信息,截图如下

至此,hadoop的环境就已经搭建好了。

 五. 运行wordcount demo

1.  在本地新建一个文件,里面内容随便填:例如我在home/hadoop目录下新建了一个haha.txt文件,里面的内容为" hello world! "。

2. 然后在分布式文件系统(hdfs)中新建一个test文件夹,用于上传我们的测试文件haha.txt。在hadoop-2.7.1目录下运行命令:

# 在hdfs的根目录下建立了一个test目录
bin/hdfs dfs -mkdir /test

# 查看HDFS根目录下的目录结构
bin/hdfs dfs -ls /

结果如下:

3. 将本地haha.txt文件上传到test目录中;

# 上传
bin/hdfs dfs -put /home/hadoop/haha.txt /test/
# 查看
bin/hdfs dfs -ls /test/

结果如下:

4. 运行wordcount demo;

# 将运行结果保存在/test/out目录下
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/haha.txt /test/out
# 查看/test/out目录下的文件
bin/hdfs dfs -ls /test/out

结果如下:

运行结果表示:运行成功,结果保存在part-r-00000中。

5. 查看运行结果;

# 查看part-r-00000中的运行结果
bin/hadoop fs -cat /test/out/part-r-00000

结果如下:

至此,wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题,最后都一一解决,收获很多,特此把这次配置的经验分享出来,方便想要配置hadoop环境的各位朋友~

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

时间: 2017-03-30

Java执行hadoop的基本操作实例代码

Java执行hadoop的基本操作实例代码 向HDFS上传本地文件 public static void uploadInputFile(String localFile) throws IOException{ Configuration conf = new Configuration(); String hdfsPath = "hdfs://localhost:9000/"; String hdfsInput = "hdfs://localhost:9000/user/

详解搭建ubuntu版hadoop集群

用到的工具:VMware.hadoop-2.7.2.tar.jdk-8u65-linux-x64.tar.ubuntu-16.04-desktop-amd64.iso 1.  在VMware上安装ubuntu-16.04-desktop-amd64.iso 单击"创建虚拟机"è选择"典型(推荐安装)"è单击"下一步" è点击完成 修改/etc/hostname vim hostname 保存退出 修改etc/hosts 127.0.0.1 loc

详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境

Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验.虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的. 连接服务器 使用 ssh 命令连接远程服务器. ssh root@[Your IP Address] 更新软件列表 apt-get update 更新完成. 安装 Docker sudo apt-get install docker.io 当遇到输入是否继续时,输入「Y/y」继

hadoop动态增加和删除节点方法介绍

上一篇文章中我们介绍了Hadoop编程基于MR程序实现倒排索引示例的有关内容,这里我们看看如何在Hadoop中动态地增加和删除节点(DataNode). 假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一.动态增加DataNode 1.准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa 2.复制Hadoop运行目录.hdfs目录及tmp目录至新的DataNode 3.

详解VMware12使用三台虚拟机Ubuntu16.04系统搭建hadoop-2.7.1+hbase-1.2.4(完全分布式)

初衷 首先说明一下既然网上有那么多教程为什么要还要写这样一个安装教程呢?网上教程虽然多,但是有些教程比较老,许多教程忽略许多安装过程中的细节,比如添加用户的权限,文件权限,小编在安装过程遇到许多这样的问题所以想写一篇完整的教程,希望对初学Hadoop的人有一个直观的了解,我们接触真集群的机会比较少,虚拟机是个不错的选择,可以基本完全模拟真实的情况,前提是你的电脑要配置相对较好不然跑起来都想死,废话不多说. 环境说明 本文使用VMware® Workstation 12 Pro虚拟机创建并安装三台

详解VMware12安装centOS8的配置图文教程(vm虚拟机安装centos8教程)

前几天Centos8发布了,尽管他是8的第一个版本,那么今天我们就在VM12上面安装centOS8吧,8这个图形化界面我个人感觉有点丑 首先下载iso文件百度下点击进入官网 点击马上获得centos 然后选择这个 选择离你近的镜像地址,点击下载 打开vm12点击新建虚拟机 点击下一步,如下图这样选择,再点击下一步 如下图选择点击下一步 叫什么名字没什么所谓反正可以改的,但是安装最好不要安装到c盘,我是安装到D盘 如果你的物理cpu是4核心,在这里建议使用4核心,这样后期虚拟机运行快.因为我是8核

阿里云ubuntu16.04如何搭建pptpd服务

一.搭建pptp vpn 需开放1723端口和gre协议 1.阿里云有个安全组需要开放端口才能访问,需添加新的安全组规则. 登陆阿里云服务器管理控制台,添加安全组规则 入/出方向都填写 端口范围为1723/1723 具体如图 2.同时服务器内部也要开放1723端口 这个在后面讲 二.安装pptp sudo apt-get install pptpd 三.配置pptp 1.配置主机ip及连接主机的设备所分配ip池 sudo vim /etc/pptpd.conf #如图将96~97#去掉 2.配置

详解Xampp和wordpress在Centos7上的搭建与使用

xampp下载地址(http://www.jb51.net/softs/308.html) 注意:并不是xampp版本越高越好,找到与之对应的PHP版本选择下载 wordpress下载地址(http://www.jb51.net/codes/17345.html) 注意:下载tar.gz包 安装xampp,把xampp文件权限给满,以防权限不够安装失败 chmod -R 777 xampp-linux-x64-5.6.30-1-installer.run ./xampp-linux-x64-5.

详解VMware12安装Mac OS X 10.11(图文步骤)

随着Iphone在国内大行其道,越来越多的开发者涌入iOS开发大军 中,但都苦于没有苹果机,本文即将介绍WIN虚拟MAC的教程. 一.工具: Mac OS X 10.11 镜像文件下载: http://www.jb51.net/softs/354290.html unlocker208文件地址:http://www.jb51.net/softs/454579.html VM12下载地址:http://www.jb51.net/softs/149849.html 二.基本步骤 1.首先下载 vmw

详解java中jvm虚拟机栈的作用

jvm虚拟机栈的作用 jvm虚拟机栈栈帧的组成 jvm虚拟机栈,也叫java栈,它由一个个的栈帧组成,而栈帖由以下几个部分组成 局部变量表-存储方法参数,内部使用的变量 操作数栈-在变量进行存储时,需要进行入栈和出栈 动态连接-引用类型的指针 方法出口-方法的返回 一段原程序代码 package com.lind.basic; public class Demo1 { static int hello() { int a = 1; int b = 2; int c = a + b; return

虚拟机ubuntu16.04无法连网的解决方法

刚安装玩Ubuntu,打开后上网没有网络连接 ,点击右上角的数据连接,显示已经启动联网,但是用火狐还是无法上网. 解决方法如下: 先查看虚拟机的网络适配器:点击虚拟机左上角的编辑,里面有个网络适配器 然后再进入编辑虚拟机设置,看过上一篇安装Ubuntu的朋友便知道我们当初安装时点击的是NAT设置 这里我们要改成自定义:特定虚拟网络,选择VM8,原因可以看上面网络适配器的图 设置完成后,再次进去虚拟机 这样,虚拟机便有了网络, 问题便解决了. 以上就是本文的全部内容,希望对大家的学习有所帮助,也希

详解CentOS 8 VMware虚拟机设置静态ip网卡上网

第一步: 在VMware里,依次点击"编辑" - "虚拟网络编辑器",如下图,我选择的是NAT模式: 以下VMnet2为配置 其中子网ip随便写,子网掩码自己计算,如果不太熟悉就完全配置和我一样就行 A类默认的子网掩码:255.0.0.0 B类默认的子网掩码:255.255.0.0 C类默认的子网掩码:255.255.255.0 为了使用静态IP将: 使用本地DHCP服务将IP地址分配给虚拟机 取消(默认是选择状态) 点击NAT设置 将网关ip记住如下图,最后配置虚

图文详解本地Windows 7/8上IIS服务器搭建教程

本教程为大家分享了IIS服务器搭建的详细步骤,供大家参考,具体内容如下 1.打开"控制面板",选择"程序和功能"(查看方式小图标), 2.进入界面后,点击"启动或关闭Windows功能". 然后勾选图中的两个选框(全选),注意一定要显示为 勾 ,不能是黑色填充!点击确定,开始下载安装....大约两三分钟后,就可以自动完成结束. 3.然后进入控制面板中的"管理工具"里面,选中   Internet 信息服务(IIS)管理器, 此

详解webpack与SPA实践之开发环境搭建

目前,公司前端项目开发技术栈基本改造为使用gulp进行自动化构建,webpack进行项目模块化依赖管理,Vue+ Vuex + Vue-Router作为项目组件化开发框架,为了更深入的理解.使用当前技术栈并与读者分享.交流,计划推出一系列相关学习与实践文章.本篇为开篇,主要讲述如何使用webpack搭建开发环境. 项目初始化 以你喜欢的任意方式,创建项目根目录,如: mkdir vue-hello 初始化包模块管理文件 进入项目根目录,初始化项目包模块管理文件package.json: npm