`

Hadoop之安装配置及测试案例

阅读更多

关于hadoop的一些介绍和原理,在此不做任何描述,只讲实际应用。对于Hadoop来说,在HDFS看来,节点分为Namenode 和Datanode,其中Namenode只有一个,Datanode可以是很多;在MapReduce看来,节点又分为Jobtracker和 Tasktracker,其中Jobtracker只有一个,Tasktracker可以是很多。在此,所有的节点我都部署在一台机器上的。1、 安装:解压缩文件包 tar xfzv file.tgz
2、 配置:进入conf目录,修改配置文件。
1)  hadoop-env.sh 中的 JAVA_HOME【export JAVA_HOME=/usr/lib/jvm/java】
2)  hadoop-site.xml 见附录。hadoop-default.xml中包含了Hadoop的所有配置项,但是不允许直接修改!可以在hadoop-conf/目录下的hadoop-site.xml里面定义我们需要的项,其值会覆盖hadoop-default.xml中的默认值,可以根据自己的实际需要来进行定制。
3、  bin/hadoop namenode -format  格式化namenode,提示信息如下:
[JRockit] Local management server started.
09/07/29 10:07:44 INFO dfs.NameNode: STARTUP_MSG:STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost.localdomain/127.0.0.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 0.18.3
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/core/branches/branch-0.18 -r 736250; compiled by 'ndaley' on Thu Jan 22 23:12:08 UTC 200909/07/29 10:07:44 INFO fs.FSNamesystem: fsOwner=root,root,bin,daemon,sys,adm,disk,wheel
09/07/29 10:07:44 INFO fs.FSNamesystem: supergroup=supergroup
09/07/29 10:07:44 INFO fs.FSNamesystem: isPermissionEnabled=true
09/07/29 10:07:44 INFO dfs.Storage: Image file of size 78 saved in 0 seconds.
09/07/29 10:07:45 INFO dfs.Storage: Storage directory /root/hadoop-0.18.3/filesystem/name has been successfully formatted.
09/07/29 10:07:45 INFO dfs.NameNode: SHUTDOWN_MSG:SHUTDOWN_MSG: Shutting down NameNode at localhost.localdomain/127.0.0.14、  bin/start-all.sh   启动所有守护进程
bin/stop-all.sh  停止所有守护进程
start-mapred.sh   启动Map/Reduce守护。包括Jobtracker和Tasktrack
stop-mapred.sh   停止Map/Reduce守护
start-dfs.sh   启动Hadoop DFS守护.Namenode和Datanode
stop-dfs.sh   停止DFS守护
5、  bin/hadoop dfs -mkdir testdir  建立目录,这个目录并不是实际目录
6、  bin/hadoop dfs -put conf/hadoop-default.xml testdir   复制文件
有时,当你申请到一个HOD集群后马上尝试上传文件到HDFS时,DFSClient会警告NotReplicatedYetException。通常会有一个如下报错信息。
org.apache.hadoop.ipc.RemoteException: java.io.IOException File /root/testdir/hadoop-default.xml could only be replicated to 0 nodes, instead of 1
at org.apache.hadoop.dfs.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1123)
at org.apache.hadoop.dfs.NameNode.addBlock(NameNode.java:330)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:481)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:890)
at org.apache.hadoop.ipc.Client.call(Client.java:716)
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:216)
at org.apache.hadoop.dfs.$Proxy0.addBlock(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
at org.apache.hadoop.dfs.$Proxy0.addBlock(Unknown Source)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:2450)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2333)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.access$1800(DFSClient.java:1745)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:1922)
……不幸的是我也遇到了这个报错,google了很久才找到一个解决方案: 当你向一个DataNodes正在和NameNode联络的集群上传文件的时候,这种现象就会发生。在上传新文件到HDFS之前多等待一段时间就可以解决这个问题,因为这使得足够多的DataNode启动并且联络上了NameNode。 果然,很有效!
7、  bin/hadoop dfs -ls testdir   查看现有文件
8、  bin/hadoop dfs -cat testdir/hadoop-default.xml   查看文件内容
9、  bin/hadoop jar hadoop-0.18.3-examples.jar wordcount testdir test-out  执行分布式统计词
10、 bin/hadoop dfs -ls test-out bin/hadoop dfs -cat /user/root/test-out/part-00000   查看统计结果tracker. 2
tracking 1
transfers 1
trash 2
trigger 1
triggers 1
true 4
true, 4
try 2
turned 1
two 1
type="text/xsl" 1
typically 1
ui 1
unchanged. 2
under 2
under/over 1
unspecified 1至此,hadoop安装、配置、测试已走了一通。当然这其中还有些问题我并未过问的,比如 SSH设置 ,没进行该设置,会导致运营hadoop过程中会提示需要输入密码,比较麻烦,把ssh配置好了,各个节点之间打通了,就不会出现这种问题了。

更多信息请查看 java进阶网 http://www.javady.com

分享到:
评论

相关推荐

    07hadoop的安装&hdfs集群的配置与测试——好程序

    hadoop单机安装与测试 1•Local (Standalone) Mode(单节点的本地模式)Linux的文件系统就是hadoop的存储系统运行在单个的jvm环境,它使用linux的文件系统,适用于开发、测试、调试环境 运行案例 2•Pseudo-...

    Hadoop权威指南 第二版(中文版)

     Hadoop配置  配置管理  环境设置  Hadoop守护进程的关键属性  Hadoop守护进程的地址和端口  Hadoop的其他属性  创建用户帐号  安全性  Kerberos和Hadoop  委托令牌  其他安全性改进  利用基准测试程序...

    Hadoop权威指南(中文版)2015上传.rar

    Hadoop配置 配置管理 环境设置 Hadoop守护进程的关键属性 Hadoop守护进程的地址和端口 Hadoop的其他属性 创建用户帐号 安全性 Kerberos和Hadoop 委托令牌 其他安全性改进 利用基准测试程序测试Hadoop集群 Hadoop基准...

    小白快速掌握Hadoop集成Kerberos安全技术频教程

    从零学习Kerberos安全认证机制,并和Hadoop、YARN、HIVE进行集成,通过知识点 + 案例教学法帮助小白快速掌握Hadoop集成Kerberos安全技术。 课程亮点 1,专项攻破Hadoop安全配置。 2,生动形象,化繁为简,讲解通俗...

    网站案例分析及Hadoop分布式集群环境(全套视频+课件+代码+讲义+工具)

    01_MapReduce框架处理数据的流程及几点注意 02_编写MapReduce编程模块 03_MapReduce数据类型及自定义数据类型...10_分布式安装部署:启动HDFS、YARN服务及测试程序 11_分布式安装部署:配置主从节点之间的SSH无密钥登录

    基于Hadoop与RabbitMQ的人脸识别算法测试平台的设计与实现.docx

    同时,通过实际案例研究,展示了Hadoop在实际场景中的应用和效果。 适用人群: 本论文适合计算机科学与技术、软件工程等相关专业的本科专科毕业生,以及对大数据处理和分析感兴趣的学习者。 使用场景及目标: 本...

    大数据核心平台技术-实验记录

    Hadoop集群搭建三、实验过程记录2.1安装准备2.2 Hadoop集群搭建1、安装文件上传工具2、JDK安装3、Hadoop安装:4、Hadoop集群配置2.3Hadoop集群测试1、格式化文件系统2、启动和关闭Hadoop集群3、通过UI查看Hadoop运行...

    【63课时完整版】大数据实践HIVE详解及实战

    28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS(一) 30.Sqoop将MySQL数据导入到HDFS(二) 31.Sqoop中的增量导入与Sqoop job 32.Sqoop将MySQL数据导入Hive表中 33.Sqoop的导出及脚本中使用的方式 34...

    Hadoop单机伪分布式搭建教程1

    3.1 下载并解压 3.2 配置环境变量 3.4 关闭防火墙 3.5 初始化 3.7 验证是否启动成功 3.8 单机伪分布式官方wordcount案例测试 3.

    Hbase中文文档

    15.5. 测试 15.6. Maven Build Commands 15.7. Getting Involved 15.8. 开发 15.9. 提交补丁 A. FAQ B. hbck In Depth B.1. Running hbck to identify inconsistencies B.2. Inconsistencies B.3. Localized repairs...

    云计算第二版

    6.5.2 在Windows系统中安装Hadoop 208 6.6 HDFS使用 215 6.6.1 HDFS 常用命令 215 6.6.2 HDFS 基准测试 219 6.7 HBase安装使用 219 6.7.1 HBase的安装配置 219 6.7.2 HBase的执行 220 6.7.3 Hbase编程实例 221 6.8 ...

    大型分布式网站架构与实践

     2.1.1 memcache简介及安装 60  2.1.2 memcache API与分布式 64  2.1.3 分布式session 69  2.2 持久化存储 71  2.2.1 MySQL扩展 72  2.2.2 HBase 80  2.2.3 Redis 91  2.3 消息系统 95  2.3.1 ActiveMQ & ...

    【白雪红叶】JAVA学习技术栈梳理思维导图.xmind

    hadoop hbase mongodb strom spark java语言 语言语法基础 异常 泛型 内部类 反射 序列化 nIo 匿名类 包装类 优先级 引用 语言工具类库 容器类 集合 链表 map 工具类 系统类 日期类 数字...

Global site tag (gtag.js) - Google Analytics