BIG_DATA杂谈(1)-简单的hadoop伪分布式配置与测试

Oct 31st, 2015 | Comments

前言

Big Data and AI’s age has coming!
面对海量的数据，传统方式已无法满足用户高效地使用和处理数据了。
hadoop的意义非同一般，它赋予了人们面对bigdata的信心和能力，同时也开创了一个时代，
它是一个可靠的、可扩展的、分布式的计算框架,给予人们PB级的计算处理能力。
由Doug Cutting根据谷歌公司发表的MapReduce和GFS的论文自行实现而成。
诞生历史：Lucene (1999) –> Nutch (2003) –> hadoop (2011)

配置

对hadoop的配置资料有很多，不再赘述。可参考它
主要关注的是配置中存在的问题
- 解决错误: 找不到或无法加载主类 org.apache.hadoop.hdfs.server.namenode.NameNode
- export HADOOP_HOME=/home/wuwenjie/hello/bigdata/hadoop-2.7.1
- export PATH=“${HADOOP_HOME}:$PATH”
- etc/hadoop/hadoop-env.sh 中配置JDK
- export JAVA_HOME=“/usr/lib/jvm/java-7-openjdk-i386”
- etc/hadoop 下的一些配置：

etc/hadoop/core-site.xml

<configuration>
  <property>
      <name>fs.defaultFS</name>
      <value>hdfs://localhost:9000</value>
  </property>
  <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/wuwenjie/hello/bigdata/hadoopTmpDir</value>
  </property>
</configuration>

etc/hadoop/hdfs-site.xml

<configuration>
  <property>
      <name>dfs.replication</name>
      <value>1</value>
  </property>
  <property>
      <name>dfs.name.dir</name>
      <value>file:///home/wuwenjie/hello/bigdata/hdfs/name</value>
  </property>
  <property>
      <name>dfs.data.dir</name>
      <value>file:///home/wuwenjie/hello/bigdata/hdfs/data</value>
  </property>
</configuration>

etc/hadoop/mapred-site.xml

<configuration>
  <property>
      <name>mapred.job.tracker</name>
      <value>localhost:9001</value>
  </property>

  <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>
</configuration>

etc/hadoop/yarn-site.xml

<configuration>
  <!-- Site specific YARN configuration properties -->
  <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
  </property>
</configuration>

初始化及启动

启动hdsf：sbin/start-dfs.sh
格式化文件系统（只需一次）：bin/hdfs namenode -format
启动yarn：sbin/start-yarn.sh
察看java进程：jps
jps命令结果

ResourceManager
Jps
DataNode
SecondaryNameNode
NodeManager
NameNode

解释
- ResourceManager：处理客户端请求启动/监控、ApplicationMaster监控、NodeManager资源分配与调度。
- DataNode：HDFS工作节点，根据namenode的调度存储和检索数据，定期发送存储的block列表。
- SecondaryNameNode：帮助NameNode管理Metadata数据，减小在NameNode上的压力。
- NodeManager：单个节点上的资源管理、处理来自ResourceManager、ApplicationMaster的命令。
- NameNode：管理HDFS的Namespace，维护所有文件和文件夹的元数据(metadata）。

测试

在hdfs中创建文件夹和导入数据

bin/hdfs dfs -mkdir /hadoop
bin/hdfs dfs -mkdir /hadoop/test
bin/hdfs dfs -mkdir /hadoop/out
bin/hdfs dfs -put "/media/三国志.txt" /hadoop/test

运行内置示例：grep

bin/hadoop jar \
      share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar \
      grep /hadoop/test /hadoop/out '漢.'

察看结果

bin/hdfs dfs -cat /hadoop/out/part-r-00000

部分结果

  漢書
  漢中
  漢晉
  漢，
  漢之
  漢室
  漢紀
  漢氏
  漢末
  漢高
  漢朝
  漢祖
  漢文
  漢祚
漢帝
漢家
漢水

最近文章 Recent Posts

friend

tool

权利声明

本博客除标注“[转][改]”字样的文章，均为本人原创。所有原创作品采用署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

关于我

无聊的人，什么都是似懂非懂

使用Linux（80%),Win7/xp(20%）

喜欢js、java、Shell，粗通证券、技术分析

用工商银行投资AgT+D

2014.4:证券经纪人:s1090414030081

2014.8.11:CMBCC

GitHub Repos

Status updating...

@wuwenjie1992 on GitHub

最近评论