BIG_DATA杂谈(2)-hadoop探究《三国演义》的词频-改

与传统文化的碰撞

虽然这个时代日新月异，但古老的故事依然让人们留恋。
此次用hadoop从另一个方面，探究一下脍炙人口的《三国演义》。

原理

利用lucene的smartcn进行分词，结合hadoop的编写wordcount，进行词频统计。

难点

编译与运行包含第三方jar包的hadoop程序。

准备工作

启动hdfs与yarn

cd ~/hello/bigdata/hadoop-2.7.1 #hadoop所在文件夹
sbin/start-dfs.sh
sbin/start-yarn.sh
jps

hadoop执行准备工作

export JAVA_HOME="/usr/lib/jvm/java-7-openjdk-i386"
export PATH=${JAVA_HOME}/bin:${PATH}
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar

编写WordCountOrder 进行词频统计
cd ~/hello/bigdata/hadoop_ex/wordcount

WordCountOrder.java

import java.io.IOException;
import java.util.Random;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;
import org.apache.hadoop.mapreduce.lib.map.InverseMapper;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import java.util.Iterator;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;

public class WordCountOrder {

  public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
      
      private final static IntWritable one = new IntWritable(1);
      private Text word = new Text();
      
      public void map(Object key, Text value, Context context)
              throws IOException, InterruptedException {
          
          /*
         String[] self_stop_words = { "的", "在","了", "呢", "是"};
         CharArraySet cas = new CharArraySet(0, true);
         for(int i = 0; i < self_stop_words.length; i++) {
               cas.add(self_stop_words[i]);
         }
         // 加入系统默认停用词
         Iterator<Object> itor = SmartChineseAnalyzer.getDefaultStopSet().iterator();
         while (itor.hasNext()) {
             cas.add(itor.next());
         }
         */
          
          // 中英文混合分词器
          SmartChineseAnalyzer sca = new SmartChineseAnalyzer();
          //SmartChineseAnalyzer sca = new SmartChineseAnalyzer(cas);
          
            TokenStream ts = sca.tokenStream("field", value.toString());
            CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);

            ts.reset();
            while (ts.incrementToken()) {
                word.set(ch.toString());
              context.write(word, one);
            }
            ts.end();
            ts.close();
          
      }
  }
  
  public static class IntSumReducer extends
          Reducer<Text, IntWritable, Text, IntWritable> {
      private IntWritable result = new IntWritable();
      public void reduce(Text key, Iterable<IntWritable> values,
              Context context) throws IOException, InterruptedException {
          int sum = 0;
          for (IntWritable val : values) {
              sum += val.get();
          }
          result.set(sum);
          context.write(key, result);
      }
  }
  
  private static class IntWritableDecreasingComparator extends IntWritable.Comparator {
        public int compare(WritableComparable a, WritableComparable b) {
          return -super.compare(a, b);
        }
  
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            return -super.compare(b1, s1, l1, b2, s2, l2);
        }
    }
  
  
  public static void main(String[] args) throws Exception {
      
      Configuration conf = new Configuration();
      String[] otherArgs = new GenericOptionsParser(conf, args)
              .getRemainingArgs();
      if (otherArgs.length != 2) {
          System.err.println("Usage: wordcount <in> <out>");
          System.exit(2);
      }
      Path tempDir = new Path("wordcount-temp-" + Integer.toString(
          new Random().nextInt(Integer.MAX_VALUE))); //定义一个临时目录
      
      Job job = Job.getInstance(conf, "word count");
      job.setJarByClass(WordCountOrder.class);
      try{
          job.setMapperClass(TokenizerMapper.class);
          job.setCombinerClass(IntSumReducer.class);
          job.setReducerClass(IntSumReducer.class);
          
          job.setOutputKeyClass(Text.class);
          job.setOutputValueClass(IntWritable.class);
          
          FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
          FileOutputFormat.setOutputPath(job, tempDir);
          //先将词频统计任务的输出结果写到临时目录中, 下一个排序任务以临时目录为输入目录。
          
          job.setOutputFormatClass(SequenceFileOutputFormat.class);
          
          if(job.waitForCompletion(true)){ //当word count结束
              
              Job sortJob = Job.getInstance(conf, "sort");
              sortJob.setJarByClass(WordCountOrder.class);
              
              FileInputFormat.addInputPath(sortJob, tempDir);
              sortJob.setInputFormatClass(SequenceFileInputFormat.class);
              
              sortJob.setMapperClass(InverseMapper.class);
              //InverseMapper作用是实现map()之后的数据对的key和value交换
              sortJob.setNumReduceTasks(1);
              // Reducer 的个数限定为1, 最终输出的结果文件就是一个
              FileOutputFormat.setOutputPath(sortJob, new Path(otherArgs[1]));
  
              sortJob.setOutputKeyClass(IntWritable.class);
              sortJob.setOutputValueClass(Text.class);
              /* Hadoop 默认对 IntWritable 按升序排序，而我们需要的是按降序排列。
              * 因此实现了 IntWritableDecreasingComparator 类,　
              * 并指定使用这个自定义的 Comparator 类对输出结果中的 key (词频)进行排序*/
              sortJob.setSortComparatorClass(IntWritableDecreasingComparator.class);
  
              System.exit(sortJob.waitForCompletion(true) ? 0 : 1);
          }
      }finally{
          FileSystem.get(conf).deleteOnExit(tempDir);
      }
  }
}

编译java代码并打包

hadoop="../../hadoop-2.7.1/bin/hadoop"
javac -cp `$hadoop classpath`':lucene-core-4.10.1.jar:lucene-analyzers-common-4.10.1.jar:lucene-analyzers-smartcn-4.10.1.jar' WordCountOrder.java
jar cf wcr.jar WordCountOrder*.class

察看hdfs内容
../../hadoop-2.7.1/bin/hdfs dfs -ls -R /
运行hadoop程序

export LIBJARS=lucene-core-4.10.1.jar,lucene-analyzers-common-4.10.1.jar,lucene-analyzers-smartcn-4.10.1.jar
../../hadoop-2.7.1/bin/hadoop jar wcr.jar WordCountOrder -libjars ${LIBJARS} /hadoop/test3 /hadoop/out

运行察看界面
察看词频统计结果
../../hadoop-2.7.1/bin/hdfs dfs -cat /hadoop/out/part-r-00000 > out.txt
cat out.txt | grep ‘[[:digit:]]{1,}[[:blank:]].{1}$’|head *

  曰
之
不
兵
人
一
有
军
大
于

cat out.txt | grep ‘[[:digit:]]{1,}[[:blank:]].{2}$’|head

曹操
 将军
 司马
 丞相
 关公
 不可
 荆州
 夏侯
 如此
 主公

cat out.txt | grep ‘[[:digit:]]{1,}[[:blank:]].{3}$’|head

 诸葛亮
  大将军
  刀斧手
  中郎将
  阳平关
  不得已
  大丈夫
  不可不
  弓弩手
  东南风

cat out.txt | grep ‘[[:digit:]]{1,}[[:blank:]].{4,}$’|head

  决一死战
  措手不及
  不计其数
  深沟高垒
  按兵不动
  所到之处
  勃然大怒
  出其不意
  人困马乏
  将计就计

结束语

从短短几字就不难看出，《三国演义》的主要人物、地点、策略。

吴文洁

Garden of Eden 自由平等尊重

BIG_DATA杂谈(2)-hadoop探究《三国演义》的词频-改

与传统文化的碰撞

原理

难点

准备工作

结束语