改-TextRank文本摘要简介与应用

##文本摘要简介

  • Automatic Summarization 主要有两种方法
    • Extraction : 抽取式,提取文档中已存在的关键词、句子形成摘要。
    • Abstraction: 生成式,建立抽象的语意表示,使用自然语言生成技术,形成摘要。

##TextRank的文本摘要

  • TextRank的方法属于graph-based Extraction。
  • 对文本中的句子重要性排序后得到摘要。
  • 权值为句子间的相似度,计算两个句子的内容覆盖率。
  • TextRank关键字提取的不同:考虑了句子间的权值。

Read More

改-TextRank文本关键字提取简介与应用

##TextRank与PageRank

  • TextRank脱胎于PageRank,受其启发应用于文本处理。->论文
  • TextRank在PageRank的基础上,引入了边的权值概念,代表两个句子的相似度。
  • PageRank 公式
    • pagerank
  • TextRank 公式
    • textrank
  • 公式解释
    • 模型描述了一个有向有权图 G =(V, E), 由点集合V和边集合E组成
    • 图中任两点 Vi , Vj 之间边的权重为 wji
    • 对于一个给定的点Vi, In(Vi)为指向该点的点集合, Out(Vi)为点Vi指向的点集合
    • d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85

Read More

BIG_DATA杂谈(1)-简单的hadoop伪分布式配置与测试

##前言

  • Big Data and AI‘s age has coming!
  • 面对海量的数据,传统方式已无法满足用户高效地使用和处理数据了。
  • hadoop的意义非同一般,它赋予了人们面对bigdata的信心和能力,同时也开创了一个时代,
  • 它是一个可靠的、可扩展的、分布式的计算框架,给予人们PB级的计算处理能力。
  • Doug Cutting根据谷歌公司发表的MapReduce和GFS的论文自行实现而成。
  • 诞生历史:Lucene (1999) -> Nutch (2003) -> hadoop (2011)

Read More

解决android sdk manager更新--使用JAVA SOCK代理选项

###前言

  • 我国一直努力地去做互联网的强国。1
  • android sdk manager 无法正常更新,国情如此。
  • android开发者急需新版的SDK,以跟上时代。

###普通方法

  • 普遍的方法是改SDK manager的http proxy。
  • 之前用过几个地址,效果不佳,大概是失效了。

###我的解决方法

  • 以linux版为例
  • 启动sdk manager 其实是执行SDK目录下/tools/android
  • 它其实是一个可执行的shell脚本。

    Read More

[转]Facebook加速deep-learning研发

引言

  • 大数据时代的到来是无可质疑的,但挖掘数据背后的秘密才更具价值。
  • 深度学习,受益于大数据的出现和大规模计算能力的提升,它是开启未来的钥匙。

文章简介

  • 转载的文章是Keith Adams的一份第八届超大数据库会议(XLDB2015)报告。
  • 报告简述了深度学习的所遇到的困难问题与解决方法。
  • 转载文章自infoq,作者张天雷,有删改。

    Read More