词性标注调研

1. 定义

词性用来描述一个词在上下文中的作用。词性标注(Part-of-Speech或POS tagging)是指对于句子中的每个词都指派一个合适的词性,也即确定每个词是名词、动词、形容词或其他词的过程,又称词类标注或者简称标注。给定一个句子(或词序列):
我 中 了 一张 彩票 。
对其的标注结果可以是:
我/代词 中/动词 了/助词 一/数词 张/量词 彩票/名词 。/标点
通常为了简化表达,人们常使用一个定义好的标注集去表达上面的标注结果,例如“r”表示代词,“n”表示名词。使用北大计算所词性标注集标注的结果为:
我/r 中/v 了/u 一/m 张/q 彩票/n 。/w
在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。如下表,是出自CTB7语料的统计结果。
继续阅读

发表在 其他 | 留下评论

基于感知器的中文分词算法(二)

续 基于感知器的中文分词算法(一)

5. 感知器分词算法新进展

5.1 改进的特征模板

上面讲到,使用基本的特征模板我们可以得到与基于CRF++工具训练的分词模型差距不大的分词效果。所使用的特征模板为:
(1)$C_n (n=-2,-1,0,1,2)$
(2)$C_n C_{n+1} (n=-2,-1,0,1)$
(3)$C_{-1} C_1$
我称这个特征模板为10-feat,在此基础上添加字典信息和字符类别信息特征:
(1)$C_n (n=-2,-1,0,1,2)$
(2)$C_n C_{n+1} (n=-2,-1,0,1)$
(3)$C_{-1} C_1$
(4)$MWL_0,t_0$
(5)$C_nt_0 (n=-1,0,1)$
(6)$T(C_{-2})T(C_{-1})T(C_0)T(C_{1})T(C_{2})$
继续阅读

发表在 学术 | 留下评论

微博语料预处理

微博语料的特点:

  • 长度短小,数量多。
  • 具有不规范性,文法通常是非正式的,语言偏口语化和生活化,带有缩写、拼写错误、不规范用语、噪音及表情符。增加了用户对有价值信息发现的难度。
  • 微博短文中通常包含显著的个人意图和明显的个人主义感情色彩。
  • 具有半结构化的特点,除了文本内容还包含一些元数据,如:发布时间、收藏数量、转发量、评论等。

繁简体转化

因为微博语料的特殊性,含有不少繁体字,需要转换成简体。
继续阅读

发表在 学术 | 标签为 | 留下评论

Deep Learning 相关学习资料整理

本文主要收集了圈内比较知名的deep learning系统教程,基本上都是DL界的大牛们写的,后面两个教程还有公开视频,方便deep learing初学者快速入门。后面还找了些讲座ppt,学习笔记以及一些好的博文,有兴趣的可以看看^_^。

系统教程:

1.  UFLDL教程:作者Andrew Ng ,有中英文对照,入门绝对的好教程,逻辑清晰有练习,阅读量近百万次,有大量学习笔记可参考。

2.Learning Deep Architectures for AI:作者Yoshua Bengio是Deep Learning几大山头之一。

3.Deep Learning:Yoshua Bengio将要出版的deep learing 书的最新草案。 继续阅读

发表在 学术 | 标签为 , | 留下评论

文本情绪分类调研

文本情绪分类(emotion classification)致力于多情绪类别的文本分类,例如,高兴、生气、悲伤等。本文主要从简要介绍、论文阅读、方法实现三方面来讨论细粒度情绪分类。

1. 情绪分类简介

1.1 情绪的类别

由于情绪的复杂性和敏感性,不同的研究对其类别的划分也有很大差异。我从阅读的论文中,总结了常见的细粒度情绪分类,如表1所示。
继续阅读

发表在 学术 | 标签为 | 留下评论

基于感知器的中文分词算法(一)

1.基于字标注的分词方法

基于字标注的方法的实际上是构词方法,即把分词过程视为字在一串字的序列中的标注问题。由于每个字在构造成词的时候,都有一个确定的位置。也即对于词中的一个字来说,它只能是词首字、词中字、词尾字或单字词一个身份。
以常用的4-tag标注系统为例,假如规定每个字最多有四个构词位置,即:

  • B(词首)
  • M(词中)
  • E(词尾)
  • S(单独成词)

这里的$\lbrace B, M, E, S\rbrace$就是4-tag标注系统中的四个位置标注。
继续阅读

发表在 学术 | 标签为 , | 留下评论

主题模型LDA算法

按照wiki上的介绍,LDA 由Blei, David M., Andrew Y. Ng和Michael I. Jordan.于2003 年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。[1] 本文将从以下几个方面进行阐述:
1.LDA基本概念
2.Gibbs采样
3.代码
继续阅读

发表在 学术 | 标签为 , , | 留下评论

突发事件检测 Kleinberg 算法

1. 预备知识

1.1 马尔科夫性

马尔可夫性质(Markov property)是概率论中的一个概念, 因为俄国数学家安德雷·马尔可夫得名。
当一个随机过程在给定现在状态及所有过去状态情况下, 其未来状态的条件概率分布仅依赖于当前状态;
换句话说, 在给定现在状态时, 它与过去状态(即该过程的历史路径)是条件独立的, 那么此随机过程即具有马尔可夫性质。
具有马尔可夫性质的过程通常称之为马尔可夫过程。
数学上, 如果X(t), t > 0为一个随机过程, 则马尔科夫性质就是指
$ P(X(t+h) = y | X(s) = x(s),s<=t) = P(X(t+h) = y | X(t) = x(t)), h > 0
$
继续阅读

发表在 学术 | 标签为 , | 留下评论

如何检索自然语言处理领域相关论文

要快速地熟悉一个领域,更加深刻地了解这该领域的发展,就必须查阅这个领域的相关论文。本文主要讲述自然语言处理领域(NLP)相关论文的检索。
与其他领域一样,自然语言处理领域每年都有大量的论文发表在各种期刊、会议上,然而人的时间和精力是有限的,如何能在有限的时间内,检索出该领域的高影响力、高质量的论文,是我们所关注的。对于这个问题,首先我们应当了解一下自然语言知名的学术组织、学术会议及学术论文,其次是在了解上述信息基础上的论文检索手段。
下面,本文将从国内外自然语言处理领域知名的学术组织、学术会议及学术论文及相关论文检索和筛选的经验两方面内容,介绍一些关于自然语言处理领域的知识和论文检索的经验。
本文第一部分引用清华大学刘知远老师新浪博客上的一篇博文,针对国内外自然语言处理领域知名的学术组织、学术会议及学术论文的介绍。第二部分将分享一些前一段时间,我在论文调研过程中关于论文查找和筛选的一些经验,希望对大家有所帮助。
另,附上本人实现的一款论文调研工具。该工具基于Python的爬虫技术,可根据论文发表年份、关键字、发表会议等信息,自动批量抓取主题相关论文的标题,然后,从Google Scholar获取引用次数、下载链接、论文作者、论文摘要信息并按指定的格式保存在EXCEL文档中。
下载地址:Research_Spider
继续阅读

发表在 学术 | 标签为 , | 留下评论

有关命名实体识别技术的调研

个人的理解

基于统计的命名实体识别与基于字标注的中文分词在方法思想上是有很大相似之处的,都是给token不同的角色标注,统计相关的初始概率、转移概率和发射概率,最后利用Viterbi算法进行解码,求得最优标注序列。

不同之处在于,命名实体识别的角色标注是高度定制的。首先就根据人名、地名、机构名分为了三类标注集合,然后再根据是否有嵌套,并结合专家知识进行设计。而基于字标注的中文分词方法一般使用的是4-tag标注系统(B, M, E, S)。

角色标注的增多,很大程度上是与中文命名实体数量众多且构成规律复杂有关的。

继续阅读

发表在 学术 | 标签为 , | 留下评论