如何检索自然语言处理领域相关论文

要快速地熟悉一个领域,更加深刻地了解这该领域的发展,就必须查阅这个领域的相关论文。本文主要讲述自然语言处理领域(NLP)相关论文的检索。
与其他领域一样,自然语言处理领域每年都有大量的论文发表在各种期刊、会议上,然而人的时间和精力是有限的,如何能在有限的时间内,检索出该领域的高影响力、高质量的论文,是我们所关注的。对于这个问题,首先我们应当了解一下自然语言知名的学术组织、学术会议及学术论文,其次是在了解上述信息基础上的论文检索手段。
下面,本文将从国内外自然语言处理领域知名的学术组织、学术会议及学术论文及相关论文检索和筛选的经验两方面内容,介绍一些关于自然语言处理领域的知识和论文检索的经验。
本文第一部分引用清华大学刘知远老师新浪博客上的一篇博文,针对国内外自然语言处理领域知名的学术组织、学术会议及学术论文的介绍。第二部分将分享一些前一段时间,我在论文调研过程中关于论文查找和筛选的一些经验,希望对大家有所帮助。
另,附上本人实现的一款论文调研工具。该工具基于Python的爬虫技术,可根据论文发表年份、关键字、发表会议等信息,自动批量抓取主题相关论文的标题,然后,从Google Scholar获取引用次数、下载链接、论文作者、论文摘要信息并按指定的格式保存在EXCEL文档中。
下载地址:Research_Spider
继续阅读

发表在 学术 | 标签为 , | 留下评论

EMNLP 2017论文报告会(北京)

近日,自然语言处理领域国际顶级学术会议EMNLP 2017 (Conference on Empirical Methods in Natural Language Processing, September 7–11, 2017, Copenhagen, Denmark ) 公布了录用论文。

旨在促进国内自然语言处理相关研究的发展以及研究者之间的交流,中国中文信息学会青年工作委员会联合搜狗公司于2017年8月16日在北京海淀区中关村南四街中科院软件所5号楼4层大报告厅举办“自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会”。会议邀请国内部分被录用论文的作者报告其论文方法,共同探讨自然语言处理领域的新发展和新技术。
我实验室硕士研究生王乐义应邀参会,并在会上就EMNLP 2017录用论文“Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision” 进行口头报告,丁子祥同学随行参会。
继续阅读

发表在 其他 | 留下评论

CCIR&COAE广州之行

第二十二届全国信息检索学术会议(The 22nd China Conference on Information Retrieval, 简称CCIR2016)由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办, 由华南理工大学承办,定于2016年11月11日~13日在广东省广州市召开。为了持续推动中文倾向性分析技术的发展和应用, 中文信息学会信息检索专业委员会将在成功 组织前七届中文倾向性分析评测的基础上, 以在华南理工大学举行的第二十二届全国信 息检索学术会议(CCIR2016)为依托,继续组织 第八届中文倾向性分析评测(The 8th Chinese Opinion Analysis Evaluation-COAE2016)。

我实验室研究生郑士梁和姜杰组成的队伍 NUSTM 在 COAE 评测活动中取得了较好成绩(在提交结果的队伍中,子任务1取得第2名,子任务2和子任务3情感词提取第1名,子任务3情感极性分析第3名),并由郑士梁代表 NUSMT 参加在广州华南理工大学举办的 CCIR&COAE 会议。

AF688C07-4C19-4EBD-96B2-AAD11A0D0778

同时,由郑士梁代表 NUSTM 在 COAE 评测会议上做了展示汇报,

dig

并和与会老师同学在相关问题进行了交流。

7270B91C-ECD8-4D67-BF96-4D1F4D0C031C

发表在 活动 | 留下评论

清华大学刘知远老师访问实验室

2016年11月6日上午,清华大学刘知远老师访问我实验室,并做客计算机学院青年学者讲坛,在学院4003会议室做了一场题为“表示学习与知识获取”的学术报告。报告会由夏睿老师主持。
6b930382b06c204a
继续阅读

发表在 活动 | 标签为 , | 留下评论

中科院张家俊副研究员访问实验室

2016年10月29日下午,中科院自动化所张家俊副研究员访问我实验室,并做客计算机学院青年学者讲坛,在学院4003房间做了一场题为“自然语言处理中的深度学习:从词表示到句子表示”的学术报告。报告会由夏睿老师主持。
1
继续阅读

发表在 活动 | 标签为 , | 留下评论

研究组参加EMNLP2016论文研讨会

中国中文信息学会青工委主办的EMNLP2016论文研讨会于9月24日在复旦大学张江校区第二教学楼2108室举行。主办方邀请了十四位国内知名高校和研究所的老师和同学对其在EMNLP2016上发表的研究成果进行报告,NUSTM实验室全体学生参加了该会议。
IMG_20160924_153512
继续阅读

发表在 活动 | 标签为 | 留下评论

递归自编码

1 RAEs 简介

  递归自编码(Recursive auto-encoders, RAEs), 是自编码方法的一个变种,属于深度学习。将单词表示为词向量,依据词向量得到某一段文字的向量空间, 然后逐层向上分析,继而得到整段文字的向量表示.  
  Socher于 2012 年提出基于递归自编码(Recursive AutoEncoder , RAE)的树回归模型用来分析句子的情感倾向性,他将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。  
  基于深层学习的半监督递归自编码(RAE, Recursive Auto Encoders)方法可以解决中文文本的情感分类问题,它通过学习非线性的深层网络结构,利用分布式向量来表达文本的特征,从而弥补了浅层学习在表达能力和泛化能力方面的约束 。
继续阅读

发表在 其他 | 留下评论

ML-KNN:A lazy learning approach to multi-label learning

1 MLKNN简介

多标签学习来源于文本分类问题,一个文档可能同时属于几个不同的类别。在多标签学习中,训练集中的每个样例有多个标签,我们的主要任务是预测测试样本的标签集合。
多标签数据学习方法主要分为两种,一种问题转换法,包括转换为二分类、转换为标签排序、转换为多分类。另一种是算法适应法,包括Lazy learning(如ML-KNN)、Decision tree(如ML-DT)、Kernel learning(如Rank-svm)、Neural network(如BP-MLL)、information-theoretic(如CML)、Spectral analysis(如MLLS)。
MLKNN是由传统的K近邻(K-nearest neighbor,KNN)发展而来的,对于每一个测试样本,在训练集中找到它的K近邻。然后,基于邻居样本的统计信息,如属于相同类别的邻居的个数,用最大后验概率原则(MAP)决定测试样本的标签集合。
继续阅读

发表在 学术 | 标签为 , | 留下评论

多智能体仿真平台调研

1. 简介

调研的目的是为了确定“基于博弈的舆情演化与多智能体仿真”研究中用到的仿真平台。
两部分工作:平台调研和经典案例查找。
关于多智能体平台的中文资料很少,所以平台的比较主要参考了外文网站、相关论文以及网站上的评论。然后对四十多个仿真平台从软件的易用性、是否有图形界面、是否开源、编程语言以及适用领域进行了总结,综合了多个外文网站上专业的平台比较。

2. 平台比较

2.1 统计的平台有:

继续阅读

发表在 其他 | 留下评论

word2vec 原理篇

目录

  1. 简介
  2. 词向量和语言模型
  3. word2vec模型与推导
  4. 总结

1. 简介

          随着深度学习在语音识别和图像分类任务上的巨大成功,越来越多的人开始关注深度学习领域。相较于语音识别和图像分类,最初在自然语言处理领域中的深度学习应用效果似乎并不明显。后来深度学习在自然语言处理中出现了第一个应用:训练词嵌入。通过词嵌入的词表示方式,大量的nlp领域的任务都得到了提升。此外,几乎所有的深度学习在自然语言处理中的应用都使用了词嵌入,所以,词嵌入可谓是深度学习应用于自然语言处理的一个核心技术。为了学习词嵌入的训练过程,本文选择了研究word2vec工具包。

         word2vec是由Tomas Mikolov 研究团队创造的一群用来产生词嵌入的模型,目前官方最新的word2vec工具包发布于2013年,为c语言版本,此外还有非官方版本:python版本java版本

         word2vec工具包输入是一个文本文件,称为训练语料,输出是一个词典,词典中包含训练语料中出现的单词以及它们的词嵌入表示。单词的词嵌入表示,就是用一个n维的实数向量来代表一个单词,单词之间的语义关系可以通过词嵌入体现出来,所以,要衡量词嵌入好与不好,可以观察词嵌入可以多大程度体现单词的语义信息。使用word2vec训练词向量的一个基本假设就是分布式假设,分布式假设是说词语的表示反映了它们的上下文,也就是它认为,有相似上下文的单词的语义也是相近的。使用word2vec训练出的词嵌入有两个特点:

  1. 体现了语义相似关系,如计算距离“red”最近的词嵌入,结果就是“white”,“black”等表示颜色的单词。
  2. 体现了语义平移关系,如计算距离“woman”-“man”+“king”最近的词嵌入,结果就是“queen”。

         在介绍word2vec前,先介绍一些基础知识,包括词向量和语言模型。然后介绍word2vec训练词嵌入时可以选择的四种模型,分别介绍它们的模型结构,以及使用梯度更新训练过程的数学推导。

继续阅读

发表在 其他 | 留下评论

深度学习——前馈神经网络详解

目录

  1. 简介
  2. 感知机
  3. 前馈神经网络
  4. BP算法
  5. 总结

1. 简介

         不久前Google旗下DeepMind公司开发的围棋程序AlphaGo以4:1的成绩绩战胜韩国职业九段棋手李世石,让深度学习足足又火了一把。根据WHR算法,如果一名选手从未遭受失利,就不会进入排名统计,AlphaGo的一次失败,也让它拥有了世界排名,我们来看下图,排名第二,仅次于中国选手柯洁,加上之前5:0战胜欧洲围棋冠军樊麾,出赛九场就已经战绩斐然。

gorating

随着AlphaGo的出名,现在很多人将深度学习比作大脑、人工智能。但是,探究过深度学习的人将会知道,深度学习只是对大脑的简单模拟,实际上两者很不一样,我们对自己的智能几乎仍处于一无所知的状态。近年来深度学习这个领域炒作很热,Geoffrey Hinton说:人工智能会继续发展,请不要误用。

        深度学习源于人工神经网络,是神经网络的品牌重塑,根据拓扑结构划分,神经网络网络主要分为前馈网络和反馈网络。为了避免枯燥,本文将从神经元讲起,进而介绍感知机,最后讲解典型的前馈神经网络BP网络和参数训练算法——BP算法(Backpropagation Algorithm)。 继续阅读

发表在 其他 | 留下评论