期刊关键词抽取方法

期刊关键词抽取方法

1引言

关键词是与文章内容和主旨密切相关的短语,被广泛应用于新闻报道、学术期刊等领域。关键词可以提高文档的管理和检索效率,还可以为一些文本挖掘任务提供丰富的语义信息,例如文档的分类、聚类、检索、分析和主题搜索等任务[1]。期刊的关键词对应学术期刊中的keywords部分,包含简单关键词(SimpleWord,SW)和复杂关键词(ComplexWord,CW)两大部分,其中SW表示由一个简单词组成的关键词,CW表示由多个简单词组成的关键词。根据IEEEExplorer[2]统计数据显示,每年约有24万篇新学术期刊被收录。根据某些学科期刊的要求,在文献发表时作者需要在期刊中对关键词进行注明。但仍有一些学科的出版物与早期发行的期刊、书籍、文献的部分章节不包含关键词等信息。缺乏关键词会在期刊的查阅和参考过程中造成困难。虽然可以使用索引对全文进行检索,但这种方法工作量大、且检索结果依赖于分词效果,难以给出准确的检索结果。而关键词抽取就是从文章中选择一小部分单词或短语来描述文章重要内容[3]。因此,需要寻找一种有效的期刊关键词抽取方法。针对传统方法的不足并结合最新研究成果,本文提出了一种基于融合词性的BiLSTM-CRF的期刊关键词提取方法。在实现数据时序和语义信息挖掘的同时,也保证了单词与单词之间的关联性。在真实数据上的实验结果表明融合词性的BiLSTM-CRF模型是一种有效的期刊关键词自动抽取方法。

2相关工作

目前,关键词抽取任务主要有两种方法,基于无监督的方法和基于有监督的方法[4,5]:

2.1基于无监督的方法

无监督方法仅通过一些事先规定的关键词权重的量化指标,计算权重排序关键词重要性来实现。TFIDF是字符串频率关键词[6,7]抽取的一种典型方法,其本质是无监督的,可以简单快捷的进行关键词抽取。该方法仅扫描语料库一次,即可获得所有单词的文本频率。但除了词频之外,仍需要考虑许多因素,例如词的词性以及在文本中的位置等。为了提高该方法的性能,必须人工的对其许多规则进行设计[5]。在新闻领域,字符串频率方法比有监督的机器学习方法更有效。因为机器学习的方法在模型训练时需要花费大量的时间,并且文档需要标注。其次,每天都会发生新事件,新闻的内容具有多样性。但无监督方法只提供了单词在文本中的相对重要程度,无法有效地综合利用词法和语义信息对候选关键词进行排序[8]。

2.2基于有监督的方法

有监督的方法将关键词抽取问题视为判断每个候选关键词是否为关键词的二分类问题,它需要一个已经标注关键词的文档集合来训练分类模型,即通过在一个有标注的数据集上训练分类器,以便决定候选词中哪些是关键词。不同的机器学习算法可以训练出不同的分类器,如朴素贝叶斯[9],决策树[10]、最大熵算法[11]和支持向量机[12]等是关键词抽取中的代表性方法,通过大量数据来训练分类器。可见有监督方法可以利用更多信息具有更大的优势,且实验效果比无监督方法好[4]。这种方法具有较高的准确性和较强的稳定性,但需要很大的语料库,且所有文本需要进行标注。标注人员具有一定的主观性并且标注任务具有复杂性。不同的标注人员在进行同一个文本的标注时,具有不同的认知和看法,标注的质量会影响模型的性能。并且上述方法都将关键词抽取问题视为一个二分类问题,对每个单词独立处理,忽略了文本结构信息。为解决该问题,可以将关键词抽取问题转化为序列标注问题,常用的模型有最大熵模型(MaximumEntropy,ME),隐马尔科夫模型(HiddenMarkovModel,HMM),条件随机场模型(ConditionalRandomField,CRF)。其中CRF模型的应用最为广泛,性能也最好,可以较为精确的实现关键词的有效提取,但却需要人工设计特征,特征设计的优劣与否将会直接影响到模型的性能和最终的抽取效果。随着深度学习的不断发展,深度神经网络,尤其是长短期记忆网络(LongShortTermMemory,LSTM)模型,前一时刻隐藏层的信息可以加入到当前时刻的输出,通过LSTM层可以高效地利用上下文信息,处理长序列依赖问题。通过结合LSTM模型和CRF模型,综合利用多种信息,可以使得效果更好[13]。在近期的研究中,已有学者将BiLSTM-CRF网络模型用于开放式关系抽取[14]、命名实体识别[15]、中文分词[16]等自然语言处理任务中。Alzidy等已经将BiLSTM-CRF网络用于关键词抽取任务中[17],使用固定的词嵌入来表示单词,输入网络,得到序列标注结果。

3融合词性与BiLSTM-CRF的抽取模型

针对从文本中自动抽取关键词的问题,现有的解决方法大多基于二分类的思想。这种方法忽略了单词之间的关联性,将每个词视为独立的部分,因此无法通过联系上下文来准确把握文的有效信息,从而导致模型具有较差的关键词抽取能力。针对该问题,本文结合条件随机场与深度学习中双向长短期记忆网络(BidirectionalLongShortTermMemory,BiLSTM)模型可以自动提取特征的优势,将期刊关键词的抽取问题转化为序列标注问题,提出了融合词性与BiLSTM-CRF的期刊关键词抽取方法。融合词性与BiLSTM-CRF的关键词抽取模型如图1所示:关键词自动抽取模型共包含三大部分:(1)对期刊文本进行分词和词性标注的预处理;(2)将预处理后的文本使用word2vec模型进行WordEmbedding向量化,获取字词的向量表达式;(3)使用BiLSTM-CRF模型实现关键词的自动抽取。

3.1特征提取

(1)词性标注

在关键词组合的过程中,可能会采用不同的词性组合方式,但通过对期刊中大量的关键词研究发现,期刊中的关键词一般由名词,形容词和动词组合形成[13],因此在实验中需要对词性进行标注,例如:信号控制单元(n+vn+n),高性能电池(ad+n),其中,n表示名词,vn表示动词,ad表示形容词。加入词性特征对期刊关键词的识别有一定作用。

(2)依存句法分析

依存句法分析就是确定一个句子中词语与词语之间的依存关系或者对句子的句法结构进行分析。词语之间的依存关系主要有介宾关系、动宾关系、主谓关系等。本文采用语言技术平台[18](LanguageTechnologyPlatform,LTP),对期刊文本进行依存句法分析,通过过滤不可能组成关键词的依存关系,可以提高识别关键词的效果。

(3)词向量表示

本文采用Word2Vec模型[19]中的Skip-gram模型[21]来训练词向量。Skip-gram模型是在已知当前词语的情况下,去预测上下文信息。模型的目的是要学到好的词向量表示,然后能够很好的预测它上下文的词语。Skip-gram模型如图2所示。在训练词向量的过程中分别将词、词性、依存句法分析等特征通过word2vec工具转换成词向量表示,词的维度为200维,词性和依存句法分析的维度分别为10维,最后通过嵌入式向量引入模型进行融合,生成最终的特征向量表示。

3.2LSTM网络

循环神经网络(RNN)[20]被广泛应用于命名实体识别、语音识别等自然语言处理任务中,具有记忆历史信息的能力,能够使模型通过长距离的特征对当前的输出进行预测。但随着RNN网络深度和训练时长的增加,在对较长序列数据处理时存在梯度消失和梯度爆炸的问题。LSTM网络与传统的RNN具有相似的网络结构,通过使用专门构建的记忆细胞代替RNN网络中隐藏层的更新模块,使LSTM网络具有发现和探索数据中长时间的依赖信息的能力。LSTM的神经元结构如图3[21]所示。

3.3融合词性特征的BiLSTM-CRF模型

条件随机场是一种针对序列标注问题效果最显著的条件概率模型,其本质是一个无向图模型。本文在BiLSTM模型的基础上,结合CRF处理序列标注问题的天然优势,有效的引入标签之间的转移关系,构建转移状态矩阵,从而更有效的实现关键词的自动抽取。将BiLSTM网络和CRF网络整合为BiLSTM-CRF模型,如图6所示。通过BiLSTM网络,模型可以有效的利用过去的输入特征和未来的输入特征挖掘期刊文本数据的隐含特征,通过CRF层,利用状态转移矩阵模型可以有效的利用过去和未来的文本的标签信息预测当前的标签。由图6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM网络,CRF三个部分。模型的输入为分词和进行词性标注后的序列文本。在WordEmbedding向量化过程中使用Word2Vec模型[19]通过训练后,根据给定的语料库可以快速有效地把对文本内容的处理简化为K维向量空间中的向量运算,将一个词语表达成向量形式,从而可以使用向量空间上的相似度来表示文本语义上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通过给定单词来预测上下文信息,使用无监督的方式通过学习文本来用词向量的方式表征词的语义信息。将获取的融合词性后的词向量输入BiLSTM网络中,得到包含前后文信息的文本序列的双向表达,通过CRF预测最终的标签序列。

4实验结果与分析

本文使用中国知网的期刊数据,实验数据包括基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑、信息科技、经济与管理科学10个大类以及168个二级分类。实验期刊数据是1989年到1992年约300万的期刊量。其中每篇期刊数据包括来源库、题名、作者、单位、文献来源、关键词、摘要、发表时间、第一责任人、基金、年、期、卷、期、页码等数据项。在实验过程中,需要在保证数据多样性的同时确保数据的有效性,因此从采集到的期刊数据中的各个大类和二级分类中随机选出5040篇作为训练数据集,1680篇作为验证数据集,1680篇作为测试数据集。本实验采用融合词性与BiLSTM-CRF的关键词抽取模型,需要在WordEmbedding词向量的训练过程中结合期刊的词性特征。同时,论文的题目和摘要最能表达文章的核心内容,所以在实验过程中,本文使用jieba分词工具对获取的期刊数据的摘要和题目进行分词和词性标注处理,除了对测试数据进行中文分词和词性标注处理外,不进行任何数据预处理操作。通过模型获取最终的关键词抽取结果并与期刊数据中的获取关键词进行比对,得到最终的实验结果。数据的标注样例如表1所示,本文将关键词抽取问题转换为序列标注问题,定义标签集{B,M,E,O},其中,B表示CW的中部,E表示CW的尾部,O表示其他文本。

5总结

本文针对传统BiLSTM网络忽略了文本结构信息以及人工抽取特征困难的问题,提出了一种基于融合词性的BiLSTM-CRF的关键词抽取方法。该方法将关键词自动抽取问题转化为序列标注问题,在传统BiLSTM网络的输出层后加入CRF模型,可以自动学习一些约束并添加至最终的预测标签中,使得最终的输出标签前后具有关联性。同时,在输出网络时,显性的加入词性特征,构成最终的词向量矩阵。实验结果表明,本文提出的基于融合词性的BiLSTM-CRF模型相较未加入CRF以及未融合词性的模型具有更高的准确率,召回率和F值,是一种有效的关键词自动抽取方法。但是本文的方法仍存在一定的局限性,针对CW类型的关键词抽取问题,模型性能较差。在未来的研究中,需要着重解决对复杂关键词的自动抽取问题并进一步提升对简单关键词的自动抽取的准确率,结合其他有效信息对模型进行改进,进一步提升对关键词的自动抽取效果。