您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页一种长文本中多实体情感分析的方法[发明专利]

一种长文本中多实体情感分析的方法[发明专利]

来源:宝玛科技网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 109325238 A(43)申请公布日 2019.02.12

(21)申请号 201811283252.4(22)申请日 2018.10.31

(71)申请人 北京国信云服科技有限公司

地址 100094 北京市海淀区翠湖南环路13

号院1号楼326室

申请人 北京大学

(72)发明人 吴振豪 陈钟 李青山 兰云飞 

杨可静 高健博 王晓青 (74)专利代理机构 沈阳东大知识产权代理有限

公司 21109

代理人 刘晓岚(51)Int.Cl.

G06F 17/27(2006.01)G06F 16/35(2019.01)

权利要求书1页 说明书5页 附图4页

CN 109325238 A(54)发明名称

一种长文本中多实体情感分析的方法(57)摘要

本发明提供一种长文本中多实体情感分析的方法,涉及信息技术技术领域。一种长文本中多实体情感分析的方法,首先对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体,并对文本进行分割,通过语法结构分析,得到每个文本句子中与实体相关的文本信息;然后根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;最后根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感。本发明提供的长文本中多实体情感分析的方法,能够兼顾文本中实体的识别、对实体的情感分析、同时分析多个实体、考虑实体间的相关性;并有效对分散在文章多个句子中的实体情感进行聚合和有包容性的实体结果判断。

CN 109325238 A

权 利 要 求 书

1/1页

1.一种长文本中多实体情感分析的方法,其特征在于:包括以下步骤:步骤1、对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体;步骤2、根据标点符号对文本进行分割,得到完整的文本句子;步骤3、对每个文本句子进行语法结构分析,得到每个文本句子中与实体相关的文本信息;

步骤4、根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;

步骤5、根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感,具体方法为:

步骤5.1、对每个实体的相关情感信息进行向量化,将情感信息转化为词向量;步骤5.2、通过外部情感词语数据库对每个实体的相关情感信息附加短语极性,得到每个词向量的情感极性向量,然后将词向量和情感极性向量组合成为一个整体,再把每个句子中每个实体的所有相关情感信息全部整合成为一个整体,将每个实体所属的情感信息聚合体作为一个输入向量;

步骤5.3、构建LSTM神经网络结构;步骤5.4、将步骤5.2构成的每个实体的输入向量输入到步骤5.3构建的LSTM神经网络结构的神经元中,利用LSTM神经网络结构进行情感信息的聚合;

步骤5.5、根据每个实体的相关情感信息聚合结果并行判断步骤5.4输出的每个实体的情感极性。

2.根据权利要求1所述的一种长文本中多实体情感分析的方法,其特征在于:步骤5.3所述构建的LSTM神经网络结构包括两层,第一层为实体层神经网络,第二层为句子层神经网络;所述实体层神经网络接受实体情感信息的输入,时序记忆步长为句子数量*实体数量,并能够接受同一实体在不同句子下的情感信息;所述句子层神经网络接收实体层神经网络的输出,实体层神经网络中每实体数量个时序记忆步长之后的结果作为句子层神经网络的一个输入,句子层神经网络最后会输出结果。

3.根据权利要求2所述的一种长文本中多实体情感分析的方法,其特征在于:步骤5.4所述利用LSTM神经网络结构进行情感信息聚合的具体方法为:

将每个实体所属的情感信息聚合体作为某个句子下某个实体的相关情感信息输入到LSTM神经网络结构中,使每一个LSTM的时序记忆步长都记忆某个句子中某实体的情感信息;最后一个实体的隐藏状态会输入到句子层神经网络中的LSTM单元,而不是输入到下一个句子中的首个实体LSTM单元;通过句子层神经网络中的LSTM单元再对本句子中出现的实体和相关信息进行聚合,利于对聚合结果进行调整;且句子层神经网络中的LSTM单元是与句子层神经网络中的LSTM单元连接的,因此进行的都是句子层面的实体信息过滤,把每个实体在全文中的信息进行有效聚合;最后输出遍历了全文本后每个实体的相关情感信息聚合结果。

2

CN 109325238 A

说 明 书

一种长文本中多实体情感分析的方法

1/5页

技术领域

[0001]本发明涉及信息技术领域,尤其涉及一种长文本中多实体情感分析的方法。背景技术

[0002]随着互联网的快速发展,网络上的信息呈现出爆炸式增长。文本信息是网络信息交流的一个重要途径,报导、评论、微博、博客等形式的内容都快速增长,与之相对应的,是对内容检测与挖掘技术的缓慢发展难以挖掘出文本中的丰富内容。[0003]情感分析是当前自然语言处理中的一个长期火热的话题。当前,情感分析的发展非常迅速。分析方法上有基于词库和WordNet的分析方法,基于机器学习和基于深度学习的分析方法;分析内容上有篇章级别的情感分析,还有句子级别和短语级别的情感分析;分析结果上有正面、中性、负面的极性分析和依靠评分的情感程度分析。大多数情感分析方法都是在所需要分析的文本是建立在单个命名实体下或者只包含单种情感的前提下进行的,可是大多数文本内容并不按照这种前提进行撰写,一段文字包含多个实体或者多种情感都是非常可能的,尤其在长文本中出现的可能性非常高,而这种情况现有的情感分析方法还不能够进行很好地处理。

[0004]命名实体是指人名、机构名、地名等以名称为标识地实体,这在文本中通常有特定的指代含义,也在大量的文本中出现,尤以长报导居多。而在长报导中,通常会有多个命名实体出现,单个命名实体的情感也会发生变化,在开篇呈现正面,末尾呈现负面;或者在开篇和末尾均呈现负面,但是在中间呈现正面的情况非常之多。在存在这些复杂的情况下,对长文本进行快速有效的情感分析就是一个很难解决的问题。[0005]目前针对多实体多情感问题的方法中,有采用分割文本的方式,对文本进行切割,只保留需要进行情感分析的命名实体,来进行比较综合的情感判断。这种方法会破坏文本内容之间的关联性,虽然某句话中没有提到某个命名实体,但提及的实体与想要进行判断的命名实体有所联系,也会对想要进行判断的命名实体产生影响,因此这种方式不够理想。而另外的一些针对多实体多情感问题的方法大多数聚焦于短文本,短文本的信息表述没有长文本那么复杂,辨析度更好,而且短文本中出现多实体多情感的情况较少,不具备普适性。这两种方式还有效率上的缺陷,分析的目标文章只有一篇,却要进行多次遍历分析,时间浪费严重。

发明内容

[0006]本发明要解决的技术问题是针对上述现有技术的不足,提供一种长文本中多实体情感分析的方法,实现对一个长文本中的命名实体全部进行全局的情感分析。[0007]为解决上述技术问题,本发明所采取的技术方案是:一种长文本中多实体情感分析的方法,包括以下步骤:[0008]步骤1、对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体;

3

CN 109325238 A[0009]

说 明 书

2/5页

步骤2、根据标点符号对文本进行分割,得到完整的文本句子;

[0010]步骤3、对每个文本句子进行语法结构分析,得到每个文本句子中与实体相关的文本信息;

[0011]步骤4、根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;

[0012]步骤5、根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感,具体方法为:[0013]步骤5.1、对每个实体的相关情感信息进行向量化,将情感信息转化为词向量;[0014]步骤5.2、通过外部情感词语数据库对每个实体的相关情感信息附加短语极性,得到每个词向量的情感极性向量,然后将词向量和情感极性向量组合成为一个整体,再把每个句子中每个实体的所有相关情感信息全部整合成为一个整体,将每个实体所属的情感信息聚合体作为一个输入向量;[0015]步骤5.3、构建LSTM神经网络结构;所述LSTM神经网络结构包括两层,第一层为实体层神经网络,第二层为句子层神经网络;所述实体层神经网络接受实体情感信息的输入,时序记忆步长为句子数量*实体数量,并能够接受同一实体在不同句子下的情感信息;所述句子层神经网络接收实体层神经网络的输出,实体层神经网络中每实体数量个时序记忆步长之后的结果作为句子层神经网络的一个输入,句子层神经网络最后会输出结果;[0016]步骤5.4、将步骤5.2构成的每个实体的输入向量输入到步骤5.3构建的LSTM神经网络结构的神经元中,利用LSTM神经网络结构进行情感信息的聚合;

[0017]所述利用LSTM神经网络结构来进行情感信息聚合的具体方法为:

[0018]将每个实体所属的情感信息聚合体作为某个句子下某个实体的相关情感信息输入到LSTM神经网络结构中,使每一个LSTM的时序记忆步长都记忆某个句子中某实体的情感信息;最后一个实体的隐藏状态会输入到句子层神经网络中的LSTM单元,而不是输入到下一个句子中的首个实体LSTM单元;通过句子层神经网络中的LSTM单元再对本句子中出现的实体和相关信息进行聚合,利于对聚合结果进行调整;且句子层神经网络中的LSTM单元是与句子层神经网络中的LSTM单元连接的,因此进行的都是句子层面的实体信息过滤,把每个实体在全文中的信息进行有效聚合;最后输出遍历了全文本后每个实体的相关情感信息聚合结果;

[0019]步骤5.5、根据每个实体的相关情感信息聚合结果并行判断步骤5.4输出的每个实体的情感极性。

[0020]采用上述技术方案所产生的有益效果在于:本发明提供的一种长文本中多实体情感分析的方法,能够兼顾文本中实体的识别、对实体的情感分析、同时分析多个实体、考虑实体间的相关性;根据实体的不同,能够提取出不同的情感信息来用于相应实体的情感分析,并能够对同一实体的不同位置的文本情感信息进行关联、聚合,从而实现对某一实体的情感进行综合判断。不同实体的最终情感分析进行,保持了生成情感分析结果的有效性,降低了在生成分析结果时,其他实体的对本实体的情感分析影响。有机结合不同实体分析和针对实体的相关情感信息提取方法,以对长文本内容进行高效、全面的提取。并有效对分散在文章多个句子中的实体情感进行聚合和有包容性的实体结果判断。

4

CN 109325238 A

说 明 书

3/5页

附图说明

[0021]图1为本发明实施例提供的一种长文本中多实体情感分析的方法的架构图;[0022]图2为本发明实施例提供的一种长文本中多实体情感分析的方法的流程图;

[0023]图3为本发明实施例提供的长文本中进行命名实体识别和依存句法分析的示意图;

[0024]图4为本发明实施例提供的在长文本中进行多实体情感分析的单句情感信息输入的示意图;

[0025]图5为本发明实施例提供的利用LSTM神经网络结构对文本中各实体进行情感信息聚合的结构示意图;

[0026]图6为本发明实施例提供的对实体情感进行判断的方法图。

具体实施方式

[0027]下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来本发明的范围。[0028]本实施例以文本“张三向网贷公司申请了一笔贷款,但是他逾期了,并与网贷公司协商延期还款。网贷公司仍旧收集了张三相关亲友的信息,并采用手段影响了张三相关亲友的正常生活。张三是一名普通的公司雇员,经常向网贷公司申请贷款来进行周转。因为张三还款及时,因此信用额度一路增加到了8000元。有一次大笔借贷之后,网贷公司建议张三提前还款,张三同意了。但是张三资金周转困难,无法进行付款。张三和网贷公司协商延期还款,网贷公司也同意了,但是网贷公司仍旧催促第三方公司来催债。张三的事情让张三的亲友感到非常大的压力,第三方公司经常打电话给他们进行骚扰来催促张三还款。张三回忆曾经提供了自己通讯录的服务密码,因此网贷公司得到了张三的通话记录。”为例,使用本发明的长文本中多实体情感分析的方法,对该文本进行情感分析。[0029]一种长文本中多实体情感分析的方法,如图1和图2所示,包括以下步骤:[0030]步骤1、对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体;

[0031]本实施例通过BiLSTM-CRF模型识别该长文本中的实体,该长文本里面主要包括“张三”,“网贷公司”,“张三的亲友”,“第三方公司”四个实体,为了列举清晰,本实施例只对“张三”和“网贷公司”两个实体对象进行情感分析。[0032]步骤2、根据标点符号对文本进行分割,得到完整的文本句子;[0033]步骤3、对每个文本句子进行语法结构分析,得到每个文本句子中与实体相关的文本信息,如图3所示;[0034]本实施例中,“张三”和“网贷公司”这两个实体对象在每个句子下的相关情感分析为:[0035]句子1:[0036]张三:贷款,逾期,延期还款[0037]网贷公司:延期还款[0038]句子2:[0039]张三:(没有相关情感信息)

5

CN 109325238 A[0040]

说 明 书

4/5页

网贷公司:收集信息,影响正常生活

[0041]句子3:[0042]张三:普通的公司雇员,申请贷款[0043]网贷公司:(没有相关情感信息)[0044]句子4:[0045]张三:及时,信用额度增加[0046]网贷公司:(没有相关情感信息)[0047]句子5:[0048]张三:同意[0049]网贷公司:建议提前还款[0050]句子6:[0051]张三:困难,无法付款[0052]网贷公司:(没有相关情感信息)[0053]句子7:[0054]张三:延期还款[0055]网贷公司:延期还款,同意,催促,催债[0056]句子8:[0057]张三:(没有相关情感信息)[0058]网贷公司:(没有相关情感信息)[0059]句子9:[0060]张三:回忆,提供密码[0061]网贷公司:得到通话记录[0062]步骤4、根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;

[0063]步骤5、根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感,具体方法为:[00]步骤5.1、对每个实体的相关情感信息进行向量化,将情感信息转化为词向量,如图4所示;

[0065]步骤5.2、通过外部情感词语数据库对每个实体的相关情感信息附加短语极性,得到每个词向量的情感极性向量,然后将词向量和情感极性向量组合成为一个整体,再把每个句子中每个实体的所有相关情感信息全部整合成为一个整体,将每个实体所属的情感信息聚合体作为一个输入向量,如图4所示;[0066]本实施例中,句子1中实体“张三”的相关情感信息“逾期”可以转换为词向量[1,0,0,0],“逾期”为负面情感极性的词语,其向量形式为[-1],则将[1,0,0,0]和[-1]拼接成为[1,0,0,0,-1],然后再和该实体“张三”的其他相关情感信息进行拼接,如与“延期还款”的词向量与情感极性向量拼接的结果[0,1,0,0,-1]进行拼接,得到新的变量[1,0,0,0,-1,0,1,0,0,-1]作为该实体“张三”所属的情感信息聚合体;[0067]步骤5.3、构建LSTM神经网络结构;所述LSTM神经网络结构包括两层,第一层为实体层神经网络,第二层为句子层神经网络;所述实体层神经网络接受实体情感信息的输入,

6

CN 109325238 A

说 明 书

5/5页

时序记忆步长为句子数量*实体数量,并能够接受同一实体在不同句子下的情感信息;所述句子层神经网络接收实体层神经网络的输出,实体层神经网络中每实体数量个时序记忆步长之后的结果会作为句子层神经网络的一个输入,句子层神经网络最后会输出结果;[0068]步骤5.4、将步骤5.2构成的每个实体的输入向量输入到步骤5.3构建的LSTM神经网络结构的神经元中,利用LSTM神经网络结构对文本中各实体进行情感信息的聚合;[0069]所述利用LSTM神经网络结构对文本中各实体进行情感信息聚合,如图5所示,具体方法为:

[0070]将每个实体所属的情感信息聚合体作为某个句子下某个实体的相关情感信息输入到LSTM神经网络结构中,使每一个LSTM的时序记忆步长都记忆某个句子中某实体的情感信息;最后一个实体的隐藏状态会输入到句子层神经网络中的LSTM单元,而不是输入到下一个句子中的首个实体LSTM单元;通过句子层神经网络中的LSTM单元再对本句子中出现的实体和相关信息进行聚合,利于对聚合结果进行调整;且句子层神经网络中的LSTM单元是与句子层神经网络中的LSTM单元连接的,因此进行的都是句子层面的实体信息过滤,把每个实体在全文中的信息进行有效聚合;最后输出遍历了全文本后每个实体的相关情感信息聚合结果;

[0071]步骤5.5、根据每个实体的相关情感信息聚合结果并行判断步骤5.4输出的每个实体的情感极性,如图6所示,整个判断过程中,每个实体都是单独判断的,保持了结果判断的性。

[0072]本实施例中,通过LSTM神经网络结构对“张三”和“网贷公司”这两个实体的情感信息聚合体进行分析,最后输出的结果为[-0.347,-0.765];本实施例中,没有像常用的分类神经网络一样使用softmax等函数进行归一化等操作,而是使每一个输出值都代表了一个实体的全文本情感聚合结果;[0073]本实施例中,通过并行判断对每个实体的相关情感信息的聚合结果进行判断,可以判断得出“张三”的情感极性为中性,“网贷公司”的情感极性为负面。[0074]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

7

CN 109325238 A

说 明 书 附 图

1/4页

图1

图2

8

CN 109325238 A

说 明 书 附 图

2/4页

图3

9

CN 109325238 A

说 明 书 附 图

3/4页

图4

10

CN 109325238 A

说 明 书 附 图

4/4页

图5

图6

11

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务