文本情感分析概述

nlu

文本情感分析(Sentiment Analysis): 又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析。(右图参考论文[2])

应用背景与意义: 互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等. 基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

本文主要介绍情感分析所要涉及的两个基础概念方面,情感分类主客观识别,情感信息提取,主客体的识别,与情感信息的计算。

情感分析概述

层次分类:

  • 按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次
  • 按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析等

以下主要从情感分析的几个需要考虑的问题做阐述:情感信息的抽取情感信息的分类

sentiment

情感信息的抽取

情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.

其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务。

有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象 (如GPS,屏幕分辨率)、观点持有者 (如国家政府、台湾当局)

总体三部分:

情感分析主客体结构

评价词语的抽取和判别

即为评价词语的识别和极性及度量判断,评价词语的抽取和判别往往是一个一体化的工作:

主要分为基于语料库和基于词典两种方法

基于语料库的评价词语抽取和判别

主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.

优缺点: 基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳

基于词典的评价词语抽取及判别方法

主要是使用词典中的词语之间的词义联系来挖掘评价词

优缺点:难度较大,词典的更新程度决定词义分析

评价对象的抽取

评价对象是指某段评论中所讨论的主题, 具体表现为评论文本中评价词语所修饰的对象

可参考一下两种

基于规则/模板的方法抽取评价对象

规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等.相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式

优缺点:在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.

基于对象归属

一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖”是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词“scanner has”)之间的关联度来获取真正的评价对象.

优缺点:实验效果超过了基于规则/模板的方法,但难点在于领域指示词的获取.

评价对象在产品服务专栏评论,如大众点评评论中,一般可以以默认当前产品作为用户的评价对象。

观点持有的抽取

观点持有者的抽取目的在于辨别情感文本的意见主体是谁,比如在美国大选中,需要甄别,那一部分群体支持,那一部分群体赞成,

  • 借助于命名实体识别技术来获取观点持有,类似于词典分析法者
    • 优缺点:较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.
  • 将所有名词短语都视为候选观点持有者
    • 使用ME(maximum entropy)模型来进行计算.
  • 将观点和观点持有者的识别作为一个任务同时解决
    • 在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.

产品评论中一般默认观点持有者是用户本身,因此很少有研究者在产品评论领域研究这一任务。

组合观点持有的抽取

组合观点主要考虑到现实情形中,用户的评价存在领域方向的针对性,以及存在多个评价客体的比较等更复杂也普遍存在的场景考虑。

评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下3 个句子中的使用:

  • Sen 1:凯越的油耗真高.
  • Sen 2:捷达的性价比相当高.
  • Sen 3:这辆车有1米多高.

Sen 1 和Sen 2 是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如,“高”在Sen 1 中表示贬义,而在Sen 2 中则表示褒义.

此外,评价词语往往也会出现在非情感句中,如Sen 3.

因此,仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油耗-高”、“性价比-高”)对于处理情感分析的上层任务更有帮助. 另一考虑途径是对产品的子类别划分,按照油耗节能,总体性价比,等分别进行用户情感评估。

可以由以下两方面考虑

主观表达式的抽取:

从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式

评价短语的抽取:

评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而 成,如“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元。

情感分类

情感分类首要的是对文本的主客观性进行甄别,在新闻,个人博客,以及电影评论中都会涉及到一些客观是事物描述,比如电影评论中涉及到对电影中的剧透,这些客观的描述潜在会包含情感词,而不能作为用户的情感计算。

主、客观信息的分类可以参考如下两种方式:

  1. 通过考察文本内部是否含有情感知识(具体表现为情感信息抽取的结果)来完成主客观信息分类
  2. 将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.

主观信息最简化分类

一般而言,情感最简化建模为将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?).

两种方法基于情感知识的方法以及基于特征分类的方法

  1. 基于情感知识:主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算
  2. 基于特征分类:主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务.将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.

注: 全本主要针对文献[1]按个人观点整理补充而成,仅供学习参考

参考文献:

  1. 赵研研等,《文本情感分析》,Journal of Software,2010
  2. Hongning Wang, Y.L.C.Z. , Latent Aspect Rating Analysis on Review Text Data. 2009.