信息检索基本评价指标-P·R·F

任何研究都需要有一个客观的评价体系,信息检索系统也不例外。但是对于一项需要在实际生产生活中应用的系统,其评价导向又必须包含一定的主观性。

信息检索系统性能的两个基本客观指标是 召回率(Recall Rate)准确率(Precision Rate) 这与绝大多数的模式识别技术相同。

召回率和精度是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中召回率是是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。

概念公式

召回率 = 系统检索到的相关文件 / 系统所有相关的文件总数

准确率 = 系统检索到的相关文件 / 系统所有检索到的文件总数

运用图示表示如下
召回率,准确率,F-measure

召回率,准确率关系

由于信息检索系统返回的是一个排序的文档集合,因此召回率与准确率是互补的。设定不同的相关性得分门限就能够得到相应的准确率与 召回率。如果我们在以准确率为Y轴,召回率为X轴的图上画出不同门限下的准确率与召回率,一般它会程下面的形状:

召回率 准确率关系

那么,对于系统的评价指标就存在一个问题,如果一个系统偏重与给用户最准确的结果,那么高的准确率是必要的,反之,如果系统 希望包括尽可能多的相关结果,又会偏好召回率。系统如果简单的用召回率或准确率对系统性能作评价,无法评估系统的理想性能的。

F-meause值

模式识别中常用F值作为性能的评价指标,其定义为以召回率R与准确率P为基础:F=2PR/P+R。

F值以平衡地反映召回率与准确率,但是在信息检索中仍然不是非常实用,因为它仍然是一个单点的指标,没有反映全局特性

平均准确率(mean Average Precision, mAP):

mAP是为解决P,R,F-measure的单点值局限性的。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线。

Mean-avg-prec

可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。

从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。更加具体的,曲线与坐标轴之间的面积应当越大。最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标,

平均准确率mAP

其规范的定义如下:(其中P,R分别为准确率与召回率)

mAP

一般在做评价时取得的准确率与召回率都是离散值,因此一般在计算时都采用求和而非积分.

mAP是一个较好的客观评价指标,但是它也有一个缺陷,那就是

缺乏直观性,是一个系统的总体性能评价指标,但无法反应区段间的变化。因此在系统评测时常常还是要附带上准确率-召回率曲线

单值评价指标N-Best

在实际应用中,还有一些单值评价指标,能够反映系统的主观性能。其中最常用的是N-Best准确率。一般系统的返回结果都采用分页显示,用户一般 不会翻看太多页,从实际应用的角度看,前几个结果在检索中是最为重要的。N-Best准确率可以很好的反映这个性能。

参考