基于排序的评价指标
TODO
2 基于分类的评价指标
2.1 document-pivoted binary
针对每个document来画混淆矩阵。
针对document来画: 若预测集合为PS,真实集合为GS,所有的label的集合为LS,则:
- TP为预测为真(在PS中)的且预测正确(在GS中)的标签个数
- FP为预测为真(在PS中)但是预测错误(不在GS)的标签个数
- FN为预测为假(不在PS中)但是预测错误(在GS中)的标签个数
则对单文档,precision(预测中正确的个数)即
recall为(找出的正确的标签占总的gold的比例)
之后可以使用Macro或者用Micro的对所有文档进行混合。Macro-averaging就是先算F1值,再进行平均。
换一个思路, 若label空间维度为N,将对单文档的评价看作是对N个instance进行二元分类,此时混淆矩阵的计算的TP,FP,FN与之计算结果完全一致。也就是说Macro-F1对每个文档是权值相同的。
若是将所有M个样本看作是M*N个instance的二分类,整体画混淆矩阵,计算的结果就是documnet-pivoted binary的Micro-F1 score。(Micro-F1是先把混淆矩阵对应位置元素加起来再计算F1,此时拥有标签更多的文档容易占据更多的权重)
2.2 label-pivoted binary
针对每个label来画混淆矩阵。
抽取标签为的样本计算混淆矩阵。其中,gold为在所有M个样本中gold标签集中出现的样本集合,predict为在M个样本中predict标签集中出现的样本集合。
仿照上述,依此两个集合计算混淆矩阵的值。