从代码入手,使用单步调试的方式,来理解评测指标。
1.main函数
1)可配置的命令行参数
2)统计数量
3)计算评测指标
2.理解评测指标
1)需要进行统计的统计量(使用了两个句子的数据进行单步调试,得到对应下面变量含义的理解,单步调试过程进行了文档整理,但过于长,就不贴图了)
2)计算
总的评测指标计算如下,分类别的计算方式相同。
按类别计算的分析(主要是分析每种类别最后多跟的那一个数字)
3.将python评测脚本放入代码中
1)使用下图的report函数
2)利用上图框出来函数的返回值
3)写入文件,与原有代码进行适配
4.两处改动
1)输出的预测文本中,把不在类别中的大写O被改成了数字0,并且基于python的评测指标计算也是基于大写O,因此对此做修复,进行如下改动。
2)在评测结果中,增加了每个类别的真实实体个数和预测完全正确实体个数的展示
补充:使用python脚本,与perl脚本有一点不同,统计的token不同,原有会将空行也统计进去,当然这个不同之处的影响也就只有accuracy的计算。