上限分析通常能提供一种很有价值的信号或者说很有用的导向告诉你流水线中的哪个部分最值得你花时间。
举例:数值评价量度,字符准确度,图像中的文字识别正确的比例
上限分析的主要思想:
首先关注这个机器学习流程中的第一个模块文字检测,历每个测试集样本,然后人为地告诉算法每一个测试样本中什么地方出现了文字,即100%正确地检测出图片中的文字信息。然后继续运行完接下来的几个模块,也就是字符分割和字符识别,然后使用跟之前一样的评价量度指标来测量整个系统的总体准确度。假如准确定提升,则改进文字检测有机会可以整体提高系统的准确性。用标准的文字检测结果,同时用标准的字符分割结果,遍历测试样本得到准确率。
进行上限分析的一个好处是知道了如果对每一个模块进行改善 它们各自的上升空间是多大。
如果我们拥有完美的文字检测模块,那么整个系统的表现将会从准确率72%上升到89%,因此效果的增益是17%。这就意味着如果你在现有系统的基础上花费时间和精力改善文字检测模块的效果,那么系统的表现可能会提高17%看起来这还挺值得。但是系统表现只提升了1%,这便提供了一个很重要的信息告诉我们不管我们投入多大精力在字符分割上,系统效果的潜在上升空间也都是很小很小。