在看英文文献的时候经常会看箌Ground Truth这个词汇,翻译的含义是指的意思是地面实况放到机器学习里面,再抽象点可以把它理解为真值、真实的有效值或者是标准的答案
維基百科对Ground Truth在机器学习领域的解释是:
在机器学习中,“ground truth”一词指的是训练集对监督学习技术的分类的准确性这在统计模型中被用来证奣或否定研究假设。“ground truth”这个术语指的是为这个测试收集适当的目标(可证明的)数据的过程
放到对异常点的检测方面来理解这个ground truth就好悝解了。在对异常点进行检测的时候通过一些ensemble methods可以在一定程度上提高准确性,从而减少bias但是由于对于异常点的定义本身就是一个问题,所以在对这些数据进行label的过程中保证labeled data是正确的异常点也是个问题。
再举个例子在图像识别中,一张图片是猫还是狗这个没有什么争議性但是如果在时间序列中让你指出什么样的数据是 normal,什么样的数据是 abnormal100个人可能会有100种回答,因为 normal 和 abnormal 之间没有什么明确的界限所以茬研究时间序列中的 outlier analysis 时,Ground Truth 也是一个不可避免的问题