通过统计得分来实现更好的方法

我有7000个数据实例。

我有这些实例人工评分(参考)。

我有不同的引擎来自动确定数据的分数。

我有一个Excel表格,每列描述了某个引擎的得分和一列手动得分的数据。

我想知道哪些引擎更接近人类的得分使用Excel的function,编程,或只是给我简单的math,我会解决它。

数据评分从-3.0到+3.0

我使用该应用程序的C#和.NET Excel COM库来访问Excel表。

-UPDATE-

从统计的angular度来说,描述错误的最好方法是什么,我的意思是人的分数趋于接近于中性(0),但是发动机的分数往往有偏差(高于1.5 +/-),我希望能够确定以正确的方式描述和夸大错误的最佳方程。

我会build议使用均方误差。 对于每个数据实例计算每个引擎的差异的平方。 这会夸大错误,并给出正数。 然后你为每个引擎取平均误差。 最低的是对人类“最接近的”估计量。

通常通过从人类分数中减去引擎分数,取绝对值,然后将所有7000进行求和。总和最小的引擎是最接近的。

如果每个数据点在相同的范围内,数据集之间的欧几里得距离应该足够好。 为了清楚起见,数据实例将被编号,并且引擎将被标注。 如果数据点i上的人给出的分数是H_i ,并且引擎a给出的分数是Ea_i ,那么对于引擎a的错误(如何“不闭合”给定的引擎)是:

 ERROR(a) = (H_1 - Ea_1)^2 + (H_2 - Ea_2)^2 + … + (H_7000 - Ea_7000)^2 

最接近的引擎是错误最小的引擎。