老化曲线与相似分数(3)

相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立PECOTA预测系统的雏形。这一系统是由五花八门、内容丰富的Excel电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10 000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

PECOTA预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但PECOTA并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

读书导航