– 理解预期进球
– 使用预期进球来预测足球比赛结果
– Dixon-Coles模型分析
2023年6月16日
体育博彩行业对于“预期”这一概念早已如数家珍,尤其是“预期价值”,至少在那些不仅仅将体育博彩视作一种休闲方式的博彩玩家心中是如此。
投注有赢有输,但很多时候只不过是运气在作祟。
然而,从长期上看,知道自己预期价值的博彩玩家的确能够估测出自己在大量投注中的预期盈利。“预期”不过是“算术平均数”或“均值”的另一种说法。
近几年,“预期”这一概念以预期进球(xG)的形式进入了足球世界。预期进球是一种衡量表现的指标,通过为可能成功破门的进球机会分配一个概率来评估足球球队和球员的表现。
具体通过使用等效机会的历史数据和进球转化率计算得出。因此,一次进球机会的预期进球将介于1至0之间。
此外,通过将比赛中的预期进球和一定数量的进球机会相加,还可以得出比赛本身的预期进球,或者比赛中每支球队的预期进球(更为常见)。
预期进球更为真实地反映出了球队在比赛中的表现水平。
从理论上说,和实际进球数相比,预期进球更为真实地反映出了球队在比赛中的表现水平,以及一支球队相对另一支球队的优势程度。
进球存在一定的运气成分(统计学家称之为“噪音”),而比起球队的预期进球,使用实际比分来预测球队在下一场比赛中的表现可能更加不可靠。
从某种意义上来说,进球如同博彩中的输赢,而预期进球就好像博彩中的预期价值。如果真是如此,那么我们能否使用预期进球(而不是进球)来预测足球比赛的结果,从而通过投注获利?
进球和预期进球的对比
在尝试预测未来比赛的结果时,进球和预期进球的相对有用性到底如何?《Soccermatics: Mathematical Adventures in the Beautiful Game》的作者兼数学家David Sumpter在这一方面提供了一些指引。Sumpter简明扼要地说明了从进球数据中找到预测信号的困难程度。
“从统计学角度看,很难分辨出足球比赛结果到底是噪音还是信号。这一点的数学解释可以直接从泊松分布中找到。足球进球呈现泊松分布,球队平均进球数大约在1.4粒。泊松分布中的方差和平均数相等。标准差是1.4的平方根,即1.18。因此,噪音(1.18)只比信号(1.4)小一点点。”
相比之下,预期进球衡量的是创造出的机会,所以和进球相比,它能够更好地衡量一支球队在一场比赛中的表现水平。
通常,这个数据所含的噪音更少,信号更多。对于进球和预期进球而言,研究的比赛数越多,比赛结果中的噪音都越少。然而,对于预期进球而言,相比进球,比赛结果中的噪音一开始减少得更快。
Sumpter利用这一信息,向读者推荐了在尝试预测未来比赛时应该关注哪些数据。如果只有一两场比赛,那么比赛报告本身提供的信息最有用。
另一方面,如果是超过15场或大半个赛季的比赛样本,那么进球数据也许会和预期进球一样可靠。
这当中的噪音仍然会更大一些,不过二者之间的差异很小。另外,进球代表的是事实(已经发生的情况),而预期进球则是进球机会的概率模型。如果不准确,那么它可能确实比进球数据更不可靠。
从使用预期进球作为预测工具的角度来看,在这些极端情况之间存在着一个令人兴奋的领域。Sumpter认为,预期进球报告在三到六场比赛之间最为有用,而如果是7到15场比赛,那么更有用的预测方式可能是比较进球和预期进球。
在本文中,我构建了一个预期进球预测模型。该模型使用一支球队最近参加的六场比赛,来评估它能否用于帮助博彩玩家在投注中获利。
Dixon-Coles模型
1997年,兰卡斯特大学的Mark Dixon和Stuart Coles在《应用统计杂志》上发布了迄今为止记录最详尽的足球比赛预测方式。
这种方式不出所料地被命名为Dixon-Coles模型。它通过比较每支球队和联赛均值(已经打完的一定数量的比赛)相比的进球和失球数据,提出了进攻实力和防守实力的概念。
然后,它会将这些数据用于预估每支球队在下一场比赛中的预期进球数。
最后,它将使用泊松分布来计算出每支球队的进球总数概率,其中预期进球数为分布的平均数。Pinnacle的网站上之前曾发布过一篇解释这种方法的文章。
在本文中,我对这个模型进行了调整,将进球改成了预期进球,我将使用最近六场主场或客场比赛的数据,计算出进攻实力和防守实力。我使用的数据包括英超、法甲、德甲、意甲和西甲联赛2015/16至2019/20赛季的比赛。
我将主客平比赛结果的预测概率转换成了隐含的公平投注赔率,然后与Pinnacle的收盘赔率相比较。
如果后者更高,这就代表预测模型的理论价值。然后,我将价值投注与结果进行了比较。
下表中显示了模型从18,006个潜在机会中识别出的7,795个价值投注机会的利润时间序列。等额投注方法的利润为-5.0%。相比之下,如果在18,006个机会上统统盲目押下一个单位的注额,则损失为-4.3%。考虑到该样本的平均预期价值为38.9%,将这一结果视为不达标都实在过于轻描淡写了。
模型的潜在无效性
这个模型失败的第一个线索,也许就是平均预期价值的数值本身。
在平均赔率为4.69的情况下,如果占所有潜在机会超过三分之一的投注的平均预期价值接近40%,那么这在很大程度上说明,和Pinnacle的实际赔率相比,隐含的公平投注赔率中存在巨大方差。
模型预测使用的预期进球值和所预测的比赛的实际预期进球值之间的相关性图表为此提供了佐证。
噪音太多;建模的预期进球并没能很准确地预测出一支球队的实际比赛预期进球。
该模型失败的根源可能更难解决,因为其中可能至少存在四个问题。首先,使用Dixon-Coles模型来预测足球比赛进球可能存在固有缺陷。该模型最核心的泊松分布假定进球是独立存在的;也就是说,一粒进球不会导致下一粒进球。
然而,这忽略了球员和球队心理因素的影响。落后的球队可能会比之前更有动力去扳平比分,而打平的球队也许会更有动力进球破局。
- 在体育博彩中什么才是好的投资回报率?
如果真是如此,那么认为进球只是随机发生的观点绝对值得质疑。
Dixon和Coles本人曾报告称,他们最初的预测模型所报告的低比分结果(0-0、1-0、0-1和1-1)不足。为了证实这一发现,我分别对我模型预测出的预期进球和实际比赛预期进球数据重新进行了从低到高的排序,并在下图中绘制出了它们之间的人工相关性(实线)。
很明显,实际发生的低预期进球比分比我的模型预测的要少,而高预期进球比分则比实际(虚线)的要多。
Dixon和Coles在进球方面的这一发现似乎也适用于预期进球。这并不太出人意外,因为比赛进球和比赛预期进球在大量数据样本中确实存在很高的相关性。
第二个可能的错误来源是预期进球模型本身。在我的数据样本中,总预期进球是比赛实际进球数的97.8%。尽管两者看起来极为接近,但很难判断这个差值是否足以影响预期进球预测模型的有效性。
- 博彩玩家可以从季前比赛中了解到什么?
第三个错误来源可能是我在计算Dixon-Cole进攻实力和防守实力时选择的近期比赛数量。
由于上文中提到的原因,我选择了六场比赛。或许不同的比赛数量(更多或更少)会更适合这一模型。
这样的调整相对容易实现,不过这需要完全重新运行模型,我就不在本文中进行这一操作了。
另外就是,这六场比赛都分配到了相同的权重。Dixon和Coles意识到了在计算平均实力时,更近期的比赛应该获得更高的权重,因此在后期版本的模型中引入了这种权重分配方式。
同样地,我也可以建模这一功能,但鉴于过程太过耗时,我并没有这样做。
在尝试通过预测足球比赛来获利时,我的模型还有最后一个而且可能更为本质的问题。
撇开其他所有可能的错误来源不谈,即使是一个优秀的、比我的模型好上千百倍的预期进球模型,都可能无法确定非随机性的利润,因为它就是无法和博彩公司用于设置赔率的模型相提并论。
鉴于Dixon-Coles这个模型的相关记载极为详尽,而目前预期进球是一个广泛使用的指标,博彩公司的赔率中很可能已经纳入了这一预测方法能提供的所有信息。
互相比赛技能的战场
体育博彩和与其相关的竞技体育运动非常类似。其中涉及到两方或多方之间相互比较技能,看看谁最擅长预测未来。
他们的预测能力越强,对于真实结果概率(以及投注赔率)的评估就越可靠,也越有效。一旦犯错,钱包就会受到惩罚。
Pinnacle堪称业界最优秀的数据分析博彩公司,他们拥有极为可靠的预测模型,比我的这个模型优秀得多。我们都知道,有的Pinnacle客户可能会获得非随机性的利润,但我之前也已经探讨过,这种客户有多少见。
如果Pinnacle是预测模型中的阿斯顿维拉,那么这些精明敏锐的客户就更像是利物浦或曼城。当然,你可能会有一个比较好的模型,也许是雷丁或德比,它足以让你做出不错的预测,但应该没有好到能持续不断地打败最佳模型。我的这个模型可能都没法在依斯米安联赛中使用。
在构建预测模型时,预期进球也可能是一种有用的资源。
至于能否通过有效使用预期进球数据来从足球投注盘口中赚钱,问题是,预测模型提供的概率反映的是输入模型的信息的质量。
预期进球也许真的能在构建预测模型时提供有用的数据资源,但如果Pinnacle已经在自己的模型中纳入了这些信息,再加上我无法获得的其他有用信息,那么我的预测模型就不会比他们的强。
我的预期进球数据提供的所有信息都已经包含在了他们的赔率中。这就好比肯维岛和阿斯顿维拉打比赛一样。
如果Pinnacle(以及其他博彩公司)已经在自己的预测和赔率设置模型中纳入了预期进球数据(考虑到这些数据很早之前就在网上随处可见,这很有可能),那么我能否比他们更好地利用这些数据实在存疑。
不过,我到底能不能通过预期进球数据在足球投注中获利呢?和用于博彩目的的所有其他形式的数据分析一样,答案取决于你如何使用它。而且你使用它的方式必须比博彩公司目前的方式更好。你可以在此关注Joe的Twitter帐号,或者在此查看我们的“博彩资源”页面,随时了解他的出色见解。