打印

[转贴]有关埃罗模型(ELO model) 的研究--强队和弱队到底差多少?

把本帖网址贴到网络上任何地方,都可以获得下载资源的金币 详情请点击这里
http://bbs.ehesh.com/viewthread.php?tid=165&fromuid=0 复制本帖地址

[转贴]有关埃罗模型(ELO model) 的研究--强队和弱队到底差多少?

RateForm的概念,最早由Professor Elo在「The Rating of Chessplayers」一书中提出,用以从比赛结果中公平地分析强者与弱者的真正实力差距,其后在「The Punter's Revenge」一书中被Tony Drapkin和Richard Forsyth引用来预测足球赛果,并广泛沿用至今。其基本运作如下:
  1. 每队在季初均获的一相同的固定底分 (e.g. 1000)  
  2. 主队及客队各投入其底分的某个百分比进「彩池」内,主队投入的百分比较高以反映「主场之利」 (e.g. 主队7% vs 客队5%)  
  3. 胜方获得「彩池」内的全部分数  
  4. 打和时双方平分「彩池」内的分数  



      研究ELO模型已经有一年多的时间, 期间曾经在网上找过很多有关ELO系统的资料,绝大部分是英文资料, 中文的资料好像只有本版的几篇文章有介绍. 不过发现在手头上有的资料当中,都并没有对埃罗模型在预测足球比赛方面进行深挖和拓展. 「The Punter's Revenge」一书是86年出版的(以下简称书), 20年时间其中的elo模型似乎没有什么发展, 甚至连书中所阐述的几点原理都没有人做过解释.  现在就我建立ELO模型的思路作一个说明, 算是给国内研究ELO模型的朋友一点参考.

     elo模型是一个相对封闭的系统 ,它最基本的特点是公平原则.

      elo模型在季初对于每队球队都赋予相同的等级分(一般是1000), 就是说在赛季初每支球队的起步线是相同的, 球队通过比赛才能体现出自身的实力. 换一个角度,我们把球队看作拳击手,每场比赛比赛看作是拳手之间的比赛. 赛前双方均要下一定数额的筹码, 根据比赛结果, 重新分配财富. 通过一系列的比赛,财富越多的拳击手, 则实力越高.

    1. elo模型的四个重要参数

        实际上elo模型的建立中, 有四个重要的参数:主队主场等级分,主队综合等级分,客队客场等级分,客队综合等级分. 另外有一个关键点就是球队的主场等级分和客场等级分是独立计算的,主场等级分的变化不会影响到客场等级分,而它们只会共同影响到球队综合等级分.  其实等级分是实力的另外一种表现形式, 不但在elo模型, 就我所知lota模型中主队主场实力,主队综合实力,客队客场实力,客队综合实力等是计算主客实力差的重要参数.  在计算过程中,主队主场等级分与客队客场等级分是相关的, 主队主场等级分的增加(减少)=客队客场等级分的减少(增加).  但主队综合等级分的增加(减少) ≠  客队综合等级分的减少(增加)。

    2.投入分配系数,等效得失球数,Poisson函数

        前面说过两支球队在交锋之前必须要投入一定的筹码,应该怎样分配投入比例才公平呢?比赛有主客场之分, 主队拥有场地,球迷,心理等等的优势, 因此需要模拟的数额比例一般情况下要高.  在统计过世界范围内50000多场足球比赛数据后发现, 主队的进球数与失球数之比约等于7:5, 净胜球约为0.38球.   具体到英超联赛,根据统计威廉,立博对英超比赛开盘的平均等价让球约为0.34左右. 就是说当两支等级分为1000的球队比赛,主队的主场优势为0.34球.  这里不得不提到净胜球和等级让球的区别,在我印象中B版曾经谈过类似的话题,但可以很容易理解得到,球队面对不同的对手净胜球的能力是不同的,所以净胜球≠ 等价让球。 这里我要提出一个观点, 书中所说的投入比例7:5是基于总体平均入球数与失球数之比得出, 把所有主场球队和所有客场球队分别看作两个整体,则它们之间的平均实力差≈0.38。 但实际情况是比赛双方球队的实力差往往不等于0.38,因此它们模拟的比例不可能总是7:5。 既然双方赛前“模拟”的比例与得失球数有关,那么在我的设计理念中就引入等效得失球数这个概念。

      说到等效得失球数必须提到poisson函数的应用,下图是等效得失球数与主客得失球数的关系。


等效得失球是poisson函数的衍生产物,其决定因素分别有主队主场进球数,主队主场失球数,客队客场进球数,客队客场失球数,主客实力差,中值和平局率等等。 其中最关键的是主客实力差,因为它主宰着比赛概率的分布。在我设计的模型中两队投入的分配系数就是等效得(失)球数占总体的百分比。

    3.主客实力差
  
       这是许多足球预模型都涉及的因素,同时也是lota模型的核心之一,现在很多做模型的人想方设法就是要计算出主客实力差这个问题。与lota模型以得失球数为基础不同,elo模型计算实力差是用等级分差来计算的,不过实际上在计算等级分过程中依然需要用到得失球数作为计算参数。

===============================
云雾山人出品:
关于ELO模型,很早以前用过,网上转帖的也很多,就不再叙述了。
关于ELO等级分系统,一般认为是一个相对封闭的系统。作为足球预测模型来讲,每个赛季初,大家都站在同一个起跑线上。既每支球队最初的ELO等级分都是1000分。
这就给赛季初期的预测带来了麻烦。一般要等十几轮比赛过后,数据才可使用。随着比赛数据越多,计算相对也越精确。
我曾经对[单调一索男]说过:“应该可以经过处理把历史数据连贯起来”。经过这几天的试算,做了这个英超2006-2007赛季的ELO等级分参考图。与[单调一索男]分享。




从图中可以看出,要想使用好ELO模型的话,必须打破常规,首先处理好数据的连贯性。事实上,在联赛初期,各队的ELO等级分并非都是1000分。

对比主流博彩公司的夺冠赔率,图中算出的新赛季英超ELO等级分,还是有一定的参考价值。
因时间关系,未验算英超以前的情况,以及其它联赛的情况。

TOP