昨天講到政客專家預測政治事件如何偏頗,今天應該講講預測準繩的例子,就講講世界盃的預測吧。
世界盃開賽前,有財經網友問我估那一隊贏,我話無乜心水,夾硬估就估德國啦。哈,結果真係德國奪標! 但我並不是想吹噓自己估得準確,我不是球迷,亦無研究,只是靠估而矣,估中運氣成份大於一切,唯一可堪足道的是我知道自己唔識,全無信心,而標準球迷估那一隊奪魁,反而信心滿滿。
微軟的個人語音助手Cortana預測巴西世界盃的賽果是15場估中、只有1場估錯,戰跡輝煌。微軟對世界盃的預測考慮眾多因素,包括比賽歷史、地理位置、草地、天氣、群體預測智慧,再參考博彩市場、民意調查、社交媒體資料,加上歐洲有名的賭彩指數Betfair指數,來構築預測模型,大數據味道十足。不過微軟的Cortana機械人預測賽果時也會考慮主場優勢,結果在季軍戰巴西對決荷蘭中認為巴西會取勝,她就是在這一場留下了汚點。
科技界另一巨頭谷歌也有玩這一個遊戲,但它參考的數據不一樣,它從Opta Sports的資料中,找出各足球聯賽和世界盃分組賽中球員的表現,引入了實力排行榜系統,用來推測各隊球員在世界盃的表現,亦有考慮主隊優勢,結果在16強入8強,以及8強入4強的兩輪比賽,在12場預測中有11場正確,但在8強賽最關鍵的德法決戰時預測錯了,這個錯誤比微軟大,因為最後德國拿冠軍啊。
雅虎也有玩這個預測遊戲,但它的焦點在於博客文章,認為在微博Tumblr上所有世界盃的討論都是價值的資訊,雅虎的科研小組就從831億篇Tumblr微博客中篩選出1.9億篇文章,再將注意力集中在2730萬篇與世界盃相關的博文,利用概率論中的「泊松分佈」來估計每一支隊伍的入球數。你唔好俾呢啲名詞嚇倒,雅虎預測唔係幾掂,佢估西班牙將擊敗荷蘭,而最後的冠軍是巴西,可惜西班牙和巴西都輸到七個一皮,證明雅虎的預測雖有大數據特色,但找錯參考資料,社交網路資料只反映群眾的集體錯誤。
當然傳統估計就更弱,可以以高盛為代表,高盛有全世界最叻的經濟學家和金融分析師,佢用自1960年以來14000場球賽資料,構建出預測模型,是傳統的統計分析,並無大數據的特點,用了證券行傳統的演算模型,佢預測小組賽的準確度只有37.5%,並在世界盃開始前,預測巴西最有可能斬獲世界盃冠軍,奪冠幾率為48.5%,比任何參賽球隊高3倍。甚至估計決賽是巴西將以3比1的比分,戰勝宿敵阿根廷,錯到有啲無譜。
從幾個世界杯預測中可見,傳統預測不及科網時代的大數據預測,但找大數據都要找對數據作為參考,更重要的是命中率最高的微軟研究院並無成見,不斷用上一場賽果修正對下場比賽的預測。微軟早期預測仍然可以錯得離譜,佢地早在去年12月聲稱開發了一款Excel軟體,用大數據來預測2014年世界盃,結果估計巴西贏冠軍,取勝率達到22.5%,後來以巴西7比1輸俾德國,證明呢個預測差距都幾遠。
機械人預測的一個優勢是沒有偏見,而不會因為期望一件事情出現,而主觀地排斥其他可能性。任由偏見引領去行動,危險極大。
盧永雄