特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。

全文概要

2018俄罗斯世界杯正在如火如荼的举行,各种比赛预测多如牛毛,就在前两天看到一篇AI预测世界杯赛事很火,就自己也就尝试了一下,但是发现用机器学习模型预测比赛有几个问题。

● 第一:以国家为主体去预测听起来没毛病,但是一个球员的生涯最多15年,那么每支球队的球员其实在不断变化的。

● 第二:那么就算球队的球员是固定的,那么也只能取近15年的比赛作为样本,历史近15年32支球队互相交锋的场次并不多,满足不了机器学习样本数量要求。

所以放弃了预测的念头,就比较简单粗暴方法,分析了一下各队的性价比,话不多说先上图,快速预览请直接看黑体加粗。

看图说话

2018世界杯数据分析——让你知道谁才是真正的黑马!!

● 横轴:是当前国际足联官网披露的世界排名,X轴刻度做了归一化处理所以可以忽略,越靠右世界排名越靠前,当前德国是世界排名第一。

● 纵轴:是统计近10年32支国家队互相比赛的胜率,越往上胜率越高(比赛的场次与对手可能会造成统计偏差,这里作为次要参考依据)

● 大小:表示球队的总身价,本届世界杯总身价最高的3支球队分别是,法国10.8亿欧元、西班牙10.4亿欧元、巴西9.5亿欧元

由于图太大,很多国家标签没有显示,那么拆分成左右2块细看一下。

● 左侧(综合实力较弱)

2018世界杯数据分析——让你知道谁才是真正的黑马!!

● 右侧(综合实力较强)

2018世界杯数据分析——让你知道谁才是真正的黑马!!

● 现在可以清晰的看到,像瑞士,丹麦等总身价非常低的球队,其实在近年国际比赛中有着不错的表现。有可能成为本届世界杯夺冠的黑马。

● 夺冠热门大多为总身价较高的球队,如西班牙、巴西、德国等第一集群阵营中,在第一集群整阵营出现了比利时的身影无论从总身价还是近年国际比赛表现都相当好,比利时也很可能成为夺冠黑马。

2018世界杯数据分析——让你知道谁才是真正的黑马!!

再来看下32支球队分布的情况,欧洲、美洲明显占据绝大区域。

好了~!分析一波就到这里了,剩下的大家自己看图分析吧。

制作过程

其实做分析制图我想肯定很多人会,但是要收集原始数据我想就筛掉70%的人了。

数据采集

1. 在Kaggle上获取数据集,上面有从1872年到2018年的所有世界足球比赛结果数据(但是需要翻墙)

[官方链接:International football results from 1872 to 2018](International football results from 1872 to 2018)

2018世界杯数据分析——让你知道谁才是真正的黑马!!

2. 用Python抓取FIFA国际足联官方网站,排名,身价等(当然也就32个队伍,百度搜一下复制黏贴也是可以的)

[官网链接:2018 FIFA World Cup Russia™ - Players - FIFA.com](2018 FIFA World Cup Russia™ - Players - FIFA.com)

2018世界杯数据分析——让你知道谁才是真正的黑马!!

数据清洗:

1.在制作的时候你会发现数据有问题,官网抓取的国际实际上和Kaggle上下载的数据集国家英文关联不上

2.Kaggle的数据存在主客场之分,所以你要不区分主客场把数据清洗成1个队伍的并且进行统计和计算

2018世界杯数据分析——让你知道谁才是真正的黑马!!

数据可视化:

到这一步就非常简单了,把清洗完生成csv选用BI神器TABLEAU进行制作即可(TABLEAU是收费的有点小贵,可以淘宝自行购买CDKEY,也可以选择POWER BI、帆BI等免费工具),你也可以用matplotlib、seaborn、pyecharts可视化库来制作。

2018世界杯数据分析——让你知道谁才是真正的黑马!!

最后再亮一下整理出来的本届世界杯32支球队的数据集

2018世界杯数据分析——让你知道谁才是真正的黑马!!

到这里就全部完成了,期待下一次分析请点关注,喜欢点赞~ !谢谢!