今儿个心血来潮,想搞搞英乙的积分榜数据,咱也来体验一把足球数据分析师的感觉。虽然咱不是专业的,但谁还不能有个爱是不?
开干之前,我先在网上搜一圈,想看看有没有现成的、干净的数据。毕竟能偷懒的时候,谁愿意辛辛苦苦从头做?
结果,还真找到一些!但问题是,这些数据要么不全,要么格式乱七八糟,看得我头都大。有的网站只显示排名和积分,有的,又把胜平负场次、进失球都混在一起,简直……
整理数据的漫漫长路
没办法,看来只能自己动手,丰衣足食。我打开几个不同的网站,开始手动复制粘贴。你别说,这活儿还挺考验耐心的。一会儿要对比这个网站的数据,一会儿又要看看那个网站有没有更新,眼睛都快看花。
复制完数据,我把它们都粘贴到一个Excel表格里。你猜怎么着?格式乱得跟一锅粥似的!有些球队的名字对不上,有些数据还串行,真是让人抓狂。
就是更磨人的数据清洗工作。我开始逐行逐列地检查,把球队名字统一,把错位的数据归位,再把一些不必要的空格和符号删掉。这感觉,就像在玩“找茬”游戏,只不过这“茬”也太多!
初见成效
经过一番“奋战”,数据终于看起来像点样子。我按照积分给球队排个名,然后又分别统计主场和客场的积分榜。看着整整齐齐的数据,心里还是有点小成就感的。
我发现,有些球队在总积分榜上排名靠前,但在客场却表现平平。看来,主场优势还是很明显的嘛
我还注意到:- 沃尔索尔这队挺猛的,目前积分最高。
- 诺茨郡和布拉德福德城积分一样,竞争挺激烈。
- 有些球队的进球数和失球数差别很大,这也能反映出他们的战术风格。
这只是个初步的整理结果。要想深入分析,还得花更多功夫。比如,可以计算一下各队的净胜球、胜率等等。不过今天就先到这儿,眼睛实在是有点累。
这回实践让我体会到数据整理的不易。虽然过程有点曲折,但看到自己整理出的成果,还是挺开心的。下次,我打算试试用Python来自动抓取和处理数据,希望能更轻松一些!

还没有评论,来说两句吧...