今天跟大家唠唠我最近搞的这个“库特罗内”的事儿,别想歪,不是真人,是一个小项目,折腾好几天,总算有点眉目。
是想搞一个球员数据分析的小玩意儿,毕竟平时也喜欢看看球。然后就寻思着,能不能自己抓点数据,分析分析。正好最近科莫这个队,因为法布雷加斯去,稍微关注一下,里面有个叫库特罗内的,感觉还行,就拿他开刀。
说干就干,先是找数据源,这可费老劲。网上能直接抓的免费数据,要么不全,要么不准。后来还是找个收费的API,先试用一下,数据还算靠谱,咬咬牙,买。
数据有,下一步就是怎么把数据弄下来,存起来。我寻思着用Python写个爬虫,简单粗暴。之前也写过一些,不算难事。噼里啪一顿敲,代码是写出来,但是跑起来就各种问题。
一开始是请求太频繁,网站直接把我IP给封。后来加延时,总算能跑,但是数据量一大,又开始出错。不是内存溢出,就是编码问题。各种Google,各种Stack Overflow,debug到半夜,头发都快掉光。
后来发现,是我自己写的代码太烂,各种循环嵌套,效率低得要死。没办法,只能重构。把一些不必要的循环给优化掉,用多线程,总算能跑起来。
数据抓下来之后,存到哪里又是个问题。一开始想用MySQL,但是感觉太重,后来还是选择MongoDB,方便快捷。
数据存好,下一步就是分析。也没啥高深的,就是一些简单的统计和可视化。用Pandas和Matplotlib,画一些折线图和柱状图。
分析结果嘛也没啥特别的。库特罗内这哥们,数据上来看,就是个普通前锋,速度不快,技术一般,但是跑位还行,射门感觉也还可以。也不知道科莫怎么想的。
不过通过这回折腾,也学到不少东西。一是数据抓取没想象的那么简单,各种坑。二是数据清洗很重要,不然分析结果就是瞎扯淡。三是Python是真的好用,各种库应有尽有。
这回“库特罗内”项目,虽然没啥实际意义,但是也让我过把瘾。以后有机会,再搞点更复杂的。看看能不能搞出点名堂来。
还没有评论,来说两句吧...