说起来,最近我在研究NBA历史得分这事儿,一开始就是瞎琢磨,想看看谁是NBA历史上最能得分的那个。就寻思着能不能自己动手,把这个数据给扒拉出来,整理整理,也算是个小小的个人项目。
第一步,找数据源。
我先是在网上各种搜,找那种比较靠谱的数据网站。找到几个,但是数据格式都不太一样,有的甚至还得付费。我选一个免费的,虽然数据有点乱,但是好歹能用。
第二步,数据清洗。
这步简直要命。那个网站的数据,格式乱七八糟,球员名字有的有缩写,有的没缩写,得分数据也是,一会儿一个格式。我得一点点地把这些数据给整理统一格式。这期间,我用好几个晚上,写好些脚本,才把数据清洗干净。主要是姓名对齐太费劲,各种手动调整。
第三步,数据分析。
数据整理好之后,就开始分析。我想把球员按照得分高低排个序,看看前几名是谁。这个用Python Pandas库很容易就实现。几行代码,就把得分最高的球员给找出来。当时看到詹姆斯排在第一,确实挺感慨的,这家伙真能得分。
第四步,可视化。
光看数据没啥意思,我就想把这些数据可视化一下,做个简单的图表。我用Matplotlib库,画个柱状图,把前十名的球员的得分给展示出来。这样一看,更直观。
第五步,记录。
我把整个过程都记录下来,包括数据源、清洗方法、分析代码、可视化图表等等。以后想起来,还能翻出来看看。也算是给自己留个纪念。
这回实践虽然简单,但是让我学到不少东西。数据清洗真是个体力活,但是也是最重要的一步。数据分析和可视化,能让我更好地理解数据。以后有机会,我还想做更多类似的项目,不断提升自己的技能。
我还发现,NBA历史得分这事儿,挺有意思的。像詹姆斯超越贾巴尔那会儿,真的是见证历史。能自己动手把这些数据整理出来,感觉自己也参与到历史中一样。我这数据可能不是最权威的,但是都是我自己一点点弄出来的,感觉就不一样。
- 找数据源
- 清洗数据
- 分析数据
- 数据可视化
还没有评论,来说两句吧...