Stockton工作机会多吗？这几个行业发展潜力大！

今天跟大家聊聊我最近在“stockton”这个项目上踩的一些坑和一些心得，这名字听起来有点怪，就是我们内部一个代号，别在意哈。

最开始接到这个“stockton”项目的时候，我有点懵。需求文档写得那叫一个天花乱坠，各种高大上的概念堆砌，看完之后感觉啥都没看懂。没办法，硬着头皮上呗！

第一步，啃文档！ 我把需求文档打印出来，一页一页地看，遇到不懂的名词就去查，查完再回来啃。就这样反反复复，总算把整个项目的轮廓给摸清楚了。说白了，就是要搞一个用户行为分析系统，听起来挺唬人，就是收集用户数据，然后进行分析，生成报告。

第二步，搭环境！ 我用的是Python，没办法，谁让咱只会这个！然后就是各种库的安装，什么Pandas、Numpy、Scikit-learn之类的，一股脑全装上。环境这玩意，最烦人了，经常出问题，这回也不例外。装到一半，报错了！缺依赖！上网搜，各种解决方案，一个个试，终于搞定了。装完环境，我都快累趴下了。

第三步，搞数据！ 数据是用户行为日志，格式是JSON。我直接用Python自带的JSON库来解析，结果发现速度慢得要死。后来我改用ujson库，速度立马提升了好几个数量级。这告诉我们一个道理，选对工具很重要！

第四步，做分析！ 分析这块，我用了Sklearn的一些算法，什么聚类、分类之类的，都试了一遍。效果有好有坏，有的算法效果很有的算法效果很差。没办法，只能不断地调参数，不断地优化模型。这个过程很枯燥，也很耗时，但是没办法，只能硬着头皮上。

第五步，出报告！ 报告这块，我用了Matplotlib来画图，然后用Pandas来生成表格。画出来的图很丑，表格也很乱。后来我参考了一些网上的例子，慢慢地把图画漂亮了，表格也整整齐齐了。看到自己画出来的图，心里还是有点小激动的。

遇到的坑

数据清洗： 数据质量很差，有很多脏数据，比如缺失值、异常值之类的。这些脏数据会严重影响分析结果，所以必须进行清洗。我用了Pandas的一些函数来清洗数据，比如fillna()、dropna()之类的。
内存溢出： 数据量太大，导致内存溢出。我用了分块读取数据的方式来解决这个问题。就是把数据分成很多小块，一块一块地读取，处理完一块再读取下一块。
模型过拟合： 模型在训练集上表现很但是在测试集上表现很差，这就是过拟合。我用了正则化、交叉验证等方式来防止过拟合。