保罗加索尔现在在做什么？退役后的生活一样精彩

今天跟大家聊聊我最近研究的“保罗加索尔”，不是篮球，是关于数据处理的一项实践。

事情是这样的，最近接了个小项目，需要处理一些比较大的数据，然后我就想到了保罗加索尔——不，是它的名字让我想起“数据吞吐量”这个词，哈哈。我直接用了Python的Pandas，想着应该挺快的，结果嘛大家都懂的，跑起来慢的要死，感觉蜗牛都比它快。

然后我就开始各种找方法，想着怎么优化一下。想到的是，是不是我的代码写得太烂了，于是我就各种重构，各种优化算法，甚至还去看了Pandas的源码，结果发现，瓶颈不在我这儿，而是在Pandas本身。

后来有个大佬给我推荐了Dask。说是可以并行处理，我就赶紧去学了一下。Dask上手还挺快的，基本上跟Pandas差不多，改动也不大。我就把原来的代码稍微改了改，然后用Dask跑了一下，结果，速度直接提升了好几倍，感觉就像加索尔在场上飞奔一样，爽！

不过Dask也不是万能的。它对内存的要求比较高，如果数据量太大，还是会爆掉。我又开始研究其他的方案。我发现了一个叫做Vaex的库，这个库厉害了，可以直接处理TB级别的数据，而且速度还很快。我就试了一下，果然，效果非常

总结一下这回的实践：

保罗加索尔现在在做什么？退役后的生活一样精彩

大家在处理大数据的时候，一定要根据实际情况选择合适的工具。不要一上来就用Pandas，要不然你会后悔的。这回的经历告诉我们，没有最好的工具，只有最合适的工具。

对了，我还发现了一个小技巧，就是在用Vaex的时候，可以先对数据进行预处理，比如筛选、排序等等，这样可以进一步提升速度。大家可以试试。

希望我的分享对大家有所帮助。如果大家有什么更好的方法，欢迎在评论区留言，一起交流学习。

这回就到这里，下次有机会再跟大家分享其他的实践经验。

保罗加索尔现在在做什么？退役后的生活一样精彩

还没有评论，来说两句吧...