今天跟大家伙儿聊聊我最近在瞎琢磨的“泰伦”项目,一开始就是图个新鲜,想看看能不能整点儿不一样的。
起因:
事情是这样的,前阵子不是重温了下星际争霸嘛突然就对“泰伦”这个概念来了兴趣。你说这帮地球老乡,跑到宇宙里还搞出这么一套,背后的故事肯定不少。我就寻思,能不能自己也“泰伦”一把,搞个小玩意儿出来。
调研:
说干就干,先是搜罗了一堆资料,了解了下“泰伦”的来龙去脉,知道他们是地球移民,在宇宙中建立了泰伦帝国。然后就开始琢磨,我这“泰伦”项目到底要做
构思:
想来想去,不能真搞个帝国出来?那不得累死。决定,就做一个简单的信息聚合平台,把各种新闻、博客、论坛啥的都整合到一起,算是我的“泰伦信息中心”。
开干:
选技术: 技术方面,我用的Python + Flask,数据库是SQLite。这套东西我比较熟,上手快。 搭框架: 先把Flask框架搭起来,然后定义好数据模型,新闻、博客、论坛,每个都建个表。 搞爬虫: 这是重头戏。我写了一堆爬虫,专门去各个网站扒数据。一开始各种被反爬,headers、cookies、代理IP,能用的都用上了。 数据清洗: 爬回来的数据乱七八糟,各种HTML标签、乱码。我写了个清洗脚本,把这些脏数据都处理干净。 界面: 界面就随便搞了个Bootstrap模板,反正能看就行。 展示: 把清洗好的数据展示到网页上,按时间、来源排序。遇到的坑:
反爬: 这是最头疼的。有的网站反爬策略特别狠,我得不停地换IP、改headers。 编码: 各种编码问题,UTF-8、GBK,搞得我头昏脑胀。 性能: 爬虫跑多了,服务器压力山大。我得优化爬虫代码,控制抓取频率。成果:
我的“泰伦信息中心”终于上线了。虽然简陋,但也能用。每天自动抓取各种信息,省得我到处跑去看新闻。
这回“泰伦”项目,算是过足了瘾。虽然累,但学到了不少东西,尤其是爬虫技术。以后有机会,再搞点更复杂的玩意儿。
还没有评论,来说两句吧...