今天跟大家聊聊我搞的那个“中国对韩国”的小实践,纯属个人瞎折腾,大家随便看看就
我就想搞清楚现在韩国那边对我们中国是个啥看法,尤其是一些热点事件出来后,他们那边舆论会咋样。所以就想着能不能自己动手,抓点数据,看看能不能看出点啥来。
得确定数据源。我盯上几个韩国常用的网站,像Naver新闻、Daum论坛啥的,它们有点像咱们的百度新闻和贴。确定目标,接下来就是撸代码。
我用的Python,这玩意儿写爬虫方便。先装几个库,像requests用来发起网络请求,BeautifulSoup用来解析网页,还有个jieba用来做中文分词(虽然抓的是韩文,但之后要跟中文数据对比,所以先准备着)。
开始写爬虫,这部分挺费劲的。是网页结构,每个网站都不一样,得一个个去分析,看看新闻标题、内容、评论在哪儿。然后就是反爬,韩国那边网站反爬也挺厉害的,一会儿封IP,一会儿要验证码。我就用代理IP池,还有*()控制访问频率,尽量模拟正常用户。
好不容易把数据抓下来,全是韩文。得想办法翻译成中文。我先试几个免费的翻译API,效果不太很多俚语、网络用语翻不出来。后来还是上收费的翻译API,效果好多,但也是一笔开销。
数据有,接下来就是分析。我先把新闻标题和评论提取出来,用jieba分词,然后统计词频。看看“中国”、“韩国”、“经济”、“文化”这些词出现的频率,还有一些敏感词,比如“萨德”、“部署”之类的。
除词频,我还试着做情感分析。就是判断一句话是积极的、消极的还是中性的。这个我用现成的库,叫SnowNLP,准确率一般,但也能看出个大概。
分析结果嘛有点复杂。好的方面是,大部分韩国民众对中国文化还是挺感兴趣的,像电视剧、电影、美食啥的,讨论挺多。不好的方面是,一些政治事件、贸易摩擦,韩国那边评论就比较负面。还有一些人,对中国发展速度很快,感觉有点焦虑。
我把这些数据可视化一下,做几个图表,看着更直观。然后写个简单的报告,总结一下这回实践。
这回“中国对韩国”的小实践,让我对韩国舆论有一些更深入的解。虽然数据量不大,分析也不够专业,但至少让我自己心里有个数。以后有机会,可以继续深入研究一下。
还没有评论,来说两句吧...