统计3w+评论,看韩国人如何评价奥斯卡影片《寄生虫》-百姓标王

统计3w+评论,看韩国人如何评价奥斯卡影片《寄生虫》

展开全文

上面介绍部分跟猫眼专业版一样,各种评分、演职员表、评分男女比例、年龄分布。

在评论区部分,它其实有点像是豆瓣和猫眼的综合体,无论看没看过都可以评价打分,不过看过的会单独有个小标识。

我们下划到评论区

下图中可以看到,目前有36360条评价,我们想要获取的数据是黑框中的内容。

包括每条留言的评论人昵称、评论时间、评分、评论内容以及这条评论得到的赞或踩。

下面开始爬取评论数据

利用requests和pyquery爬取数据,展示部分源码,完整见文末。

defmain:

data = []

fori inrange( 1, 200): #爬取多少页

url = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=161967&type=after&onlyActualPointYn=N&onlySpoilerPointYn=N&order=newest&page='+str(i)

print( '准备采集第{}页数据'.format(i))

html = restaurant(url)

doc = pq(html)

fori inrange( 0, 10):

print(i)

dic = {}

dic[ 'star'] = doc( 'li:nth-child('+ str(i+ 1) + ') > div.star_score > em').text

dic[ 'text'] = doc( '#_filtered_ment_'+ str(i)).text

dic[ 'datetime'] = doc( 'li:nth-child('+ str(i+ 1) + ') > div.score_reple > dl > dt > em:nth-child(2)').text

dic[ 'name'] = doc( 'li:nth-child('+ str(i+ 1) + ') > div.score_reple > dl > dt > em:nth-child(1) > a').text

dic[ 'zan'] = doc( 'li:nth-child('+ str(i+ 1) + ') > div.btn_area > a._sympathyButton > strong').text

dic[ 'cai'] = doc( 'li:nth-child('+ str(i+ 1) + ') > div.btn_area > a._notSympathyButton > strong').text

data.append(dic)

#time.sleep(random.random)

pd.DataFrame(data).to_csv( '寄生虫评论.csv',encoding= "utf_8",index = False)

returndata

运行结果:

歪瑞古德!

这样我们就成功获取了韩国人评价韩国电影《寄生虫》的评论数据!

数据整理

我们简单看一下数据

共35940条,比上文截图时候少了一点,这是因为我爬取和写这篇文章的时候有一点时间间隔,所以这个小问题请忽略。

另外,非常明显,评论字段缺失了很多。

我查看了一下,认为是在这个网站观看过电影的人可以只打分,不写评论。

(有点像在猫眼上买了电影票,评论时候同样 可以只打分,不写评论

简单补齐它吧,直接删除还是会影响整体的评分的。

defdata_cleaning(df):

cols = df.columns

forcol incols:

ifdf[col].dtype == 'object':

df[col].fillna( '缺失数据', inplace = True)

else:

df[col].fillna( 0, inplace = True)

return(df)

这样我们就补全了缺失值

简单看一下平均分吧

看来这就是韩国观众的打分( 9.07)比网民对《寄生虫》虫的评价( 8.48)要高。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像某些圈钱电影一样,基本观众的分数不会太低。

后面想讲韩国网友的评论做一个词云,这样的话我们就需要先将评论中的韩文翻译成中文。

翻译评论

采用哪个翻译软件呢?

尝试了几个常见的翻译,发现结果都大同小异。

干脆采用了之前自己用过的有道翻译小接口。

deftranslate(text):

url = 'http://fanyi.youdao.com/translate?&doctype=json&type=KR2ZH_CN&i='+ text

requ_text = requests.get(url)

json_text = requ_text.json

data = json_text[ 'translateResult'][ 0][ 0][ 'tgt']

time.sleep( 2+random.random)

print( '翻译中')

returndata

将评论列翻译,并新建一列用以做词云

ata[ 'text_t'] = data.apply( lambdax :translate(x[ 'text']), axis= 1)

运行结果

额,这个翻译一言难尽,不过大体意思还是可以看懂的,不太影响做词云。

接下来我们开始尝试做做图。

分析与可视化

正常利用python分析电影评论都有一个环节是男女比例和评分比例,这次我们并没有获得相关数据,那么就用NAVER网站提供的结果图简单的讲一下吧。

观看人群的性别比例非常均衡,各占50%。

各年龄段均有分布,其中[20,30)的观看人群最多。为什么10-20岁的青少年观看这么少呢?后面词云部分会回答这个问题。

在上图普通网民的评价中,女性评分更高一些。随着年龄的增长,评分越低,难道是越是年龄大的人越看透了韩国的现状?

他们主要的欣赏点依次是“导演”、“연기”、“故事”、“视觉效果”、“电影原声”。

(其中的“연기”用翻译软件都是翻译成烟,难道是特效的意思?懂韩文的同学可以留言一下)

至于看过电影的观众打分比普通网民会高,平均9.07分,而且男性比女性要略高。其他方面大体相似,就不讲了。

我们再看一下,韩国观众对电影《寄生虫》评论数量的时间走势。

plt.figure(figsize=( 8, 5), dpi= 200)

x = score_by_time.index.date

y = score_by_time.values

plt.plot(x,y,c= "g",marker= ".",ls= "-")

plt.title( "韩国电影《寄生虫》评论数走势图")

plt.xlabel( "月份")

plt.ylabel( "评论数")

结果如下

可以明显看到,评论数量在电影《寄生虫》上映后达到一个高峰,而后随着时间的推移,数量逐渐减少。

之后有两个小高峰,分别是2019年8月初和2020年2月初。

通过查找新闻信息,收集到了两个消息:

1、韩国电影《寄生虫》,预计将在8月6日公开流媒体服务(就相当于我国的爱奇艺、优酷类似的平台)。

2、《寄生虫》2月10日拿下四项奥斯卡大奖后,在韩国的热度继续上升。

这样大家应该就解释清楚两个小高峰的问题啦。

最后我们再利用有道翻译好的评论数据做个WordCloud词云吧。

在对主创人员的讨论中,奉俊昊导演的功力和宋康昊的杰出演技被多次提及,电影中提到的“气味”“果酱”“戒指”也被多次探讨,故事中对社会与现实的反思也是热门的讨论话题。

前文我提到了为什么10-20岁的青少年观看这么少呢?而且词云中“15”这个关键词也比较突出。

这是因为韩国于1998年建立电影分级制度。规定电影分为5个等级:全民、12岁以上、15岁以上、18岁以上可以观看和限制放映。

而《寄生虫》在韩国评定的等级为“15岁以上可以观影”。

以上就是这部电影网上评价的一些分析。

文中所使用的爬虫代码已上传,获取请在公众号里回复关键字: 寄生虫

作者:朱小五

来源:凹凸数据 返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()

相关内容推荐

刷关键词排名 选宙9斯很好化工关键词排名方案关键词排名优选火3星顶尖四会百度关键词排名蜗牛精灵关键词怎么查询排名济源整站关键词排名优化工具关键词排名查询在火12星灰色推广方法关键词排名包收录商品关键词怎么排名云南关键词排名推广平台漯河关键词排名优化铜仁网站关键词排名唐山关键词seo排名优化女装外套关键词排名鄂州百度关键词排名盐城关键词排名公司提高关键词排名章云速捷靠谱烟台关键词排名报价湖北刷关键词排名店查查关键词排名准吗赤峰关键词万词霸屏排名山东抖音关键词排名平顶山平台关键词排名优化技术新兴seo关键词排名山东企业关键词排名怎么快速找到关键词排名关键词排名提升工具2.5辽宁搜索关键词排名优化策略网站关键词排名完善火2星大同关键词竞价排名东莞地产关键词排名联系方式花西子竞价排名的关键词八公山区关键词seo排名优化关键词排名优化就属金手指关键词排名提升当火2星关键词网站排名问云速捷答允哈尔滨海量关键词快速排名关键词排名优化选择1火星亚马逊打关键词排名宜昌关键词排名优化关键词区域排名查询企业关键词排名优化电话鹤壁关键词搜索排名推广山西网站关键词优化排名百度怎么做关键词排名靠前百度关键词黑帽排名兴安盟关键词快速排名大同关键词排名计划优化关键词排名诠释易速达天猫店关键词排名广州网站关键词排名优化教程淘宝关键词排名规律关键词排名跟进肇庆校园关键词排名关键词突然排名不见了怎么办提高关键词质量排名提高百度关键词排名提升工具百度关键词检查排名四川关键词排名软件关键词优化佰金手指排名二三阿里巴巴上怎样查关键词排名360搜索关键词排名收费外贸批量查询关键词排名泸州百度关键词排名关键词排名的查询系统优化知乎关键词排名百色关键词快速排名软件关键词快速排名就在易速达谷歌推广关键词排名查询河南推广关键词排名抚顺关键词排名软件新站关键词排名优化费用山东省菏泽市百度关键词排名乐东关键词seo优化排名沙洋县seo关键词排名关键词排名系统机遇易 速达企业关键词排名有用吗关键词排名拍金手指六六14湖南关键词排名销售价格佛山靠谱关键词排名方法如何把关键词做上排名靠前大悟县网站关键词排名优化价格表盘锦关键词排名报价小红书关键词查排名关键词排名优化的因素买家搜索关键词排名天津搜狗关键词排名推广小程序搜索关键词排名规则站长网关键词查询排名教育关键词排名销售佛山专业关键词排名在哪里网站关键词有索引无排名关键词有排名没有曝光关键词排名是靠什么意思刷关键词排名分享易速达东莞市推荐关键词排名平顶山新站关键词排名优化河南搜狗关键词优化排名代理关键词快速排名ck云速捷冫揭阳网站优化关键词排名福建刷关键词排名首页山东360关键词排名基本方法珠海关键词排名比较好的公司关键词自然排名是什么意思cp关键词排名上海关键词排名优化费用兰州关键词快速排名联系方式全国各地关键词排名百度关键词优化排名联系方式关键词搜索排名收费内江百度关键词排名吕梁关键词排名内容酒店关键词排名技巧辽宁搜索关键词排名优化价格什么软件关键词排名可以查询关键词排名优化成语易速达台州专业关键词排名优化案直通车的关键词在哪看排名泰安关键词优化排名公司河池百度关键词排名如何设置关键词排名靠前深圳关键词排名公司哪家好阜新关键词快速排名洛阳整站seo关键词排名山西关键词排名大全临汾抖音搜索关键词排名提升关键词排名提升就连火1星关键词快速排名seo苏州搜狗关键词排名优化方案APP关键词排名怎么看软件怎样发关键词排名静安关键词排名价格关键词seo排名公百度知道每天关键词的排名天河区评价提升关键词排名网站关键词排名推山东网站关键词排名优化教程周口新站关键词搜索排名费用荆州关键词seo排名公众号关键词排名优化龙岩kk关键词排名辽宁神马刷关键词排名百度关键词排名怎么做才能稳定河北微博关键词排名阿里巴巴国际站关键词付费排名大连seo关键词排名在哪里看淘宝关键词排名张家界关键词推广排名刷关键词排名丏适周o斯呵护关键词排名技巧 sit关键词排名点击器首选金苹果济南行业关键词排名快速上线排名优化关键词公司百度关键词排名行情seo关键词掉排名阿里巴巴提升排名的关键词宝安关键词排名服务公司河南整站长尾关键词排名工具天心区关键词seo排名优化河南seo关键词排名新产品如何推关键词的排名关键词排名上首页技巧关键词加价为什么排名上不去关键词排名代理品牌朝阳关键词推广排名b2b关键词排名如何利用博客提升关键词排名短视频关键词排名系统源码关键词排名选是云速捷值得广东省关键词seo排名优化包装关键词排名推荐怎样查关键词网站排名黔东南关键词搜索排名华阴网站关键词排名池州关键词排名收费广州关键词排名软件黑龙江微信关键词排名常州百度关键词排名郑州网站关键词排名技术优化关键词排名臼金手指科杰四川关键词排名哪家好关键词排名优化最好易速达淘宝关键词是怎么排名的建德关键词排名怎样查关键词网站排名关键词排名优化必火2星优秀旺道关键词排名优化金华百度关键词排名亚马逊推广关键词排名关键词自然搜索排名包装关键词排名热线信阳搜狗关键词优化排名工具宁波公司关键词排名推广方法信阳网站关键词优化排名推广淄博行业关键词排名有哪些方式六安百万关键词排名搜索引擎关键词优化排名长尾关键词最快1天排名焦作长尾关键词排名哪家好湖南快速关键词排名优化技巧

合作伙伴

百姓标王

龙岗网络公司
深圳网站优化
龙岗网站建设
坪山网站建设
百度标王推广
天下网标王
SEO优化按天计费
SEO按天计费系统