服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

Python爬取捞月狗数据分析

2020-12-30 10:32:11 阅读(209 评论(0)

本文利用Python从捞月狗网站上获取国服各区和外服王者的数据信息,然后利用R软件对数据进行初步探索和分析。在数据背后找到有趣的东西!爱生活,爱数据!Python爬月狗数据要抓取的数据如下图所示:主要包括王者游戏ID、区服、胜点、胜点、负场、胜率、最近状态、擅长位置、本命英雄等。因为钓月狗的数据每天都在更新,所以在不同的时间爬行数据可能会有所不同。Python代码如下:导入所需模块:importrequestsimportportpandasaspd设置头部信息:head={'User-Agent':'你自己的头部信息'}设定正则获取国服王者信息:rem=re.compile(r'class="subStrTitle">(.*).*server">(.*).*class="icon-dan">(.*).*(.*)(.*)<.*\t/.*(.*)(.*).*"percentage">(.*).*/score/(.*).png.*color-zhongdan">(.*).*alt="(.*)"/>.*alt="(.*)"/>.*alt="(.*)"/>',re.S)外服正则用于获取外服王者信息:reh=re.compile(r'(.*).*player-server">(.*).*(.*).*(.*)(.*).*.*(.*)(.*).*"percentage">(.*).*score/(.*).png.*"color-zhongdan">(.*).*src="(.*)">.*src="(.*)">.*src="(.*)">',re.S)获取国服对应的战区,存储在zhanqu_list_cn中:url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=cn&area=1'html_cn=requests.get(url_cn,headers=head)reg=re.compile(r'class="cn-li.*href="(.*)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区获得外服对应的战区,存储在zhanqu_list_en中:url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.htmlregion=foreign&area=kr'html_en=requests.get(url_en,headers=head)ren=re.compile(r'class="foreign-li.*href="(.*)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)定义下载中国战区数据的函数:defupdown_cn(zhanqu_list_cn):  forzhanquinzhanqu_list_cn:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(rem,im.text) #数据rem代表国服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]定义下载外服战区数据的函数:defupdown_en(zhanqu_list_en):  forzhanquinzhanqu_list_en:    forminrange(1,11):      url=zhanqu '&page=' str(m)      im=requests.get(url,headers=head)      ifim.status_code==200:        data=re.findall(reh,im.text) #获取数据reh代表外服数据        data=pd.DataFrame(data)        data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv',header=False,index=False,mode='a ')#写csv文件,'a '是追加模式        data=[]下载数据:updown_cn(zhanqu_list_cn) #下载中国战区数据updown_en(zhanqu_list_en) #下载外服战区数据下载的数据保存格式为CSV格式,内容如下图所示:查看数据后,只发现几个格式异常数据(已手动删除)。R语言数据初步探索下面用R软件分析数据,看看能不能发现一些有趣的东西!R语言程序包用于导入分析:library(data.table)library(plotly)library(magrittr)library(wordcloud2)导入数据:dt=fread(file.choose()国服数据:dt_cn=dt[1:2500]#即前2500个外服数据:dt_en=dt[2501:4480]各战区王者数量(国服):>dt_cn[,.(.N),by=.(战区)   所在战区 N1: 艾欧尼亚 902:   祖安 803: 诺克萨斯 804: 班德尔城 905:皮尔特沃夫 90...25: 扭曲丛林 9926:教育网专区 2527: 巨龙之巢 9028: 男爵领域 9029: 峡谷之巅 80   所在战区 N概览数据(国服):>summary(dt_cn[,.(.N),by=.(战区)) 所在战区       N     Length:29     Min. :25.00 Class:character 1stQu.:80.00 Mode :character Median:90.00           Mean :86.21           3rdQu.:90.00           Max. :100.00 #王者最少的区>dt_cn[,.(.N),by=.(战区)[N==25]  所在战区 N1:教育网专区25#王者有100人(最多100人)>dt_cn[,.(.N),by=.(战区)[N==100] 所在战区 N1:均衡教派1002:守望之海100外服王者数量:plot_ly(dt_en[,.(.N),by=.(战区),x=~所在战区,y=~N,type="bar")外服王者数量较多(相对于国服一区),可能是有些外服只是服务器,比如韩国,也和捞月狗的统计数据有关。国服各区平均胜点:dt_cn[,.(mean=mean(胜点),by=.(战区)这里看不出艾欧尼亚是最强的战区。王者通常处于什么样的游戏状态?wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !国王通常处于什么样的游戏状态:wordcloud2(dt_cn[,.(.N),by=.(最近状态))英雄联盟的评价等级是这样增加的D-,D,D ;C-,C,C ;B-,B,B ;A-,A,A ;S-,S,S !大多数王者最近的状态往往是S级状态。不幸的是,数据集中没有其他部分的数据。如果是这样,你也可以比较每个部分玩家的通常游戏状态。王者擅长的位置:各地的王者更喜欢打野和上单的位置。这两个位置也是英雄联盟中受伤较多的位置,也可以说他们可能更倾向于玩“肉”的英雄。职业联赛中常说这样的英雄容错率比较高。换句话说,有肉有输出英雄。王者本命英雄(2017.08.05):#因为有些本命英雄在爬数据的时候并不是我们预期的,所以在这里删除(也就是3~4).dt_all=fread(file.choose())dt_cn<-dt_all[1:2497]dt_1<-dt_cn[,本命英雄1]dt_2<-dt_cn[,本命英雄2]dt_3<-dt_cn[,本命英雄3]all_hero�ta.frame()%>%wordcloud2(shape='star')#以星形的形式绘制云图。不愧为王者玩家,玩盲僧这样

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

国内主流OA办公系统,哪款比较高端

目前,国内的oa办公系统越来越强大,并且办公秩序也井然有序,无异于办公系统的加持,尽管在不断的进步,但是也有许多用户商占一半,现在我们所观察到的发展,也在悄然声息的变化 1、泛微 这款产品我非常的推荐,他几乎是最具有代表性的…查看详情

按要求备好注册商标所需资料,才能提高商标注册成功率

说起商标,相信很多人都不会陌生,我们的周边也有很多商标的存在。商标做为知识产权时代的重要标志,也是企业布局的重要因素之一,但是随着时间的推移,商标作为种不可再生的资源,目前可以注册商标驳回量也是一年比一年高了。在进行商标注册时,我们一定要准…查看详情

自行车品牌有哪些 2022自行车品牌排行榜前十名

现在都在倡导健康绿色的生活方式,很多人把自行车作为了比较常规的出现方式,下面万商云集小编给大家来详细介绍一下自行车品牌有哪些 2022自行车品牌排行榜前十名有哪些,不知道下面的这些品牌大家使用过没有,。  1.捷安特  1972年成立于台湾…查看详情

数据恢复软件免费版,让丢失的数据轻松恢复

千辛万苦写好的方案,或者是修改了多次的照片,却因为错误的操作而丢失了,相信会让人非常的困扰,但目前使用的数据恢复软件多数都是要收费的,也增加了恢复数据的成本,那么下面为大家介绍数据恢复软件免费版,让数据恢复不再难。 1、傲…查看详情

万商云集服务大使,就差你一票了

2020年,是万商云集的“客户升级年”这一年,疫情袭来,我们看遍悲欢离合这一年,携手共进,一同见证百业复兴这一年,万商云集升级产品、做好运营带领一支出色的服务团队以专业的水平,至诚的态度真正用服务温暖寒冬这一年万商云集新增客户1.3万+全年…查看详情

什么是推广运营 运营推广是做什么的

现在很多的中小企业都不知道运营推广到底是干什么的,很多的企业其实想推广自己的产品,但是不知道怎么做,下面万商云集小编给大家来介绍下企业的运营推广这方面的常识。  但是想要运营好一个项目或者产品的前提是先让大众看到这个项目、产品的存在,了解它…查看详情

中文和英文域名注册规则,以及哪些名称不可用做或限制使用

网站的域名是为了解决人们对IP地址记忆不深的问题,几乎每一个知名的网站都有自己的域名。而要让自己的域名受到法律的保护,有侵权的情况也能够进行维权就要注册。那么,域名注册规则是怎样的呢?一起来了解一下吧。图片来源于网络 中文域名注册规则注册中…查看详情

糖果零售新品牌,玩转私域流量业绩增长368%

流量红利从平台公域流量向企业商家私域流量转变,不少企业商家借助小程序成功了建立起了自有流量池。厦门的一家糖果零售新品牌—苏小糖就是成功案例之一,通过私域流量建设,实现业绩增长368%。私域流量品牌建设1、产品包装苏小糖认为,包装不是成本,而…查看详情

末世小说排行榜,这几本十分好看

在民间流传着某些年是世界末日的传说,人们对于世界末日也有着一定的好奇心,甚至打败了恐惧的心理,所以各种世界末日的小说和影片也迎刃而生,那么关于一些好看的末世小说进行介绍,想看的话一定不要错过。 1、狩魔手记 这部小说在20…查看详情

校园车辆管理系统都有哪些优势?

车辆管理的尤其是很多的校园车辆比较多,如果想要进行更好的校园车辆管理,那么就应该要选择一款比较不错的管理系统,这样才能够带来更多的优势。选择了校园车辆管理之后能够实现信息的传送,而且还能够进行校园人员的考勤,管理相对来说是非常不…查看详情

服装、美妆、餐饮、果蔬活动推荐,引流、促销、获客三不误

炎热的夏天进入尾声,秋天到来,这时候服装、化妆品等行业都可以策划一场H5营销活动,来进行引流、促销、获客,甚至扩大品牌影响力。服装行业活动推荐活动主题:夏季服装清仓大促,全场5折起秋季服装新品发布,限时8折活动方式:限时折扣,新品促销,夏装…查看详情

今天推荐几款高效率的流程图制作软件

很多人为了能够展现出自己的工作事项,往往会使用流程图,而且很多品牌的宣传表上会使用到流程图,那么对于上班族来说,如何才能制作出美观的流程图呢?少不了用到以下的流程图制作软件。 1、亿图图示专家 亿图图示专家的研发基础是以绘…查看详情

面积测量软件有哪些 面积测量软件排行榜

  在很多的场合都会使用到测量软件这个东西,但是很多人都不知道测量面积用什么软件,下面小编就给大家来详细介绍一下面积测量软件有哪些 面积测量软件排行榜这一块的相关内容,希望能帮助到大家。  面积测量软件排行榜  1、《AR测量》  这是…查看详情

万商云集董事长王飞接受封面新闻、成都创客专访

近日,万商云集董事长王飞接受封面新闻、成都创客专访,讲述其创业初心和创业动力。王飞表示,万商云集主要解决中小企业在数字化转型中的产品选择难、落地应用难、售后服务难等问题,让中小企业“上云”更容易。“通俗地讲,SAAS就是共享软件+大数据+公…查看详情

图书管理系统哪个好,12款热门图书管理软件推荐

万商云集提供图书管理系统的在线咨询服务,在这里您可以了解到有关图书管理系统的功能介绍、常见问题以及购买流程,知名的图书管理软件有:美萍图书馆管理系统,汇文图书馆管理系统,广智图书管理系统,晴川图书管理系统等等。美萍图书馆管理系统美萍图书馆管…查看详情

最新文章