服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

数据分析三部曲,探究北京房租状况

2020-12-29 14:51:22 阅读(142 评论(0)

那些昨天幻想着海边别墅的年轻人今天可能会对租金感到绝望。八月初,有网友在“水木论坛”上发帖指责长租公寓涨价抢房引起关注。据说一位业主打算租一间位于天通苑的三居室,预计租金为7500元/月。结果,二方中介互相提价,硬生生提高到10800元。在过去的一个月里,全国热点城市的租金就像一匹脱缰的野马。一线房租同比增长近20%。一夜醒来,无产青年甚至悬在立锥之地。从2018年下半年开始,租金海啸汹汹,资本狂欢,官方沉默,房东纠结,房客尖叫。这不是一方的过错,更像是整个社会的“集体谋杀”。最令人不安的是,过去房地产的玩法和上涨逻辑今天正在转移到租金上。北京不仅是房租飙升的地方。数据显示,7月份,北京、上海、广州、深圳、天津、武汉、重庆、南京、杭州和成都的租金环比上涨。其中,北京、上海、深圳租金涨幅最大,7月份北京租金同比涨幅3.1%,部分社区甚至涨幅超过30%。接下来,我们通过Python大法获取某网数万条北京租房数据,告诉大家真实的租房情况。还是老规矩,老套路(是否有熟悉的味道),我们常用的三部曲:数据采集、数据清洗预览、数据分析可视化,和你一起探索最近的租金情况。1、今天,数据获取将以市场份额最高的住房中介公司为目标,在北京和上海获取租赁信息。目标链接:https://bj.lianjia.com/zufang/总体思路是:先爬取每个区域的url和名称,与主url拼接成一个完整的url,循环url列表,依次爬取每个区域的租赁信息。在爬每个区域的租赁信息时,找到最大的页码,遍历页码,依次爬取每个页面的二手房信息。post代码之前简单说一下这里用的几个爬虫Python包:requests:用于请求访问链家网的包lxml:分析网页,用xpath表达式和正则表达式获取网页信息,比bs4更快的详细代码如下:importrequestsimporttimeimportrefromlxmlimportetree#在某个城市区域获取所有链接defget_areas(url):print(‘startgrabingareas’)headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.Safari/537.36"339.108resposne=requests.get(url,headers=headers)content=etree.HTML(resposne.text)areas=content.xpath(“//dd[@data-index=‘0’]//div[@class=’option-list’]/a/text()”)areas_link=content.xpath(“//dd[@data-index=‘0’]//div[@class=’option-list’]/a/@href”)foriinrange(1,len(areas)):area=areas[i]area_link=areas_link[i]link=‘https://bj.lianjia.com’ area_linkprint(“开始抓取页面”)get_pages(area,link)#通过获取某一区域的页数,将某一页的链接defget拼接_pages(area,area_link):headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.108Safari/537.36resposne=requests.get(area_link,headers=headers)pages=int(re.findall(“page-data='{“totalPage”:(d ),”curPage””,resposne.text)[0])print(“这个区域有” str(pages) “页”)forpageinrange(1,pages 1):url=‘https://bj.lianjia.com/zufang/dongcheng/pg’ str(page)print(“开始抓取” str(page) "信息")get_house_info(area,url)#获取某一区域某一页的详细租金信息defget_house_info(area,url):headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.108Safari/537.′}time.sleep(2)try:resposne=requests.get(url,headers=headers)content=etree.HTML(resposne.text)info=[]foriinrange(30):title=content.xpath(“//div[@class=’where’]/a/span/text()”)[i]room_type=content.xpath(“//div[@class=’where’]/span[1]/span/text()”)[i]square=re.findall(“(d )”,content.xpath(“//div[@class=’where’]/span[2]/text()”)[i])[0]position=content.xpath(“//div[@class=’where’]/span[3]/text()”)[i].replace(”“,“”)try:detail_place=re.findall([u4E00-u9FA5] )租房”,content.xpath(“//div[@class=’other’]/div/a/text()”)[i])[0]exceptExceptionase:detail_place=“”floor=re.findall([u4E00-u9FA5] )(“,content.xpath(“//div[@class=’other’]/div/text()[1])[i])[0]total_floor=re.findall(“(d )”,content.xpath(“//div[@class=’other’]/div/text()[1])[i])[0]try:house_year=re.findall(“(d )”,content.xpath(“//div[@class=’other’]/div/text()[2])[i])[0]exceptExceptionase:house_year=“”price=content.xpath(“//div[@class=’col-3′]/div/span/text()”)[i]withopen(‘链家北京租房.txt’,’a’,encoding=’utf-8′)asf:f.write(area ‘,’ title ‘,’ room_type ‘,’ square ‘,’ position ‘,’ detail_place ’,’ floor ’,’ total_floor ’,’ price ’,’ house_year ’n’)print(‘writingworkhasdone!continuethenextpage’)exceptExceptionase:print(‘ooops!continuethenextpage’)exceptExceptionase:print(‘ooops!connectingerror,retrying…..’)time.sleep(20)returnget_house_info(area,url)defmain():print(‘start!’)url=‘https://bj.lianjia.com/zufang’get_areas(url)if__name__==___=main__’:main()二、数据清洗预览数据共14038条,10个维度,从上图可以看出,北京平均房价为9590元/月,中位数为7000元。一半的房价在7000以下,所有房价在[1000,25000]之间,价格差异太大。第三,数据分析可视化四维——北京租金均价。接下来,我们将北京各地区、各路段、各楼盘的房屋数量和均价分布在同一张图上,更直观地看待租金。从图中可以看出,近期北京各地区租金均在6000元/月以上,其中东城区最高,均价为12463元/月。但由于房屋信息过多,房屋位置、面积、楼层、朝向等对价格影响较大,需要进一步分析价格维度。从上图可以看出,每个路段的平均价格基本在6000以上,其中海淀北部新区的房屋数量最多,但平均价格最低,为3308元/月。这可能与海淀北部生态科技新区作为高新技术产业的承载区、原创创新政策来源的研发基地、科技园区集聚区有关,目前已入驻华为、联想、百度、腾讯IBM、国内外近2000家知名科技创新型企业,如Oracle。另一方面,海淀紫竹桥的房价一起飙升。以博物馆、体育场馆为特色,交通便利,配套设施完善,平均价格高是合理的。另一方面,海淀紫竹桥的房价一起飙升。以博物馆、体育场馆为特色,交通便利,配套设施完善,平均价格高是合理的。可以看出,不同房地产的平均价格波动很大,但都在6000/月以上。最高甚至达到17516/月。由于每栋楼的户型差别很大,地理位置也比较分散,所以平均价格波动很大。每栋楼的具体情况也需要具体分析。详情代码:#北京路段_房屋均价分布图detail_place=df.groupby([‘detail_place’])house_com=detail_place[‘price’].agg([‘mean’,’count’])house_com.reset_index(inplace=True)detail_place_main=house_com.sort_values(‘count’,ascending=False)[0:20]attr=detail_place_main[‘detail_place’]v1=detail_place_main[‘count’]v2=detail_place_main[‘mean’]line=Line(北京主要路段租金均价)line.add(“路段”,attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,mark_point=[‘min’,’max’],xaxis_interval=0,line_color=’lightblue’,line_width=4,mark_point_textcolor=’black’,mark_point_color=’lightblue’,is_splitline_show=False)bar=Bar(“北京主要路段房屋数量”)bar.add(“路段”,attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,xaxis_interval=0,is_splitline_show=False)overlap=Overlap()overlap.add(bar)overlap.add(line,yaxis_index=1,is_add_yaxis=True)overlap.render(北京路段_房屋均价分布图.html从上图可以看出,平均价格在8000-10000之间的房屋数量最多,而1500-2000之间的房屋数量较少。据北京市统计局统计,2017年全市居民月人均可支配收入4769元。根据北京市统计局的数据,2017年该市居民的月人均可支配收入为4769元。此外,根据58个城市和市场网络发布的报告,2017年北京人均月租金为2795元。北京租房者的租金收入比惊人地接近60%。很多人一半的收入都花在租房上,生活就这样锁定在贫困线上。统计数据还显示,北京租房者整体收入较低。47%的租房人年薪在10万以下。在北京,每月能负担得起5000元左右的房间

内容来源:大数据文摘,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

wifi共享软件哪个好 2022免费的wifi共享软件

  随着技术进步,很多现在的数据资费降低、和用户隐私安全的提高,还伴随着对外开放免费的WiFi服务覆盖了各个场景,大部分人也渐渐的降低了对WiFi万能钥匙的依赖性。曾经风靡一时的万能钥匙现在也面临被淘汰的遭遇。  “万能钥匙”过气了?  万…查看详情

微信分身是什么意思

什么是微信分身功能?微信分身、微信多开、微信双开,应用多开分身更安全稳定不封号! 《微多开分身》APP作为应用多开分身类,微信用户口碑款分身APP,可轻松实现如:微信多开、微信双开、游戏多开等几乎所有应用的多开分身,完美解决用户多账户同时…查看详情

好看的美国喜剧有哪些 美国最经典十大喜剧

其实很多人都喜欢看美剧,而且经典的美剧也有很多,下面万商云集小编给大家来详细介绍一下好看的美国喜剧有哪些 美国最经典十大喜剧,不知道下面的这些美剧大家看过没有。  麦克斯的话看似是狠辣的毒鸡汤,可当我们认真品味,却总能发现里面是满满的勇气,…查看详情

值得考虑的7款制图软件,有效增加工作效率

在工作和生活中可能会涉及到需要制图的需求,这时大家如果能够选择一款好用的软件,就可以节省时间增加工作的效率。但如果选择的软件不当,自然也会影响到图片的制作,因此可见制度软件的选择至关重要,那么制图软件哪个好呢?这几种值得考虑,大家可以了解一…查看详情

如何给压缩文件加密

压缩文件怎么设置密码?1、在右键点击文件夹后弹出的菜单栏中选“添加压缩文件”。; 2、在进行压缩文件操作时,选择左下角的“添加密码”。; 3、输入密码及再次输入密码,点击确认。; 4、然后点击“立即压缩”。; 5、压缩后,选择压缩文…查看详情

广告策略主要包括哪些策略?

试比较分析企业目标市场战略的三种模式?1、无差异性目标市场策略该策略是把整个市场作为一个大目标开展营销,它们强调消费者的共同需要,忽视其差异性。 采用这一策略的企业,一般都是实力强大进行大规模生产方式,又有广泛而可靠的分销渠道,以及统一的…查看详情

发明专利怎么破除 发明专利破除方法

依据我国专利法的规定,发明专利终止的情形包括没有按照规定缴纳年费的、专利权人放弃专利权的,或者专利复审委员会宣告该专利权无效的等。下面万商云集小编就给大家来详细介绍一下发明专利如何破除这方面的内容,希望能帮助到大家。  一、发明专利如何破除…查看详情

你急需的企业网站建设文案写作攻略

一个具备足够用户吸引力的企业网站建设自然离不开一手漂亮的文案内容。好文案如美人,带给客户愉悦感,并直抓潜在客户心理需求,促进销售达成。下面我们就分享一些企业网站建设中,文案写作的心得吧! 从平凡中发现不平凡 首先,明确网站建设文案的直接目标…查看详情

有哪些CRM客户管理系统,国外也可以使用

市场上有很多CRM客户管理系统,这使得与国际客户更容易合作。公司可根据公司的发展情况,尝试不同的CRM系统,一次使企业迅速发展,当你的企业是一家小企业,但是顾客多,而且很难管理,或者想让客户管理更方便,那就可以采用灵活灵活的网上CRM客户管…查看详情

erp系统操作方法介绍

听多了、看多了erp系统原理、如何选择erp系统、erp系统的优势,不如今天更详细地了解下一直都在反复提及的erp系统操作吧,下面由小万为你讲述。图片来源于网络erp系统操作主要分为六个方面:◤ 1. 基本系统操作它主要是指对整个erp系…查看详情

什么情况下属于小规模纳税人(新政策解读)

  值税小规模纳税人适用3%征收率的应税销售收入,减按1%征收率征收增值税;适用3%预征率的预缴增值税项目,减按1%预征率预缴增值税。下面小编就给大家来详细介绍一下什么情况下属于小规模纳税人这一块的内容。  什么是小规模纳税人  小规模纳税…查看详情

电商平台需要哪些系统来支撑线上交易流程?

互联网技术在发展,消费者线上消费的行为也在不断进化,电商不仅仅局限于商品交易,现在需要满足更多的消费需求和市场营销。企业电商平台从采购、入库、上架,到前端销售,选购、下单、支付,再到收货、退款、评价。这一系列的交易流程都需要电商平台进行支撑…查看详情

网站设计如何为企业带来真正的价值?这几点十分重要

对于企业来说网站属于展示的门面,所以一定要做好相关的设计,只有各方面都做到完美,这样对于企业来说才可以真正的实现价值,产生流量的转化,甚至能够获得更多的目标客户,那么网站设计如何为企业带来真正的价值呢?这几点十分,重要大家不能忽…查看详情

软件专利权可以保持多少年 软件专利保护多少年

    依据我国相关法律的规定,使用电脑或者智能手机等设备时,要有软件才能运行的,而软件是属于知识产权的一种,并且是非常重要的知识产权,那么软件专利权可以保持几年?下面由万商云集小编给大家带来软件专利权可以保持多少年 软件专利保护多少年这方…查看详情

个人网站可以不备案吗 个人网站需要备案不?

  互联网中的网站数以万计,每天我们都在访问各类网站,个人和企业大多都会建立自己的网站,在此过程中,有站长觉得网站备案,对网站的排名、可信度都有帮助,也有站长觉得网站备案太麻烦了,还不容易通过,究竟要不要做网站备案?下面小编就给大家来详细介…查看详情

最新文章