数据分析三部曲,探究北京房租状况
2020-12-29 14:51:22 阅读(148) 评论(0)
那些昨天幻想着海边别墅的年轻人今天可能会对租金感到绝望。八月初,有网友在“水木论坛”上发帖指责长租公寓涨价抢房引起关注。据说一位业主打算租一间位于天通苑的三居室,预计租金为7500元/月。结果,二方中介互相提价,硬生生提高到10800元。在过去的一个月里,全国热点城市的租金就像一匹脱缰的野马。一线房租同比增长近20%。一夜醒来,无产青年甚至悬在立锥之地。从2018年下半年开始,租金海啸汹汹,资本狂欢,官方沉默,房东纠结,房客尖叫。这不是一方的过错,更像是整个社会的“集体谋杀”。最令人不安的是,过去房地产的玩法和上涨逻辑今天正在转移到租金上。北京不仅是房租飙升的地方。数据显示,7月份,北京、上海、广州、深圳、天津、武汉、重庆、南京、杭州和成都的租金环比上涨。其中,北京、上海、深圳租金涨幅最大,7月份北京租金同比涨幅3.1%,部分社区甚至涨幅超过30%。接下来,我们通过Python大法获取某网数万条北京租房数据,告诉大家真实的租房情况。还是老规矩,老套路(是否有熟悉的味道),我们常用的三部曲:数据采集、数据清洗预览、数据分析可视化,和你一起探索最近的租金情况。1、今天,数据获取将以市场份额最高的住房中介公司为目标,在北京和上海获取租赁信息。目标链接:https://bj.lianjia.com/zufang/总体思路是:先爬取每个区域的url和名称,与主url拼接成一个完整的url,循环url列表,依次爬取每个区域的租赁信息。在爬每个区域的租赁信息时,找到最大的页码,遍历页码,依次爬取每个页面的二手房信息。post代码之前简单说一下这里用的几个爬虫Python包:requests:用于请求访问链家网的包lxml:分析网页,用xpath表达式和正则表达式获取网页信息,比bs4更快的详细代码如下:importrequestsimporttimeimportrefromlxmlimportetree#在某个城市区域获取所有链接defget_areas(url):print(‘startgrabingareas’)headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.Safari/537.36"339.108resposne=requests.get(url,headers=headers)content=etree.HTML(resposne.text)areas=content.xpath(“//dd[@data-index=‘0’]//div[@class=’option-list’]/a/text()”)areas_link=content.xpath(“//dd[@data-index=‘0’]//div[@class=’option-list’]/a/@href”)foriinrange(1,len(areas)):area=areas[i]area_link=areas_link[i]link=‘https://bj.lianjia.com’ area_linkprint(“开始抓取页面”)get_pages(area,link)#通过获取某一区域的页数,将某一页的链接defget拼接_pages(area,area_link):headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.108Safari/537.36resposne=requests.get(area_link,headers=headers)pages=int(re.findall(“page-data='{“totalPage”:(d ),”curPage””,resposne.text)[0])print(“这个区域有” str(pages) “页”)forpageinrange(1,pages 1):url=‘https://bj.lianjia.com/zufang/dongcheng/pg’ str(page)print(“开始抓取” str(page) "信息")get_house_info(area,url)#获取某一区域某一页的详细租金信息defget_house_info(area,url):headers={‘User-Agent’:‘Mozilla/5.0(X11;Linuxx86_64AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.108Safari/537.′}time.sleep(2)try:resposne=requests.get(url,headers=headers)content=etree.HTML(resposne.text)info=[]foriinrange(30):title=content.xpath(“//div[@class=’where’]/a/span/text()”)[i]room_type=content.xpath(“//div[@class=’where’]/span[1]/span/text()”)[i]square=re.findall(“(d )”,content.xpath(“//div[@class=’where’]/span[2]/text()”)[i])[0]position=content.xpath(“//div[@class=’where’]/span[3]/text()”)[i].replace(”“,“”)try:detail_place=re.findall([u4E00-u9FA5] )租房”,content.xpath(“//div[@class=’other’]/div/a/text()”)[i])[0]exceptExceptionase:detail_place=“”floor=re.findall([u4E00-u9FA5] )(“,content.xpath(“//div[@class=’other’]/div/text()[1])[i])[0]total_floor=re.findall(“(d )”,content.xpath(“//div[@class=’other’]/div/text()[1])[i])[0]try:house_year=re.findall(“(d )”,content.xpath(“//div[@class=’other’]/div/text()[2])[i])[0]exceptExceptionase:house_year=“”price=content.xpath(“//div[@class=’col-3′]/div/span/text()”)[i]withopen(‘链家北京租房.txt’,’a’,encoding=’utf-8′)asf:f.write(area ‘,’ title ‘,’ room_type ‘,’ square ‘,’ position ‘,’ detail_place ’,’ floor ’,’ total_floor ’,’ price ’,’ house_year ’n’)print(‘writingworkhasdone!continuethenextpage’)exceptExceptionase:print(‘ooops!continuethenextpage’)exceptExceptionase:print(‘ooops!connectingerror,retrying…..’)time.sleep(20)returnget_house_info(area,url)defmain():print(‘start!’)url=‘https://bj.lianjia.com/zufang’get_areas(url)if__name__==___=main__’:main()二、数据清洗预览数据共14038条,10个维度,从上图可以看出,北京平均房价为9590元/月,中位数为7000元。一半的房价在7000以下,所有房价在[1000,25000]之间,价格差异太大。第三,数据分析可视化四维——北京租金均价。接下来,我们将北京各地区、各路段、各楼盘的房屋数量和均价分布在同一张图上,更直观地看待租金。从图中可以看出,近期北京各地区租金均在6000元/月以上,其中东城区最高,均价为12463元/月。但由于房屋信息过多,房屋位置、面积、楼层、朝向等对价格影响较大,需要进一步分析价格维度。从上图可以看出,每个路段的平均价格基本在6000以上,其中海淀北部新区的房屋数量最多,但平均价格最低,为3308元/月。这可能与海淀北部生态科技新区作为高新技术产业的承载区、原创创新政策来源的研发基地、科技园区集聚区有关,目前已入驻华为、联想、百度、腾讯IBM、国内外近2000家知名科技创新型企业,如Oracle。另一方面,海淀紫竹桥的房价一起飙升。以博物馆、体育场馆为特色,交通便利,配套设施完善,平均价格高是合理的。另一方面,海淀紫竹桥的房价一起飙升。以博物馆、体育场馆为特色,交通便利,配套设施完善,平均价格高是合理的。可以看出,不同房地产的平均价格波动很大,但都在6000/月以上。最高甚至达到17516/月。由于每栋楼的户型差别很大,地理位置也比较分散,所以平均价格波动很大。每栋楼的具体情况也需要具体分析。详情代码:#北京路段_房屋均价分布图detail_place=df.groupby([‘detail_place’])house_com=detail_place[‘price’].agg([‘mean’,’count’])house_com.reset_index(inplace=True)detail_place_main=house_com.sort_values(‘count’,ascending=False)[0:20]attr=detail_place_main[‘detail_place’]v1=detail_place_main[‘count’]v2=detail_place_main[‘mean’]line=Line(北京主要路段租金均价)line.add(“路段”,attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,mark_point=[‘min’,’max’],xaxis_interval=0,line_color=’lightblue’,line_width=4,mark_point_textcolor=’black’,mark_point_color=’lightblue’,is_splitline_show=False)bar=Bar(“北京主要路段房屋数量”)bar.add(“路段”,attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,xaxis_interval=0,is_splitline_show=False)overlap=Overlap()overlap.add(bar)overlap.add(line,yaxis_index=1,is_add_yaxis=True)overlap.render(北京路段_房屋均价分布图.html从上图可以看出,平均价格在8000-10000之间的房屋数量最多,而1500-2000之间的房屋数量较少。据北京市统计局统计,2017年全市居民月人均可支配收入4769元。根据北京市统计局的数据,2017年该市居民的月人均可支配收入为4769元。此外,根据58个城市和市场网络发布的报告,2017年北京人均月租金为2795元。北京租房者的租金收入比惊人地接近60%。很多人一半的收入都花在租房上,生活就这样锁定在贫困线上。统计数据还显示,北京租房者整体收入较低。47%的租房人年薪在10万以下。在北京,每月能负担得起5000元左右的房间
推荐阅读
- 淘宝不能加购物车是怎么回事?
我的淘宝为什么加不到购物车?因为淘宝的购物车是有数量限制的。如果你的淘宝加不到购物车,也就是说你选择的商品没有办法再加入购物车了。 那么最可能的原因就是你的购物车里面已经有100件商品了。 这种情况下你可以浏览一下你的购物车,把其中你不…查看详情
- 利用windows防火墙可以干嘛
Windows防火墙的功能和特点有哪些?Windows自带的防火墙只是一个网络防火墙,对于绝大多数的网络病毒却无能为力,所以病毒防火墙还是必须要装的。windows防火墙其实只是个简单的访问规则管理工具,并不是严格意义上的防火墙,windo…查看详情
- 前端和后端哪个好学
前端和后端到底哪个难?从一个初入行的程序员的角度来看前端入门很简单,要完成项目实际所需的效果很难,需要对CSS和JS有很深入的认识,况且现在的前端工程师都需要会一些前端的框架以提高开发速度,而且前端像是Node.js直接可以搭建服务器,功能…查看详情
- 前期网站建设规划需要注意哪些?
网页设计模板在一定意义上来说,对企业网站只是起到一个建设性的基础示范性作用,而在建设网站之前,根据企业或公司的实际情况做好前期的建站准备才是真正能够带来有效价值的关键。在网站建设过程中,前期的网站建设规划是否准确决定了网站建设的成败。我们始…查看详情
- 网站建设价格明细:建一个网站需要多少钱?
互联网普及后,企业由于发展和宣传需要,都会建设自己企业的网站,但是建设一个网站费用问题是很模糊的概念。因为需求决定了价格。今天,小编就为大家说一说网站建设价格。图片来源于网络一、费用区别1、需求决定费用网站的需求决定了网站费用的高低,功能全…查看详情
- 服装类商标如何注册 服装类商标注册技巧
现在商标也分为很多的行业和类别,而且不同的类别商标注册的细节也有一定的差别,下面万商云集小编给大家来详细介绍一下服装类商标如何注册 服装类商标注册技巧这一块的内容,希望大家通过下面的内容能对服装类商标注册有一个新的认识。 服装类商标如何注…查看详情
- 便签软件 简洁的便签app
有一些人把桌面便签软件当做工作小助手,协助高效办公,平时使用桌面便签的时候,记录备忘工作任务,提醒工作待办,一款简单好用的桌面便签软件能够带来很多方便,那么,有没有什么推荐的好用的桌面便签之类的软件呢? 桌面便签软件推荐使用敬业签,功…查看详情
- 制造业的erp系统功能都有哪些
随着智能时代的到来,制造业逐渐从人工主导变成智能主动,为未来的制造业描绘了一幅全新的蓝图,主要以数字化、智能化以及网络化为主的发展趋势。所以制造业的转型,早已成了必然的趋势。也就是这个时候,属于制造业的erp系统应运而生了。一个能将企业资源…查看详情
- 玄幻小说排行榜,这几本都是必看的
在平时的生活中有时间的话,很多人都会选择看小说,而小说的类型也非常多,比如说有都市言情小说或者是有玄幻小说,以及武侠小说等等,而玄幻小说就是非常有魅力的,也有很多经典的玄幻小说可供大家选择,那么玄幻小说排行榜,下面就为大家详细的…查看详情
- 中小企业网站如何做视觉设计?
什么是网站的视觉设计,简而言之,就是网站的外观。下面万商云集小编就给大家来介绍下中小企业网站如何做视觉设计?中小企业网站如何做视觉设计 视觉设计对网站有多重要?网站的外观对网站的发展是否重要?我相信很多人会回答:非常重要。虽然网站的内…查看详情
- windows10怎么搜索程序
Windows10怎么搜索程序? 在Windows10操作系统中,搜索程序的方法有很多种。以下是其中几种搜索程序的方法: 方法一: 1.打开开始菜单; 2.在菜单的搜索框中输入程序名或相关关键词; 3.系统即刻开始搜索,搜索结…查看详情
- 考勤系统哪个好用?2021最新考勤系统排名
考勤是企业进行员工管理的一个基础环节,是提升员工工作效率和积极性的一个好方式,考系统的选择通常与公司的规模、性质、预算、信息保密情况所挂钩,选择这么多,考勤系统哪个好用?可以从2021最新考勤系统排名中找到答案。 1.钉钉考勤系统 阿里巴巴…查看详情
- 浅谈中小企业网站建设方案
中小企业网站建设大致的方向就是需要做一个什么网站,网站的内容主要是围绕哪方面,客户群体以及网站的整体定位。企业网站建设方案是将企业网站建设成为一个优质网站,首先要考虑,网站建设方案能反应出网站的建设构想,初步形态及网站推广计划。根据小万多年…查看详情
- psd是什么文件的格式
psd格式图片有什么用?psd,格式,1.最大的作用是保持文件的最原始的信息,而其它格式都会失真! 2,可以在其它支持PSD格式的设计软件上通用,而文件信息能够适应当前软件配置的同时本身不会有很大的失真! 3.PSD格式支持多种…查看详情
- 要使用商标,去商标局注册又嫌麻烦,最坏结果会怎么样你知道吗?
注册商标较版权登记来说,更为复杂且时间更长。正因如此,部分商家为省去麻烦选择不注册商标,直接开始使用未注册商标。但此种行为不可取,因为一旦发生问题很严重。商标不注册会怎么样?往下看获取答案。 图片来源于网络 ● 什么是商标注册?商标是用于…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



