用Python告诉你,现在的房租有多高?

  • 时间:
  • 浏览:1
  • 来源:uu快3app赚钱_uu快3大小计划注册

import pandas as pd

from
pyecharts import Bar, Line, Overlap

f = open(r'C:\Users\Administrator\Desktop\xuexi\我爱我家杭州租房.xlsx', 'rb')

数据可视化

xiaoqu_message = df.groupby(['xiaoqu'])

这里也有采用的单间价格,却说房间的总价,可不都能否看出随着房屋面积的增加,租金便也随其增加,符合常态。

loupan_message = df.groupby(['loupan'])

loupan_com = loupan_message['one_room_price'].agg(['mean', 'count'])

loupan_com.reset_index(inplace=True)

loupan_message_last = loupan_com.sort_values('count', ascending=False)[0:20]

attr = loupan_message_last['loupan']

v1 = loupan_message_last['count']

v2 = loupan_message_last['mean']

line = Line("杭州楼盘单间均价")

line.add("楼盘", attr, v2, is_stack=True, xaxis_rotate=500, yaxis_min=0, mark_point=["max", "min"], xaxis_interval=0, line_color='lightblue', line_width=4, mark_point_textcolor='black', mark_point_color='lightblue', is_splitline_show=False)

bar = Bar("杭州楼盘出租房数量&单间均价")

bar.add("楼盘", attr, v1, is_stack=True, xaxis_rotate=500, yaxis_min=0, xaxis_interval=0, is_splitline_show=False)

overlap = Overlap()

overlap.add(bar)

overlap.add(line, yaxis_index=1, is_add_yaxis=True)

overlap.render('杭州楼盘出租房数量&单间均价.html')

import re

import time

import requests

from lxml import etree

headers = {

针对租房信息的标题制作词云,可不都能否看出拎包入住是总出 最多的,这也与我爱我家的主打广告相契合,毕竟天天路过,想告诉我都难,精装、合租、家电齐全、交通便利、随时看房,那此也是一般租房者所关心的,当然价格也是不容忽视的。

import json

import requests

import pandas as pd

def get_lnglat(address): url = 'http://api.map.baidu.com/geocoder/v2/'

数据分派&数据清洗

f = open(r'C:\Users\Administrator\Desktop\xuexi\我爱我家杭州租房.xlsx', 'rb')

其中申花和三墩也有属于西湖区,这也与里边的西湖区的房源数量最多有了对应,滨江区政府的价格还是最高,对于滨江区政府的印象却说靠近吉利汽车,海康威视,还有却说距离钱塘江岸边很近,滨江区的图书馆也在那里,借书可不都能否支付宝免押金,这点果断好评。

本次主却说对我爱我家租房网站进行信息爬取,为那此要爬取我爱我家呢,也主却说下班回去的路可不都能否看见两家我爱我家的店面,好多好多 感觉信息应该较为可靠,便对网站下手啦,爬取手段挺简单的, 总出 的大问题主要有以下几点:

分析了我爱我家的5000多套出租房信息,可不都能否看出房源主要集中在西湖区、下城区、拱墅区、江干区、上城区。这里的房租我把它特意计算为单间价格,其中滨江区房租最高,这估计也是滨江作为高新区,阿里网易华为吉利海康威视等诸多上市公司云集的结果,毕竟大厂的员工薪水摆在那里,自然而然也就抬高了滨江的房租。针对房源的小区分布,我基于百度地图的API制作了一份房源分布热力图,不可不都能否更直观的看出来分布请况。

⑤对房间类型(几室几厅)的获取,曾经以为里边也有数字,而且总出 了 "多室多厅" 你例如的,好多好多 也予以判断删除,曾经里边必须对单间价格进行计算,会总出 错误

if __name__ == '__main__':

area_message = df.groupby(['area'])

passelse:

break pages = num

file = open(r'C:\Users\Administrator\Desktop\cuiqingcai\point.json', 'w')

原文发布时间为: 2018-11-500

本文作者:法纳斯特

本文来自云栖社区合作方式方式伙伴“守护程序员共成长”,了解相关信息可不都能否关注“守护程序员共成长”。

text = ''

continuedef get_area_page(area, link): key = 1

这是在新浪财经就看的一篇新闻,曾经初来杭州,房租涨没涨,我不清楚,而且房租高确我我随便说说实是指在的,说多了还是曾经穷呐...

http://lbsyun.baidu.com/jsdemo.htm#c1_15

def get_city_areas(url): response = requests.get(url, headers=headers)

④租房信息的标题会有英文符的逗号,会是因为 后期txt文件转存为csv文件,总出 错误,于是直接在信息获取的曾经直接替换

可不都能否看出杭州的出租房大多是分布在500到90平米之间,这也符合常态,毕竟面积过大,租不起,面积过小,住的不舒坦。

from wordcloud import WordCloud, ImageColorGenerator

import matplotlib.pyplot as plt

import pandas as pd

import jieba

f = open(r'C:\Users\Administrator\Desktop\xuexi\我爱我家杭州租房.xlsx', 'rb')

单间价格主要集中在50000-5000,这点我是深有体会的,毕竟上个月刚在杭州找的房子,曾经本人的预算是 50000-5000,网上一了解,好点的房子也有必须5000+,便找了个老小区入住,不得不向金钱大佬屈服,最后房租在5000以下,离公司挺近的,交通也算便利。

def main(): print("start the work")

杭州房租:钱塘两岸最高,奥体单间达48500元/月。不少人感叹:躲过了高房价,躲不不足房租,面对房租上涨,感觉身体被掏空。2018年的你例如夏天,房租正在成为摧垮年轻人的“第一根绳子 稻草”,在杭州打拼的你,所在的城区房租涨啥很久?你算是 还能潇洒地说出 “买不起房子,就租嘛”?

xiaoqu_message = df.groupby(['xiaoqu'])

xiaoqu_com = xiaoqu_message['one_room_price'].agg(['mean', 'count'])

xiaoqu_com.reset_index(inplace=True)

xiaoqu_message_last = xiaoqu_com.sort_values('count', ascending=False)[0:20]

attr = xiaoqu_message_last['xiaoqu']

v1 = xiaoqu_message_last['count']

v2 = xiaoqu_message_last['mean']

line = Line("杭州小区单间均价")

line.add("小区", attr, v2, is_stack=True, xaxis_rotate=500, yaxis_min=0, mark_point=["max", "min"], xaxis_interval=0, line_color='lightblue', line_width=4, mark_point_textcolor='black', mark_point_color='lightblue', is_splitline_show=False)

bar = Bar("杭州小区出租房数量&单间均价")

bar.add("小区", attr, v1, is_stack=True, xaxis_rotate=500, yaxis_min=0, xaxis_interval=0, is_splitline_show=False)

overlap = Overlap()

overlap.add(bar)

overlap.add(line, yaxis_index=1, is_add_yaxis=True)

overlap.render('杭州小区出租房数量&单间均价.html')

接下来就用Python来分析一下杭州的租房请况,看看房租究竟有多高?

price_info = df['one_room_price']

bins = [0, 50000, 50000, 5000, 25000, 5000, 35000, 5000, 50000, 50000, 7000, 50000, 9000, 500000]

level = ['0-50000', '50000-50000', '50000-5000', '5000-25000', '25000-5000', '5000-35000', '35000-5000', '5000-50000', '50000-50000', '50000-7000', '7000-50000', '50000-9000', '500000以上']

price_stage = pd.cut(price_info, bins=bins, labels=level).value_counts().sort_index()

attr = price_stage.index

v1 = price_stage.values

bar = Bar("杭州出租房单间价格区间及数量")

bar.add("",attr,v1,is_stack=True, xaxis_rotate=500, yaxis_min=0, xaxis_interval=0, is_splitline_show=False)

bar.render("杭州出租房单间价格区间及数量.html")

最后成功获取信息。

square_info = df['square']

bins = [0, 500, 500, 90, 120, 5000, 500, 500]

level = ['0-500', '500-500', '500-90', '90-120', '120-5000', '5000-500', '500+']

df['square_level'] = pd.cut(square_info, bins=bins, labels=level)

df_message = df[['area', 'title', 'room_type', 'room_quantity', 'square', 'xiaoqu', 'loupan', 'price', 'one_room_price', 'square_level']]

prices_message = df_message.groupby(['square_level'])

prices_com = prices_message['price'].agg(['mean', 'count'])

prices_com.reset_index(inplace=True)

attr = prices_com['square_level']

v1 = prices_com['mean']

bar = Bar("杭州出租房房屋面积&价位分布")

bar.add("房租", attr, v1, is_stack=True, xaxis_rotate=500, yaxis_min=0, xaxis_interval=0, is_splitline_show=False)

bar.render("杭州出租房房屋面积&价位分布.html")

里加上你的密匙及获取的经纬度,而且调整地图中心点经纬度(500.28,120.16)、地图层级(12)、半径大小(35)、最大数量(1500),便可得到热力图,这里边必须注意的却说信息完善,曾经地点信息不完整版,会是因为 经纬度查询错误,返回错误的经纬度,好多好多 针对返回错误经纬度的地点,进行手动查询地点信息,最后获取相对完整版的地点信息,而且再在表格中手动修改(本人合适有个有几个)。

①富阳区、海宁市这样房源信息,为空白无信息一页,直接跳过

②各个区域的租房信息总页数为 "..." ,好多好多 无法直接获取,便通过下一页的链接,不断的判断,最后获取总页数

def get_house_message(area, url): print(url)

这里东方君悦的房租及其的高,曾经初来杭州对那此地产却说了解,特意百度了一下,曾经是在钱塘江边,靠近市民中心,江景房、管家式服务、高端酒店式公寓,居然租房界的贵族...

你例如是经纬度获取的代码,通过调用百度地图的API,实现对地点的经纬度获取,而且在

③正常来说一页网页里是有500个房源的,而且最后一页一般是没到500个房源,好多好多 必须判断最后一页有有几个房源

square_info = df['square']

bins = [0, 500, 500, 90, 120, 5000, 500, 500]

level = ['0-500', '500-500', '500-90', '90-120', '120-5000', '5000-500', '500+']

square_stage = pd.cut(square_info, bins=bins, labels=level).value_counts().sort_index()

attr = square_stage.index

v1 = square_stage.values

pie = Pie("杭州出租房房屋面积分布", title_pos='center')

pie.add("", attr, v1, radius=[40, 75], label_text_color=None, is_label_show=True, legend_orient="vertical", legend_pos="left",)

pie.render('杭州出租房房屋面积分布.html')