欢迎光临小铲车网站,本公司小铲车可靠性高,挖掘力大,驱动桥重载,高效省油安全可靠

小铲车

小铲车百人研发团队品质有保证

【天津二手20小叉车待售】用Python对天津二手房做一个简单的分析

作者:安尼      发布时间:2021-04-14      浏览量:0
在MySQL里偶然看到去年被scr

在MySQL里偶然看到去年被scrapy爬的天津是二手房信息。因为当时不知道熊猫和matplotlib的用法,所以没有使用抓取的数据。既然今天看到了,我就试着简单分析一下。首先当然是引导模块。

从pymysql import connectimport seaborn作为sns % matplotlib inlinesns.set()导入熊猫作为pdimport matplotlib.pyplot作为PLT。

db=connect('localhost ',' root ',' 666666 ',' Fang TIA ')df=PD . read _ SQL(' select * from ershou ',con=db,index_col='id')df.head().

首先,通过read_sql函数读取MySQL中一个叫做‘尔寿’的表,检查表的前五行如下。

咳咳,英语不好。我当时是随便开始这些领域的,你懂什么意思吧~

df.info()

可以看到没有遗漏字段,说明我当时爬的很完美,呵呵。但是数据量有点少,879。

df . description()

description()函数返回数据集的一些基本统计信息。从以上统计中,分别表示了数据的个数、平均值、标准差、最小值、下四分位数、中值、上四分位数和最大值。从这些统计结果中,我们可以得出一些结论,最大的住房面积是900平方米,最小的是17平方米。最便宜的房子单价5116平米,最贵的房子单价95960平米。平均建筑面积98平米,平均单价22084平米/米(要赶上天津的平均水质,我说亚历山大。)。

PLT . rcparams[' font . sans-serif ']=[' SimHei ']PLT . rcparams[' axes . unicode _减号']=Falsplt . fig size=(16,6))df . group by(' address ')[' price ']。平均值()。sort_values(升序=False)。情节(种类='酒吧').

可以看出,和平区的房价水平远远领先于其他地区。不出所料,全市六个区的房价排名前六。开发区(即滨海新区)和西青区的房价紧跟全市六区房价。另外,数据中没有冀州区的房价信息。

PLT . fig(fig size=(16,6))sns.boxplot(x='address ',y='price ',data=df).

从方框图可以看出,最贵的房子在和平区。我还是对这个房子很好奇。这是什么房子,价格这么好~

df[df['price'] 90000]

搜索了一下,发现只有一套单价超过9w的房子,属于所谓的独栋,39平,380万!初步了解后,中厚里是一个很老的小区。由于其地理位置,它靠近滨江路,实验小学,华钥中学和天津一中。它占用了资源的优势,既不昂贵,也不合理。另外,这是去年底抓取的数据,现在这个社区已经破10w了。

df['mode']。value_counts()

发现有叫“暂时不可用”的户型,总数不多,只有8个,可以直接删除。

df=df[df['mode']!='暂时不可用'] df ['mode']。value _ counts(升序=true)。图(种类=' bar ',图大小=(6,15))。

大多是普通户型,其中两室户型是绝对主力。当然,一室是很多刚毕业的年轻人的首选,三室也是有一定经济实力的,或者有第一套房子的,所以考虑换一个空间充裕的家庭。这里有六个房间和八个房间。这是什么房子?我又有点好奇了。

Df[df['mode']。isin(['8个房间,4个大厅和5个浴室',' 6个房间,2个大厅和4个浴室'])]

通过筛选,原来这两栋别墅是别墅。嗯,贫穷限制了我的想象力。

f,[ax1,ax2]=PLT . subtracts(1,2,figsize=(16,6))sns.distplot(df['area'],bins=30,ax=ax1,color=' g ')SNS . kdeplot(df[' area '],shade=True,ax=ax1)sns.regplot(x='area ',y='total_price ',data=df,ax=ax2).

通过左图可以知道面积分布,属于右分布,说明有很多二手房超出了正常的居住面积。右图描绘的是房屋面积与总价的关系,可以看出两者是正相关的,即面积越大,价格越高,符合大家的认知。

df['floor']。value_counts()。情节(种类='酒吧').

可见中层二手房比较多,但三种类型的数量相差不大。单比较楼层数意义不大。我们关心的是各类楼层对房价是否有影响。下面简单对比一下各个楼层的二手房均价。

df . group by(' floor ')[' total _ price ']。平均值()。情节(种类='酒吧').

对比发现,低层二手房均价较高,而中高层价格基本持平。这有点违背我的常识。