上海徐汇房价_上海徐汇房价多少
- 时间:
- 浏览:66
- 来源:奥一装修网
本文中使用的数据是Anjuke的二手房数据(爬虫级别不好,只是对其进行爬网,所以在这里我使用章鱼直接捕获数据,之后补充了爬行动物程序,章鱼爬网了。非常简单,无法做到这一点的学生,请参阅此链接)。我总共导出了多条数据。我是一个纯白色的人,因此引用了数据分析的过程,并在其中添加了一些代码。一,初步分析,总体二手房价格分析上海的二手房清单是面积价格(元/平方米)。最高价格为:最低价格为:平均价格为:中位数为:从图像中看到上海二手房价格的分布图像显示上海的二手房呈右手分布。 3.影响房价的因素分析首先,让我们看一下不同行政区域内的房价:从图中的结果可以看出,崇明的二手房价格最低,价格最高。在徐汇和长宁都很高。时间。让我们看一下各个行政区域的房价箱型图的分布:箱型图显示浦东,徐汇和静安的离群值较高,上海,崇明和金山附近的房价较低且集中。从散点图可以看到面积与房价的相关性分析。第一个梯队的黑色散布相对偏向左上方,并且前一个梯队的整体高于后一个梯队。此处使用线性回归结果显示了面积与房价之间的具体关系:上面的直线图显示,第一条梯度线的斜率是正的,也就是说,随着面积的增加,单位住房价格会上升并与其他线基本上较陡,即位于繁荣地区的上海二手房的单价随着面积的增加而具有较大的斜率。实际上,金山,虹口和杨浦的房屋随着面积的增加而减少,二手房的二次梯度中单位面积的房价下降,随着面积的增加,二手房的单价也随之增加。增加。真的很有价值房屋单位面积的价格不是很高,不是在繁荣的地区。它不像繁荣地区那样有价值。二,位置的进一步分析接下来,将对位置进行进一步的分析。绘制二手房的热图绘制二手房的热图时,我们需要每个房屋的纬度和经度坐标,这些坐标可以在百度的帮助下获得。 【如何获取百度:进入,注册后进入控制台,创建应用程序,当需要应用程序类别时注意浏览器端,否则将无法打开。
您会得到您的,然后可以使用它来爬网数据。】保存纬度和经度数据后,我们可以读取它,并且纬度,经度和价格数据可以填写为网页格式。转换方法如下:获取经纬度价格数据后,可以将数据更改为自己的数据。 (我曾经粘贴此处使用的网页代码)然后,由于我在上海学习二手房,因此将(经度,纬度)更改为上海的经度。最后,将得出以下结果:关于绘制热图的方法,这非常粗糙。如果您有兴趣,可以看一下此页面:获取每所房屋与区政府和最近的地铁站之间的距离,以获取房屋。取上海地铁站与区政府的坐标位置:计算区政府与最近的地铁站的距离时,可以使用百度地图获取。我直接使用经度和纬度计算方法进行了计算(请参阅链接:)获得的距离数据和价格还绘制了一个散点图,以查看两对之间是否存在关系。上图显示,虽然长宁区等第一梯队地区距离区政府较远,但并不影响其高房价。一些列表非常靠近地铁站。对于四个梯度房屋,散点图没有明显的趋势来显示地铁对房价的影响,需要进一步研究。 3.机器学习预测在这里。我已经收集了进行预测所需的所有数据。实际上,有许多因素会影响房价。因此,下一步是使用机器学习方法来综合考虑多种因素对房价的影响并建立预测模型。数据涉及自变量(房屋大小,行政区划,距区政府和最近的地铁站的距离)和因变量(房屋价格)。行政区划以文字为特征。在这里,您需要在进行预测之前使用编码。首先通过编码修改特征“”,线性回归预测散点图表明模型预测效果很好,但是当房价高时,低房价的预测效果不好。支持向量机回归支持向量机回归使用不同的内核函数进行回归。具体结果是:每个结果都显示了对测试集的拟合结果,径向基核函数的支持向量机回归更好。但是,它比线性回归和集成模型回归稍差。集成模型使用随机森林,极端随机森林和梯度提升回归进行研究。根据三个集成模型的回归结果,对所需库进行了改进,随机森林的回归效果更好。
同时可视化随机森林的回归结果:比较线性回归和随机森林的图,可以直观地看出,随机森林回归的预测效果在高房价预测中更好。 4.结论本文使用八达通获取上海的二手房数据,使用百度获取房屋的具体位置,计算从区政府到最近的地铁站的距离,最后使用房价和面积,相距两个距离,区政府根据情况来预测房价。以下机器学习预测的撰写较为笼统,因为我不了解这些算法的原理,因此,我将花一些时间详细研究它们,并对这些数据进行更有效,更全面的分析。