ImageVerifierCode 换一换
格式:PDF , 页数:3 ,大小:1.53MB ,
资源ID:3075965      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/3075965.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于Python爬虫的二手房信息数据可视化分析.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于Python爬虫的二手房信息数据可视化分析.pdf

1、SOFTWARE2023软 件第 44 卷 第 7 期2023 年Vol.44,No.7基金项目:上海市科委科研计划项目“染色机器人管理软件系统”(17511110204)作者简介:马腾(1997),男,河南濮阳人,硕士研究生,研究方向:数据挖掘、推荐算法。通讯作者:余粟(1962),女,上海人,博士,教授,研究方向:数据挖掘、大数据分析。基于 Python 爬虫的二手房信息数据可视化分析马腾 余粟(上海工程技术大学,上海 201620)摘要:利用 Python 网络爬虫技术对各大城市的二手房信息进行爬虫分析,通过数据可视化技术,直观地展示二手房价和房源数量的城市分布及市场热点,分析二手房源的

2、面积、价格、户型情况等二手房市场现状,为政府干预房地产业提供参考,也为购房者提供帮助。关键词:Python;网络爬虫;二手房信息;数据可视化中图分类号:TP391.1 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.07.007本文著录格式:马腾,余粟.基于Python爬虫的二手房信息数据可视化分析J.软件,2023,44(07):029-031Visualization Analysis of Second-hand Housing Information Data Based on Python CrawlerMA Teng,YU Su(Shanghai

3、 University of Engineering Science,Shanghai 201620)【Abstract】:Using Python web crawler technology to crawler analysis of second-hand housing information in major cities.Through data visualization technology,the city distribution of second-hand housing prices and the number of housing resources and m

4、arket hot spots are visually displayed.And analyze the current situation of the second-hand housing market such as the area,price,and house type of the second-hand housing source,so as to provide reference for the governments intervention in the real estate industry and help for the buyers.【Key word

5、s】:Python;Web Crawler;second-hand housing information;data visualization 基金项目论文0 引言目前,房地产交易的重心已逐渐转移到二手房,二手房具有价格普遍偏低、地理位置较好的优势。然而,随着城市化进程加快,二手房交易市场鱼龙混杂,如何找到合适的房源信息已成为难题1。随着互联网技术的发展,人们开始通过交易网站来了解二手房信息,网络上存在大量的房源,使用 Python 爬虫技术从中爬取有用的数据,再进行统计和可视化分析,可以把冗杂的信息变得精简。本文旨在使用这种技术,分析各大城市的二手房源数量和平均房价,从户型、面积等多个角度

6、分析二手房市场现状,以方便购房者决策,也为政府干预房地产业提供参考。1 网络爬虫网络爬虫(Web Crawler)也称为“蜘蛛”,是一种在网络上自动地抓取数据的程序或脚本。网络爬虫的主要作用是在海量的网络信息中按一定规则进行爬取和存储信息2。网络爬虫模拟浏览器上网,指定初始一个或多个 URL,抓取初始 URL 页面上的数据并解析,获取当前页面中的一系列 URL 地址,把新获取的地址加入 URL 队列中,接下来不断地解析并存储队列中的网页数据,直到满足一定终止条件。爬虫的基本过程可以概括为以下四步3:(1)发出请求,程序向目标网站服务器发出请求,请求中通常包含 Headers 等信息,等待服务器

7、响应;(2)服务器响应,得到响应,其中有爬取的页面内容;(3)解析数据,响应中的内容可能有多种形式,使用正则表达式、解析库等方法进行解析,提取有效信息;30软 件第 44 卷 第 7 期SOFTWARE(4)保存数据,将数据保存到文件或数据库中。2 二手房房源数据爬取2.1 爬取对象研究对象是二手房交易网站上的房源信息,对比各二手房交易网站发现,链家网规模较大、房源信息较多,能够及时更新房源并保证信息真实可靠。选择链家网的二手房信息进行爬取,主要获取房源标题、房型、面积、总价、单价等数据,以分析二手房交易市场现状。2.2 爬取流程2.2.1 分析 URL链家网上包含全国各大城市的二手房信息,以

8、北京二手房为例,网址为 https:/ 爬取数据通过调用 Requests 库实现自动爬取 HTML 页面,模拟人类点击页面的操作自动提交请求。Requests 库是 Python 中常用的一个 HTTP 库,高度封装了爬虫模块,方便用户爬取网页数据。首先通过 requests.get()函数向服务器发出请求,服务器把网页内容封装成一个Response 对象返回;再用 etree.HTML()函数将字符串格式的 HTML 文档转换为 Element 对象,方便后续解析。关键代码如下:url=https:/ Xpath 解析数据Xpath通过路径表达式来寻找文档中的节点,提取其中的内容。例如,房

9、源标题信在标签 中,通过 xpath(./divclass=title/a/text()0就可以提取到房源标题。解析代码,提取到房源的标题、标签、总价、房价等数据;利用 split()函数根据“|”切割房源标签,得到其中包含的户型、面积等信息。关键代码如下:title=div.xpath(./divclass=title/a/text()0#标题info=div.xpath(./divclass=address/div/text()0#标签price=div.xpath(./divclass=priceInfo/div1/span/text()0#总价unitprice=div.xpath(.

10、/divclass=priceInfo/div2/span/text()0#单价infoSplit=info.split(|)type=infoSplit0#户型area=infoSplit1#面积2.2.4 保存数据解析数据后,将每个二手房源信息的数据以字典的形式进行封装,再用 csv.writer.writerow()函数将封装好的数据写入到 CSV 文件中。CSV 文件数据交换方便,还可以使用 Excle 方式查看。3 二手房市场分析及数据可视化 数据可视化是将数据以图形的形式展示出来,使数据直观易分析。Matplotlib 库是 Python 中应用最广泛的可视化库,可以快速地绘制条形

11、图、饼状图、散点图等图形,直观地呈现数据,方便人们理解数据,更好地帮助人们决策4。3.1 数据预处理通过网络爬虫得到二手房源数据,对其进行数据预处理,删除异常值,并整合数据,以便进行数据可视化。具体如下:(1)删除缺失户型、房屋面积等关键数据的房源信息,保留缺失房屋建造年份、楼房结构等非关键数据的房源信息。(2)删除房屋面积、总价、房价数据中的单位信息,只保留数字,以方便进行数据分析与绘制图表。例如,“164.36 平米”改为“164.36”。3.2 数据可视化3.2.1 二手房市场城市分析随着房地产行业的发展,全国各地的房价存在较大差异,因此不同城市的二手房源数量也会有所不同。选取了全国 2

12、0 个城市,统计二手房信息并绘制图表如图 1所示。据二手房房源数量的统计结果可以看出,房价之间存在不同差异,房价较高的城市房源数量相对较少,房价较低的城市房源数量相对较多。3.2.2 二手房源热点分析二手房交易网站的房源信息很多,为了吸引购房者浏览,房源标题会包含特定词语介绍并突出优势。为了分析二手房源的热点,将房源标题数据转为文本,利用 Jieba库对文本内容分词,统计词频,再利用 WordCloud 库绘制词云图,如图 2 所示。词频最高的是“精装修”,说明购房者更喜欢装修好的房子,方便直接入住;“户型方正”“中间楼层”“南北通透”“采光好”的词频也较高,说明户型、楼层高度、采光状态受到购

13、房者的关注,这些因素均与住户的居住体验密切相关,表明购房31马腾 余粟:基于 Python 爬虫的二手房信息数据可视化分析者买二手房的目的是自住,而非投资。3.2.3 二手房源数据分析为了直观地分析二手房市场现状,以杭州市为例,对杭州二手房源的总价和面积进行关联分析,形成了总价-面积散点图,如图 3 所示。150m2以内的小户型房源,其总价和面积的相关性较强,其在二手房市场的占比较高,是购房者的首选目标,而且购房者对价格较为敏感。150m2以上的大户型房源,随着面积的增加,与总价的相关性逐渐变弱。购房者购买大户型的主要目的是改善生活质量,会更注重房源的内装质量、周边配套及交通便利等因素,对房价

14、的敏感性较低。4 结论 本文基于 Python 编程语言,爬取了网络上的二手房源数据并进行了分析,通过可视化图形直观地展示了二手房价和房源数量的城市分布及市场热点,为未来购房者提供了便利。参考文献1 雷子尧.房地产业对中国宏观经济影响分析J.中小企业管理与科技,2022(20):122-124.2 潘晓英,陈柳,余慧敏,等.主题爬虫技术研究综述J.计算机应用研究,2020,37(4):961-965+972.3 蔡文乐,周晴晴,刘玉婷,等.基于Python爬虫的豆瓣电影影评数据可视化分析J.现代信息科技,2021,5(18):86-89+93.4 钱贝贝,陈志波.基于Python爬虫的音乐数据可视化分析J.电脑知识与技术,2022,18(8):6-8.图 3 二手房总价-面积散点图Fig.3 Total price of second-hand housing-area scatter chart图 1 各城市二手房价、数量统计图Fig.1 Statistical chart of second-hand housing prices and quantity in each city图 2 房源标题关键字词云图Fig.2 Cloud chart of key words in the listing title

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2