python爬取链家二手房的数据

 更新时间:2021年05月22日 08:41:04   作者:秋无之地  
相信大家买房前都会在网上找找资料,看看行情,问问朋友,今天就用python带大家扒一扒《链家二手房》的数据

一、查找数据所在位置:

打开链家官网,进入二手房页面,选取某个城市,可以看到该城市房源总数以及房源列表数据。

二、确定数据存放位置:

某些网站的数据是存放在html中,而有些却api接口,甚至有些加密在js中,还好链家的房源数据是存放到html中:

三、获取html数据:

通过requests请求页面,获取每页的html数据

# 爬取的url,默认爬取的南京的链家房产信息
url = 'https://nj.lianjia.com/ershoufang/pg{}/'.format(page)
# 请求url
resp = requests.get(url, headers=headers, timeout=10)

四、解析html,提取有用数据:

通过BeautifulSoup解析html,并提取相应有用的数据

soup = BeautifulSoup(resp.content, 'lxml')
# 筛选全部的li标签
sellListContent = soup.select('.sellListContent li.LOGCLICKDATA')
# 循环遍历
for sell in sellListContent:
    # 标题
    title = sell.select('div.title a')[0].string
    # 先抓取全部的div信息,再针对每一条进行提取
    houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings)
    # 楼盘名字
    loupan = houseInfo[0]
    # 对楼盘的信息进行分割
    info = houseInfo[0].split('|')
    # 房子类型
    house_type = info[1].strip()
    # 面积大小
    area = info[2].strip()
    # 房间朝向
    toward = info[3].strip()
    # 装修类型
    renovation = info[4].strip()
    # 房屋地址
    positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings))
    # 房屋总价
    totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings))
    # 房屋单价
    unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取链家二手房的数据的详细内容,更多关于python爬取链家二手房的资料请关注脚本之家其它相关文章!

相关文章

  • python 控制台单行刷新,多行刷新实例

    python 控制台单行刷新,多行刷新实例

    今天小编就为大家分享一篇python 控制台单行刷新,多行刷新实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • 详解appium自动化测试工具(monitor、uiautomatorviewer)

    详解appium自动化测试工具(monitor、uiautomatorviewer)

    这篇文章主要介绍了详解appium自动化测试工具(monitor、uiautomatorviewer),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 浅谈spring boot 集成 log4j 解决与logback冲突的问题

    浅谈spring boot 集成 log4j 解决与logback冲突的问题

    今天小编就为大家分享一篇浅谈spring boot 集成 log4j 解决与logback冲突的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python Scrapy图片爬取原理及代码实例

    Python Scrapy图片爬取原理及代码实例

    这篇文章主要介绍了Python Scrapy图片爬取原理及代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python中jieba库的介绍与使用

    Python中jieba库的介绍与使用

    使用jieba库对一段文本进行词频的统计是一件非常有意思的事,我们只需要使用这第三方库,就可以在不阅读文本的情况下,得到该文本的高频率词汇,这篇文章主要介绍了Python中jieba库的介绍与使用,需要的朋友可以参考下
    2023-03-03
  • python利用requests库模拟post请求时json的使用教程

    python利用requests库模拟post请求时json的使用教程

    这篇文章主要介绍了python利用requests库模拟post请求时json的使用 ,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-12-12
  • Python中X[:,0]和X[:,1]的用法

    Python中X[:,0]和X[:,1]的用法

    这篇文章主要介绍了Python中X[:,0]和X[:,1]的用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • python 存储变量的几种方法(推荐)

    python 存储变量的几种方法(推荐)

    这篇文章主要介绍了python 存储变量的几种方法,包括numpy 自带方法,pandas 自带方法,sklearn 的自带方法和pickle 库操作方法,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下
    2022-11-11
  • Python连接MySQL数据库的四种方法

    Python连接MySQL数据库的四种方法

    用 Python 连接到 MySQL 数据库的方法不是很系统,实际中有几种不同的连接方法,而且不是所有的方法都能与不同的操作系统很好地配合,本文涵盖了四种方法,你可以用它们来连接你的Python应用程序和MySQL,需要的朋友可以参考下
    2024-08-08
  • linux环境部署清华大学大模型最新版 chatglm2-6b 图文教程

    linux环境部署清华大学大模型最新版 chatglm2-6b 图文教程

    这篇文章主要介绍了linux环境部署清华大学大模型最新版 chatglm2-6b ,结合实例形式详细分析了Linux环境下chatglm2-6b部署相关操作步骤与注意事项,需要的朋友可以参考下
    2023-07-07

最新评论