使用python爬虫实现抓取动态加载数据

 更新时间:2024年01月31日 08:59:40   作者:骑车打猪草  
这篇文章主要给大家介绍了如何用python爬虫抓取豆瓣电影“分类排行榜”中的电影数据,比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,文中通过代码示例和图文介绍的非常详细,需要的朋友可以参考下

确定网站类型

首先要明确豆瓣电影网站(movie.douban.com)的类型,即是动态还是静态。检查方法:右键查看网页源码 —> 搜索“辛德勒的名单”关键字,如下图所示:

图1:分析网站类型

最终发现源码页中没有出现想要抓取的数据,只有一大堆的 JS 代码,由此确定该网站为动态网站。

影片详情信息

接下来,使用快捷键 F12 打开控制台进行抓包,点击NetWork选项卡 —>XHR选项 —> Preview选项卡 —> 刷新当前页面抓取数据包,如下图所示:

图2:抓取动态网站数据包

从图 2 可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用 Ajax 异步加载技术实现的。

通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息,如下所示:

图3:分析Headers信息

从上图可以得知请求的基准 URL (由于还未拼接查询参数,所以称之为基准 URL),如下所示:

'https://movie.douban.com/j/chart/top_list?'

继续滚动鼠标滑轮可知查询参数具有如下规律:

type: 4  # 电影类型
interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片)
action: ''  # 空
start: 0  # 每次加载电影的起始索引值 0 20 40 60
limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变

注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:

图4:寻找查询参数值的规律

影片总数量

注意:第一个数据包反映了每个类型中电影的总数量,其 url 与响应信息如下:

请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90
Response信息:{"playable_count":41,"total":104,"unwatched_count":104}

影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中,如下所示:

图5:影片类型与类型码

分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单“menu”,代码如下所示:

import re

def get_all_type_films(self):
    # 获取影片类型和类型码
    url = 'https://movie.douban.com/chart'
    headers = self.get_headers()
    html = requests.get(url=url, headers=headers).text
    re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
    pattern = re.compile(re_bds, re.S)
    r_list = pattern.findall(html)
    # 存放所有类型和对应类型码大字典
    type_dict = {}
    # 定义一个选择电影类型的菜单
    menu = ''
    # r_list[{'剧情 , 11'},{},..]
    for r in r_list:
        type_dict[r[0].strip()] = r[1].strip()
        # 获取input的菜单,显示所有电影类型
        menu += r[0].strip() + '|'
    #返回类型字典以供后续函数调用,并返回输入菜单menu
    # {'剧情': '11', '喜剧': '24',...}
    return type_dict, menu

编写完整程序

完成上述分析后,下面开始编写 Python 爬虫程序,代码如下:

#coding:utf8
import requests
import time
import random
import re
import json
from ua_info import ua_list


class DoubanSpider(object):
    def __init__(self):
        self.url = 'https://movie.douban.com/j/chart/top_list?'
        self.i = 0

    # 获取随机headers
    def get_headers(self):
        headers = {'User-Agent':random.choice(ua_list)}
        return headers

    # 获取页面
    def get_page(self,params):
      # 将json转换为 python 数据类型,并返回
      html = requests.get(url=self.url,params=params,headers=self.get_headers()).text
      html=json.loads(html)
      self.parse_page(html)

    # 解析并保存数据
    def parse_page(self,html):
       item = {}
        # html列表类型: [{电影1},{电影2},{电影3}...]
       for one in html:
            # 名称 + 评分
           item['name'] = one['title'].strip()
           item['score'] = float(one['score'].strip())
           print(item)
           self.i += 1

    # 获取电影总数
    def total_number(self,type_number):
        # F12抓包抓到的地址,type表示电影类型
        url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).json()
        total = int(html['total'])
        return total

    # 获取所有电影的类型和对应type值
    def get_all_type_films(self):
        # 获取类型与类型码
        url = 'https://movie.douban.com/chart'
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).text
        re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
        pattern = re.compile(re_bds,re.S)
        r_list = pattern.findall(html)
        # 存放所有类型和对应类型码大字典
        type_dict = {}
        #定义一个选择电影类型的菜单
        menu = ''
        for r in r_list:
            type_dict[r[0].strip()] = r[1].strip()
            # 获取input的菜单,显示所有电影类型
            menu += r[0].strip() + '|'

        return type_dict,menu

    # 主程序入口函数
    def main(self):
        # 获取type的值
        type_dict,menu = self.get_all_type_films()
        menu = menu + '\n你想了解什么类型电影:'
        name = input(menu)
        type_number = type_dict[name]
        # 获取电影总数
        total = self.total_number(type_number)
        for start in range(0,(total+1),20):
           #构建查询参数
            params = {
                'type' : type_number,
                'interval_id' : '100:90',
                'action' : '',
                'start' : str(start),
                'limit' : '20'
            }
            # 调用函数,传递params参数
            self.get_page(params)
            # 随机休眠1-3秒
            time.sleep(random.randint(1,3))
        print('电影总数量:%d部'%self.i )

if __name__ == '__main__':
    spider = DoubanSpider()
    spider.main()

最后

以上就是使用python爬虫实现抓取动态加载数据的详细内容,更多关于python抓取动态加载数据的资料请关注脚本之家其它相关文章!

相关文章

  • python爬虫获取小区经纬度以及结构化地址

    python爬虫获取小区经纬度以及结构化地址

    这篇文章主要为大家详细介绍了python爬虫获取小区经纬度,以及结构化的地址,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-12-12
  • 浅谈django中的认证与登录

    浅谈django中的认证与登录

    下面小编就为大家带来一篇浅谈django中的认证与登录。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-10-10
  • python基础教程之基本数据类型和变量声明介绍

    python基础教程之基本数据类型和变量声明介绍

    这篇文章主要介绍了python基础教程之基本数据类型和变量声明介绍,首先讲解了变量声明的一些知识,然后列出最常用的基本数据类型,需要的朋友可以参考下
    2014-08-08
  • PyTorch中torch.utils.data.DataLoader简单介绍与使用方法

    PyTorch中torch.utils.data.DataLoader简单介绍与使用方法

    DataLoader是PyTorch中读取数据的一个重要接口,基本上用PyTorch训练模型都会用到,下面这篇文章主要给大家介绍了关于PyTorch中torch.utils.data.DataLoader简单介绍与使用方法的相关资料,需要的朋友可以参考下
    2022-06-06
  • Python多线程模块Threading用法示例小结

    Python多线程模块Threading用法示例小结

    这篇文章主要介绍了Python多线程模块Threading用法,结合实例形式分析了Python多线程模块Threading相关概念、原理、进程与线程的区别及使用技巧,需要的朋友可以参考下
    2019-11-11
  • Flask框架debug与配置项的开启与设置详解

    Flask框架debug与配置项的开启与设置详解

    这篇文章主要介绍了Flask框架debug与配置项的开启与设置,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-09-09
  • Python实现自动化刷抖音的实例

    Python实现自动化刷抖音的实例

    今天我们来学习如何用Python实现自动刷抖音,并为颜值高的的小哥哥小姐姐点赞并评论。感兴趣的可以了解一下
    2021-06-06
  • 用Python中的wxPython实现最基本的浏览器功能

    用Python中的wxPython实现最基本的浏览器功能

    这篇文章主要介绍了用Python中的wxPython实现基本的浏览器功能,本文来自于IBM官方网站开发者文档,需要的朋友可以参考下
    2015-04-04
  • Python中赋值运算符的含义与使用方法

    Python中赋值运算符的含义与使用方法

    赋值运算符主要用来为变量(或常量)赋值,在使用时,既可以直接用基本赋值运算符“=”将右侧的值赋给左侧的变量,右侧也可以在进行某些运算后再赋值给左侧的变量,下面这篇文章主要给大家介绍了关于Python中赋值运算符的含义与使用方法的相关资料,需要的朋友可以参考下
    2022-03-03
  • Python异常与错误处理详细讲解

    Python异常与错误处理详细讲解

    这篇文章主要介绍了Python异常与错误处理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2022-12-12

最新评论