使用Scrapy框架爬取网页并保存到Mysql的实现

更新时间：2022年07月07日 10:17:50 作者：鄙人阿彬

本文主要介绍了使用Scrapy框架爬取网页并保存到Mysql的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

大家好，这一期阿彬给大家分享Scrapy爬虫框架与本地Mysql的使用。今天阿彬爬取的网页是虎扑体育网。

（1）打开虎扑体育网，分析一下网页的数据，使用xpath定位元素。

（2）在第一部分析网页之后就开始创建一个scrapy爬虫工程，在终端执行以下命令：
“scrapy startproject huty（注：‘hpty’是爬虫项目名称）”,得到了下图所示的工程包：

（3）进入到“hpty/hpty/spiders”目录下创建一个爬虫文件叫‘“sww”，在终端执行以下命令： “scrapy genspider sww” （4）在前两步做好之后，对整个爬虫工程相关的爬虫文件进行编辑。 1、setting文件的编辑：

把君子协议原本是True改为False。

再把这行原本被注释掉的代码把它打开。

2、对item文件进行编辑，这个文件是用来定义数据类型，代码如下：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class HptyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
 
    球员 = scrapy.Field()
    球队 = scrapy.Field()
    排名 = scrapy.Field()
    场均得分 = scrapy.Field()
    命中率 = scrapy.Field()
    三分命中率 = scrapy.Field()
    罚球命中率 = scrapy.Field()

3、对最重要的爬虫文件进行编辑（即“hpty”文件），代码如下：

import scrapy
from ..items import HptyItem
 
 
class SwwSpider(scrapy.Spider):
    name = 'sww'
    allowed_domains = ['https://nba.hupu.com/stats/players']
    start_urls = ['https://nba.hupu.com/stats/players']
 
    def parse(self, response):
        whh = response.xpath('//tbody/tr[not(@class)]')
        for i in whh:
            排名 = i.xpath(
                './td[1]/text()').extract()# 排名
            球员 = i.xpath(
                './td[2]/a/text()').extract()  # 球员
            球队 = i.xpath(
                './td[3]/a/text()').extract()  # 球队
            场均得分 = i.xpath(
                './td[4]/text()').extract()  # 得分
 
            命中率 = i.xpath(
                './td[6]/text()').extract()  # 命中率
            三分命中率 = i.xpath(
                './td[8]/text()').extract()  # 三分命中率
            罚球命中率 = i.xpath(
                './td[10]/text()').extract()  # 罚球命中率
 
            data = HptyItem(球员=球员, 球队=球队, 排名=排名, 场均得分=场均得分, 命中率=命中率, 三分命中率=三分命中率, 罚球命中率=罚球命中率)
            yield data

4、对pipelines文件进行编辑，代码如下：

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from cursor import cursor
from itemadapter import ItemAdapter
import pymysql
 
 
class HptyPipeline:
    def process_item(self, item, spider):
        db = pymysql.connect(host="Localhost", user="root", passwd="root", db="sww", charset="utf8")
        cursor = db.cursor()
        球员 = item["球员"][0]
        球队 = item["球队"][0]
        排名 = item["排名"][0]
        场均得分 = item["场均得分"][0]
        命中率 = item["命中率"]
        三分命中率 = item["三分命中率"][0]
        罚球命中率 = item["罚球命中率"][0]
        # 三分命中率 = item["三分命中率"][0].strip('%')
        # 罚球命中率 = item["罚球命中率"][0].strip('%')
 
        cursor.execute(
            'INSERT INTO nba(球员,球队,排名,场均得分,命中率,三分命中率,罚球命中率) VALUES (%s,%s,%s,%s,%s,%s,%s)',
            (球员, 球队, 排名, 场均得分, 命中率, 三分命中率, 罚球命中率)
        )
        # 对事务操作进行提交
        db.commit()
        # 关闭游标
        cursor.close()
        db.close()
        return item

（5）在scrapy框架设计好了之后，先到mysql创建一个名为“sww”的数据库，在该数据库下创建名为“nba”的数据表，代码如下： 1、创建数据库

create database sww;

2、创建数据表

create table nba (球员 char(20),球队 char(10),排名 char(10),场均得分 char(25),命中率 char(20),三分命中率 char(20),罚球命中率 char(20));

3、通过创建数据库和数据表可以看到该表的结构：

（6）在mysql创建数据表之后，再次回到终端，输入如下命令：“scrapy crawl sww”，得到的结果

到此这篇关于使用Scrapy框架爬取网页并保存到Mysql的实现的文章就介绍到这了,更多相关Scrapy爬取网页并保存内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

使用Python实现七大排序算法的代码实例
这篇文章主要介绍了使用Python实现七大排序算法的代码实例,所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作,需要的朋友可以参考下
2023-07-07
python 爬取天气网卫星图片
根据网站URL的规律编写的一个爬取天气网卫星图片的python爬虫，使用了requests包，感兴趣的朋友可以参考下
2021-06-06
python实现ipsec开权限实例
这篇文章主要介绍了python实现ipsec开权限的方法,弥补了windows自带的命令行工具netsh ipsec static add filter不支持批量添加及添加重复规则的不足,非常具有实用价值,需要的朋友可以参考下
2014-11-11
Python获取好友地区分布及好友性别分布情况代码详解
利用Python + wxpy 可以快速的查询自己好友的地区分布情况，以及好友的性别分布数量。还可以批量下载好友的头像，拼接成大图。感兴趣的朋友跟随小编一起看看吧
2019-07-07
python爬取免费代理并验证代理是否可用
这篇文章主要介绍了python爬取免费代理并验证是否可用,通过本文给大家介绍了在什么情况下会用到代理并分享脚本的完整代码，需要的朋友可以参考下
2022-01-01
python time模块时间戳与结构化时间详解
这篇文章主要介绍了python time模块时间戳与结构化时间的相关知识，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2022-06-06
pandas常用表连接merge/concat/join/append详解
使用python的pandas库可以很容易帮你搞定，而且性能也是很出色的；百万级的表关联，可以秒出，本文给大家分享pandas常用表连接merge/concat/join/append详解，感兴趣的朋友跟随小编一起看看吧
2023-02-02
Python正确调用 jar 包加密得到加密值的操作方法
这篇文章主要介绍了Python 正确调用 jar 包加密得到加密值的操作方法,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
Python利用tkinter和socket实现端口扫描
这篇文章主要为大家详细介绍了Python如何利用tkinter和socket实现端口扫描功能，文中的示例代码讲解详细，感兴趣的小伙伴可以尝试一下
2022-12-12
Keras中Conv1D的使用及说明
这篇文章主要介绍了Keras中Conv1D的使用及说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12

使用Scrapy框架爬取网页并保存到Mysql的实现

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具