Python爬虫获取数据保存到数据库中的超详细教程(一看就会)

更新时间：2022年06月11日 16:37:02 作者：hippoDocker

使用爬虫爬数据,总要涉及到数据持久化,也就是数据存储的问题,下面这篇文章主要给大家介绍了关于Python爬虫获取数据保存到数据库中的超详细教程,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

1.简介介绍

-网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
-一般在浏览器上可以获取到的，通过爬虫也可以获取到，常见的爬虫语言有PHP,JAVA,C#,C++,Python，为啥我们经常听到说的都是Python爬虫，这是因为python爬虫比较简单，功能比较齐全。

2.Xpath获取页面信息

通过Xpath进行爬虫就是获取到页面html后通过路径的表达式来选取标签节点，沿着路径选取需要爬取的数据。

Xpath常用表达式：

表达式	描述
/	从根节点选取（取子节点）
//	选择的当前节点选择文档中的节点
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性
*	表示任意内容（通配符）
\|	运算符可以选取多个路径

Xpath常用函数：

函数	用法	解释
startswith()	xpath(‘//div[starts-with(@id,”celent”)]‘)	#选取id值以celent开头的div节点
contains()	xpath(‘//div[contains(@id,”celent”)]‘)	#选取id值包含celent的div节点
and()	xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘)	#选取id值包含celent的div节点
text()	_.xpath(’./div/div[4]/a/em/text()’)	#选取em标签下文本内容

Xpath实操解析：

# 案例1
# //为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/h1[1]为选取的节点下的第一个h1节点,如果没有[1]则是获取所有的,可以通过循环进行获取数据
etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()')

# 案例2
#//为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/a为获取当前节点下的所有a标签节点,得到一个ObjectList;通过for循环获取里面每个标签数据,./@src为获取当前节点的src属性值
etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')
for _ in etreeHtml2: 
	etreeHtml.xpath(./@src)

3.通过Xpath爬虫实操

本次实例以爬取我的CSDN文章列表信息保存到数据库为案列

3-1.获取xpath

通过F12打开开发者模式，点击左上角图标可参考下图，选择需要爬取数据的容器，在右边选择复制选择xpath就可以得到xpath路径了（//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div）；

完整代码展示：

# 导入需要的库
import requests
from lxml import etree
import pymysql


# 文章详情信息类
class articleData():
    def __init__(self, title, abstract, path,date):
        self.title = title #文章名称
        self.abstract = abstract #文章摘要
        self.path = path #文章路径
        self.date = date #发布时间


    def to_string(self):
        print("文章名称:"+self.title
              +";文章摘要:"+self.abstract
              +";文章路径:"+self.path
              +";发布时间:"+self.date)

#保存狗狗详情数据
#保存数据
def saveData(DataObject):
    count = pymysql.connect(
        host='xx.xx.xx.xx',  # 数据库地址
        port=3306,  # 数据库端口
        user='xxxxx',  # 数据库账号
        password='xxxxxx',  # 数据库密码
        db='xxxxxxx'  # 数据库名
    )
    # 创建数据库对象
    db = count.cursor()
    # 写入sql
    # print("写入数据:"+DataObject.to_string())
    sql = f"insert into article_detail(title,abstract,alias,path,date) " \
          f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"
    # 执行sql
    print(sql)
    db.execute(sql)
    # 保存修改内容
    count.commit()
    db.close()

# 爬取数据的方向
def getWebData():
    # 网站页面路径
    url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"
    # 请求头，模拟浏览器请求
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
    }
    # 获取页面所有节点代码
    html = requests.get(url=url, headers=header)
    # 打印页面代码查看
    # print(html.text)
    # 如果乱码可以设置编码格式
    # html.encoding = 'gb2312'
    # 通过xpath获取数据对应节点
    etreeHtml = etree.HTML(html.text)
    dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')
    # 循环获取数据
    for _ in dataHtml:
        # ''.join()是将内容转换为字符串可以后面接replace数据进行处理
        title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章标题
        abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要
        path = ''.join(_.xpath('./article/a/@href'))#文章路径
        date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('发布博客','')#发布时间
        #初始化文章类数据
        article_data = articleData(title,abstract,path,date)
        article_data.to_string() #打印数据看看是否对
        #保存数据到数据库
        # saveData(article_data)

if __name__ == "__main__":
    getWebData()

总结

到此这篇关于Python爬虫获取数据保存到数据库中的文章就介绍到这了,更多相关Python爬虫数据保存到数据库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python实战小项目之Mnist手写数字识别
MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面通过一个小实例来带你了解它
2021-10-10
python读取mat文件生成h5文件的实现
这篇文章主要介绍了python读取mat文件生成h5文件的实现方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-07-07
Python自动化办公之Excel数据的写入
这篇文章主要为大家详细介绍一下Python中excel的写入模块- xlsxwriter，并利用该模块实现Excel数据的写入，感兴趣的小伙伴可以了解一下
2022-05-05
一文搞懂Python中pandas透视表pivot_table功能
透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表，也体会到它的强大功能，而在pandas中它被称作pivot_table，今天通过本文给大家介绍Python中pandas透视表pivot_table功能，感兴趣的朋友一起看看吧
2021-11-11
基于Python的数据分析与可视化
在当今数字化时代，数据分析和可视化已经成为了企业和个人必备的技能，Python 作为一种高级编程语言，具有易学易用、高效快捷的特点，在数据科学领域中得到了广泛应用，本篇文章将介绍基于 Python 的数据分析与可视化
2023-07-07
Python函数式编程指南（二）：从函数开始
这篇文章主要介绍了Python函数式编程指南（二）：从函数开始,本文讲解了定义一个函数、使用函数赋值、闭包、作为参数等内容,需要的朋友可以参考下
2015-06-06
python和pywin32实现窗口查找、遍历和点击的示例代码
这篇文章主要介绍了python和pywin32实现窗口查找、遍历和点击的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
Pandas提高数据分析效率的13个技巧汇总
这篇文章主要是为大家归纳整理了13个工作中常用到的pandas使用技巧，方便更高效地实现数据分析，感兴趣的小伙伴可以跟随小编一起学习一下
2022-05-05
关于torch.scatter与torch_scatter库的使用整理
这篇文章主要介绍了关于torch.scatter与torch_scatter库的使用整理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-09-09
Python实现的堆排序算法原理与用法实例分析
这篇文章主要介绍了Python实现的堆排序算法,简单描述了堆排序的原理,并结合实例形式分析了Python实现堆排序的相关操作技巧,代码中备有较为详细的注释便于理解,需要的朋友可以参考下
2017-11-11