使用python实现简单爬取网页数据并导入MySQL中的数据库

 更新时间:2023年06月20日 09:59:34   作者:A等天晴  
这篇文章主要为大家详细介绍了如何使用 python 实现简单爬取网页数据并导入 MySQL 中的数据库,对我们的学习或工作有一定的帮助,需要的朋友可以参考下

前言:要使用 Python 爬取网页数据并将数据导入 MySQL 数据库,您需要使用 Requests 库进行网页抓取,使用 BeautifulSoup 库对抓取到的 HTML 进行解析,并使用 PyMySQL 库与 MySQL 进行交互。

以下是一个简单的示例:

1.  安装所需库:

pip install requests beautifulsoup4 pymysql

2.  导入所需库:

import requests
from bs4 import BeautifulSoup
import pymysql

3.  建立数据库连接:

db = pymysql.connect(
    host='localhost',
    user='root',
    password='password',
    db='mydatabase'
)

这里我们假设您已经在本地搭建了 MySQL 数据库,并创建了一个名为 `mydatabase` 的数据库。您需要根据实际情况修改主机、用户名、密码和数据库名。

4.  使用 Requests 库抓取网页:

url = 'http://www.example.com'
response = requests.get(url)
html = response.text

5.  使用 BeautifulSoup 库解析 HTML:

soup = BeautifulSoup(html, 'html.parser')
data = soup.find_all('a')

6.  使用 PyMySQL 库将数据导入数据库:

cursor = db.cursor()
for item in data:
    title = item.string
    url = item.get('href')
    sql = f"INSERT INTO mytable (title, url) VALUES ('{title}', '{url}')"
    cursor.execute(sql)
db.commit()

这里我们使用了 PyMySQL 库的 `cursor` 方法创建游标,然后遍历解析后的数据,并使用 SQL 语句将数据插入到数据库表中。

完整的示例代码如下:

import requests
from bs4 import BeautifulSoup
import pymysql
# 建立数据库连接
db = pymysql.connect(
    host='localhost',
    user='root',
    password='password',
    db='mydatabase'
)
# 抓取网页
url = 'http://www.example.com'
response = requests.get(url)
html = response.text
# 解析 HTML
soup = BeautifulSoup(html, 'html.parser')
data = soup.find_all('a')
# 将数据导入数据库
cursor = db.cursor()
for item in data:
    title = item.string
    url = item.get('href')
    sql = f"INSERT INTO mytable (title, url) VALUES ('{title}', '{url}')"
    cursor.execute(sql)
db.commit()
# 关闭数据库连接
db.close()

注意,这里示例代码仅为演示使用,并未对 SQL 注入攻击进行防范,请勿直接在生产环境中使用。同时,您也需要根据实际情况修改表名、字段名和 SQL 语句等内容。

这只是单纯的思路,仅供参考。

到此这篇关于使用python实现简单爬取网页数据并导入MySQL中的数据库的文章就介绍到这了,更多相关python 爬取网页数据导入MySQL内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 解决TensorFlow程序无限制占用GPU的方法

    解决TensorFlow程序无限制占用GPU的方法

    这篇文章主要介绍了解决TensorFlow程序无限制占用GPU的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-06-06
  • 利用 Python 实现多任务进程

    利用 Python 实现多任务进程

    这篇文章主要介绍如何利用 Python 实现多任务进程,正在执行的程序,由程序、数据和进程控制块组成,是正在执行的程序,程序的一次执行过程,是资源调度的基本单位。下面就来详细介绍改内容,需要的朋友可以参考一下
    2021-10-10
  • python制作简单五子棋游戏

    python制作简单五子棋游戏

    这篇文章主要为大家详细介绍了python制作简单五子棋游戏,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-06-06
  • python获取外网IP并发邮件的实现方法

    python获取外网IP并发邮件的实现方法

    下面小编就为大家带来一篇python获取外网IP并发邮件的实现方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • anaconda创建、查看、激活与删除虚拟环境指令总结

    anaconda创建、查看、激活与删除虚拟环境指令总结

    在跑项目时常常会安装很多的包,也通常会遇到需要安装指定版本的包,以及包与包不兼容的问题,下面这篇文章主要给大家介绍了关于anaconda创建、查看、激活与删除虚拟环境指令的相关资料,需要的朋友可以参考下
    2022-11-11
  • python实现简单爬虫功能的示例

    python实现简单爬虫功能的示例

    本文主要是介绍python实现简单爬虫功能的示例,主要实现了把我们想要的图片爬虫到本地的一个示例,有需要的朋友可以了解一下。
    2016-10-10
  • Python文件的读写和异常代码示例

    Python文件的读写和异常代码示例

    这篇文章主要介绍了Python文件的读写和异常代码示例,首先分享了文件读写的简单方法,然后略为详细地介绍了Python异常的相关内容,不足之处,欢迎补充。
    2017-10-10
  • Python名片管理系统+猜拳小游戏案例实现彩(色控制台版)

    Python名片管理系统+猜拳小游戏案例实现彩(色控制台版)

    这篇文章主要介绍了Python名片管理系统+猜拳小游戏案例实现彩(色控制台版),文章围绕主题展开详细的内容介绍,具有一定的参考价值,感兴趣的小伙伴可以参考一下
    2022-08-08
  • python运行脚本文件的三种方法实例

    python运行脚本文件的三种方法实例

    在计算中,脚本一词用于指代包含订单逻辑序列的文件或批处理文件,下面这篇文章主要给大家介绍了关于python运行脚本文件的三种方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Python爬取酷狗MP3音频的步骤

    Python爬取酷狗MP3音频的步骤

    这篇文章主要介绍了Python爬取酷狗MP3音频的步骤,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-02-02

最新评论