Python实现提取给定网页内的所有链接

 更新时间:2023年05月18日 10:42:53   作者:海拥  
这篇文章主要和大家分享一个实用的Python脚本,可以实现从给定的网页中检索所有链接,并将其保存为txt文件,需要的小伙伴可以收藏一下

此脚本从给定的网页中检索所有链接,并将其保存为txt文件。(文末有完整源码)

这是一个简单的网络爬虫示例,使用了 requests 库来发送 HTTP 请求并获取网页内容,使用 BeautifulSoup 库来解析网页内容。

代码解释如下:

1.导入所需的库

导入 requests 库并将其重命名为 rq,用于发送 HTTP 请求和获取网页内容。

import requests as rq

从 bs4 库导入 BeautifulSoup 类,用于解析 HTML 内容。

from bs4 import BeautifulSoup

2.获取用户输入的链接

提示用户输入一个链接,并将其保存在 url 变量中。

url = input("Enter Link: ")

3.发送 HTTP 请求获取网页内容

  • 使用条件语句判断用户输入的链接是否以 "https" 或 "http" 开头。
  • 如果是,则使用 rq.get(url) 发送 GET 请求获取网页内容,并将响应保存在 data 变量中。
  • 如果不是,则在链接前添加 "https://" 并使用 rq.get() 发送请求,将响应保存在 data 变量中。

4.使用 BeautifulSoup 解析网页内容

将 data.text(网页内容)传递给 BeautifulSoup 类的构造函数,指定解析器为 "html.parser",创建一个 BeautifulSoup 对象 soup。

soup = BeautifulSoup(data.text, "html.parser")

5.提取链接

  • 创建一个空列表 links 用于存储提取的链接。
  • 使用 soup.find_all("a") 查找网页中所有的 <a> 标签,并返回一个包含这些标签的列表。
  • 遍历列表中的每个标签,使用 link.get("href") 获取每个标签中的 "href" 属性值,并将其添加到 links 列表中。

6.将提取的链接写入文件

  • 使用 with open("myLinks.txt", 'a') as saved: 打开一个文件 "myLinks.txt",以追加模式。
  • 使用 print(links[:100], file=saved) 将 links 列表中的前 100 个链接写入文件中,每个链接占一行。
  • 如果需要每次覆盖文件内容而不是追加,可以将文件打开模式由 'a' 改为 'w'。

这段代码的功能是获取用户输入的链接对应网页中的前 100 个链接,并将这些链接写入到名为 "myLinks.txt" 的文件中。

运行截图

附完整代码

import requests as rq
from bs4 import BeautifulSoup

url = input("Enter Link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)
soup = BeautifulSoup(data.text, "html.parser")
links = []
for link in soup.find_all("a"):
    links.append(link.get("href"))

# 将输出写入文件(myLinks.txt)
# 可以将“a”更改为“w”以每次覆盖文件
with open("myLinks.txt", 'a') as saved:
    print(links[:10], file=saved)

到此这篇关于Python实现提取给定网页内的所有链接的文章就介绍到这了,更多相关Python提取网页链接内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python之数据序列化(json、pickle、shelve)详解

    Python之数据序列化(json、pickle、shelve)详解

    这篇文章主要介绍了Python之数据序列化(json、pickle、shelve)详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 详解python校验SQL脚本命名规则

    详解python校验SQL脚本命名规则

    这篇文章主要介绍了python校验SQL脚本命名规则,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • python实现自动解数独小程序

    python实现自动解数独小程序

    这篇文章主要为大家详细介绍了python实现自动解数独小程序,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • Numpy中的shape、reshape函数的区别

    Numpy中的shape、reshape函数的区别

    本文主要介绍了Numpy中的shape、reshape函数的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • Python OpenCV学习之图形绘制总结

    Python OpenCV学习之图形绘制总结

    在图像的任务中,不管是图像检测还是图像识别,我们都需要通过绘制图形和绘制文字对处理的结果进行说明,本篇就详细介绍下OpenCV中的图形的绘制,感兴趣的可以了解一下
    2022-01-01
  • Python将主机名转换为IP地址的方法

    Python将主机名转换为IP地址的方法

    今天小编就为大家分享一篇Python将主机名转换为IP地址的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • 你真的了解Python的random模块吗?

    你真的了解Python的random模块吗?

    这篇文章主要介绍了Python的random模块的相关内容,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python实现连接postgresql数据库的方法分析

    Python实现连接postgresql数据库的方法分析

    这篇文章主要介绍了Python实现连接postgresql数据库的方法,结合实例形式分析了Python基于psycopg2和python3-postgresql链接postgresql数据库的相关操作技巧,需要的朋友可以参考下
    2017-12-12
  • 7个有用的Pandas显示选项分享

    7个有用的Pandas显示选项分享

    Pandas是一个在数据科学中常用的功能强大的Python库。在某些情况下,我们可能希望更改所显示内容的格式,这就需要使用Pandas的一些定制功能来帮助我们自定义内容的显示方式。本文为大家总结了7个有用的Pandas显示选项,希望对大家有所帮助
    2022-12-12
  • Windows 64位下python3安装nltk模块

    Windows 64位下python3安装nltk模块

    这篇文章主要为大家详细介绍了Windows 64位下python3安装nltk模块,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-09-09

最新评论