python构建基础的爬虫教学

 更新时间:2018年12月23日 10:56:50   作者:please1748  
在本篇内容里小编给大家分享的是关于python构建基础的爬虫教学内容,需要的朋友们学习下。

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

2、使用print输出打开的网址的内容。

3、从输出中可以看出内容的结构为:

4、输出内容中的html-body-h1的内容可使用四种语句。

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对脚本之家的支持。

相关文章

  • matplotlib实战之饼图绘制详解

    matplotlib实战之饼图绘制详解

    饼图,或称饼状图,是一个划分为几个扇形的圆形统计图表,这篇文章主要为大家详细介绍了如何使用Matplotlib绘制饼图,需要的小伙伴可以参考下
    2023-08-08
  • python matplotlib保存图片不全问题及解决

    python matplotlib保存图片不全问题及解决

    这篇文章主要介绍了python matplotlib保存图片不全问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • 深入浅析Python科学计算库Scipy及安装步骤

    深入浅析Python科学计算库Scipy及安装步骤

    这篇文章主要介绍了Python科学计算库—Scipy的相关知识,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • Python脚本激活Linux密码的方法(crypt模块)

    Python脚本激活Linux密码的方法(crypt模块)

    今天小编给大家分享一个非常不错的方法破解linux口令,主要是利用linux系统中的crypt模块模拟了linux系统中用户密码的加密,操作也很方便,对python破解linux口令相关知识感兴趣的朋友跟随小编一起学习下吧
    2021-05-05
  • numpy中np.append()函数用法小结

    numpy中np.append()函数用法小结

    在numpy的函数库中,np.append()函数是一个常用的数组操作函数,它在进行数组操作时能够将两个数组进行拼接,并返回一个拼接后的新数组,下面就来介绍一下具体用法,感兴趣的可以了解一下
    2023-11-11
  • Python实战基础之Pandas统计某个数据列的空值个数

    Python实战基础之Pandas统计某个数据列的空值个数

    我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置,下面这篇文章主要给大家介绍了关于Python实战基础之利用Pandas统计某个数据列空值个数的相关资料,需要的朋友可以参考下
    2022-08-08
  • Python 调用 zabbix api的方法示例

    Python 调用 zabbix api的方法示例

    这篇文章主要介绍了Python 调用 zabbix api的方法示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-01-01
  • 对于Python的Django框架使用的一些实用建议

    对于Python的Django框架使用的一些实用建议

    这篇文章主要介绍了对于Python的Django框架使用的一些实用建议,包括一些优秀模块的介绍,要的朋友可以参考下
    2015-04-04
  • 利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境

    利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境

    这篇文章主要介绍了利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • 浅谈python下含中文字符串正则表达式的编码问题

    浅谈python下含中文字符串正则表达式的编码问题

    今天小编就为大家分享一篇浅谈python下含中文字符串正则表达式的编码问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12

最新评论