Python爬虫入门有哪些基础知识点

 更新时间:2020年06月02日 14:18:06   作者:爱喝马黛茶的安东尼  
在本篇文章中小编给大家整理的是关于Python爬虫入门基础知识点整理,有兴趣的朋友们可以跟着学习下。

1、什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2、浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3、URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4、环境的配置

学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE。

知识点补充:

什么是爬虫和爬虫的基本逻辑

“爬虫”是一种形象的说法。互联网比喻成一张大网,爬虫是一个程序或脚本在这种大网上爬走。碰到虫子(资源),若是所需的资源就获取或下载下来。这个资源通常是网页、文件等等。可以通过该资源里面的url链接,顺藤摸瓜继续爬取这些链接的资源。

你也可以把爬虫当作模拟我们正常上网。打开网页并分析网页的内容获取我们想要的东西。

那么,这里就涉及到http传输协议等相关的知识。

我们通常打开一个网页,基本上都是打开一个Url链接即可。在这个过程当中,实际上发生了很多事情。

打开一个Url链接,浏览器自动向Url链接的服务器发送一个请求(Request),告诉服务器说我需要访问这个Url链接的内容,请返回数据给我。服务器就处理该请求,响应该请求并返回结果给浏览器。

既然爬虫需要模拟该过程。根据http协议,爬虫需要构造一个请求(Request),发到请求到目标服务器(通常是Url链接)。然后等待服务器的响应(Response)。

所有相关的数据都在这个响应结果当中,这个就是爬虫实现的基本逻辑。

以上就是Python爬虫入门有哪些基础知识点的详细内容,更多关于Python爬虫入门的资料请关注脚本之家其它相关文章!

相关文章

  • Python数据结构与算法中的栈详解(2)

    Python数据结构与算法中的栈详解(2)

    这篇文章主要为大家详细介绍了Python中的栈,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • Python简繁体转换的简单实现步骤

    Python简繁体转换的简单实现步骤

    工作中需要将繁体中文转换成简体中文上网找了些资料,下面这篇文章主要给大家介绍了关于Python实现简繁体转换的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Python 使用 docopt 解析json参数文件过程讲解

    Python 使用 docopt 解析json参数文件过程讲解

    这篇文章主要介绍了Python 使用 docopt 解析json参数文件过程讲解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python matplotlib绘图设置图例案例

    Python matplotlib绘图设置图例案例

    这篇文章主要给大家分享Python matplotlib绘图设置图例案例,过程会学到edgecolor 图例边框线颜色 facecolor 图例背景色 shadow 是否添加阴影 title 图例标题 fontsize 设置字体大小,小编觉得挺有意思的,感兴趣的小伙伴也可以参考一下
    2021-12-12
  • 在Python中实现随机睡眠的方法示例

    在Python中实现随机睡眠的方法示例

    在编写Python程序时,有时我们需要让程序暂停执行一段时间,这种需求在爬虫、任务调度、API调用等场景中非常常见,Python提供了time.sleep()函数来实现程序的暂停,但如果我们希望暂停的时间是随机的,本文将详细介绍如何在Python中实现随机睡眠,并探讨其应用场景和进阶用法
    2025-01-01
  • 一些常见Python简单算法易错题及答案总结

    一些常见Python简单算法易错题及答案总结

    这篇文章总结了Python编程中的25个常见问题及其解答,涵盖字符串操作、列表操作、字典操作、排序算法、日期时间处理、文件操作、异常处理等多个方面,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-03-03
  • Python中字节数组和16进制字符串转换方式

    Python中字节数组和16进制字符串转换方式

    这篇文章主要介绍了Python中字节数组和16进制字符串转换方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python+OpenCV实战之拖拽虚拟方块的实现

    Python+OpenCV实战之拖拽虚拟方块的实现

    这篇文章主要介绍了如何利用Python+OpenCV实现拖拽虚拟方块的效果,即根据手指坐标位置和矩形的坐标位置,判断手指点是否在矩形上,如果在则矩形跟随手指移动,感兴趣的可以了解一下
    2022-08-08
  • python中树与树的表示知识点总结

    python中树与树的表示知识点总结

    在本篇文章里小编给大家分享的是关于python中树与树的表示的相关知识点,需要的读者们学习下吧。
    2019-09-09
  • python数据分析之DataFrame内存优化

    python数据分析之DataFrame内存优化

    pandas处理几百兆的dataframe是没有问题的,但是我们在处理几个G甚至更大的数据时,就会特别占用内存,对内存小的用户特别不好,所以对数据进行压缩是很有必要的,本文就介绍了python DataFrame内存优化,感兴趣的可以了解一下
    2021-07-07

最新评论