1分钟快速生成用于网页内容提取的xslt

 更新时间:2018年02月23日 14:51:21   作者:fullerhua  
这篇文章主要教大家如何1分钟快速生成用于网页内容提取的xslt,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

1分钟快速生成用于网页内容提取的xslt,具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4、怎样使用XSLT

python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5、文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python 实现图片裁剪小工具

    python 实现图片裁剪小工具

    这篇文章主要介绍了python 实现图片裁剪小工具的示例,帮助大家更好的利用python处理图片,感兴趣的朋友可以了解下
    2021-02-02
  • nohup后台启动Python脚本,log不刷新的解决方法

    nohup后台启动Python脚本,log不刷新的解决方法

    今天小编就为大家分享一篇nohup后台启动Python脚本,log不刷新的解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python 几行代码即可实现人脸识别

    Python 几行代码即可实现人脸识别

    Python中实现人脸识别功能有多种方法,依赖于python胶水语言的特性,我们通过调用包可以快速准确的达成这一目的,本文给大家分享使用Python实现简单的人脸识别功能的操作步骤,感兴趣的朋友一起看看吧
    2022-02-02
  • YOLOv5小目标切图检测的思路与方法

    YOLOv5小目标切图检测的思路与方法

    目标检测Yolo算法是非常经典且应用广泛的算法,下面这篇文章主要给大家介绍了关于YOLOv5小目标切图检测的思路与方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • 详解TensorFlow2实现前向传播

    详解TensorFlow2实现前向传播

    这篇文章主要介绍了TensorFlow2如何实现前向传播,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Mac中PyCharm配置Anaconda环境的方法

    Mac中PyCharm配置Anaconda环境的方法

    这篇文章主要介绍了Mac中PyCharm配置Anaconda环境的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • Python大数据之网络爬虫的post请求、get请求区别实例分析

    Python大数据之网络爬虫的post请求、get请求区别实例分析

    这篇文章主要介绍了Python大数据之网络爬虫的post请求、get请求区别,结合具体实例形式分析了Python网页爬虫post请求与get请求相关使用技巧,需要的朋友可以参考下
    2019-11-11
  • 手把手教你如何用Pycharm2020.1.1配置远程连接的详细步骤

    手把手教你如何用Pycharm2020.1.1配置远程连接的详细步骤

    这篇文章主要介绍了如何用Pycharm2020.1.1配置远程连接,分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2020-08-08
  • Python+OpenCv制作证件图片生成器的操作方法

    Python+OpenCv制作证件图片生成器的操作方法

    这篇文章主要介绍了Python+OpenCv制作证件图片生成器的操作方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • Python快速实现分列转到行的示例代码

    Python快速实现分列转到行的示例代码

    这篇文章主要为大家详细介绍了如何利用Python快速实现分列转到行的效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学一下
    2023-03-03

最新评论