python爬虫常用的模块分析

 更新时间:2014年08月29日 10:12:27   投稿:shichen2014  
这篇文章主要介绍了python爬虫常用的模块的creepy模块,功能非常强大,文中较为详细的讲述了模块接口的功能及用法,需要的朋友可以参考下

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • Python网络编程之ZeroMQ知识总结

    Python网络编程之ZeroMQ知识总结

    这篇文章主要介绍了Python网络编程之ZeroMQ知识总结,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-04-04
  • pandas删除指定行详解

    pandas删除指定行详解

    这篇文章主要介绍了pandas删除指定行的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python使用xmlrpc实例讲解

    python使用xmlrpc实例讲解

    这篇文章主要介绍了python中使用xmlrpc的实例,大家参考使用吧
    2013-12-12
  • 使用NumPy进行数组数据处理的示例详解

    使用NumPy进行数组数据处理的示例详解

    NumPy是Python中用于数值计算的核心包之一,它提供了大量的高效数组操作函数和数学函数,可以支持多维数组和矩阵运算。本文主要为大家介绍了NumPy进行数组数据处理的具体方法,需要的可以参考一下
    2023-03-03
  • Flask蓝图学习教程

    Flask蓝图学习教程

    在Flask中,使用蓝图Blueprint来分模块组织管理。蓝图实际可以理解为是一个存储一组视图方法的容器对象,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2022-10-10
  • 详解Django通用视图中的函数包装

    详解Django通用视图中的函数包装

    这篇文章主要介绍了详解Django通用视图中的函数包装,Django是最具人气的Python web开发框架,需要的朋友可以参考下
    2015-07-07
  • pytest解读fixture有效性及跨文件共享fixtures

    pytest解读fixture有效性及跨文件共享fixtures

    这篇文章主要为大家介绍了pytest官方文档fixture有效性及跨文件共享fixtures的解读,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Python实现按目录层级输出文件名并保存为excel

    Python实现按目录层级输出文件名并保存为excel

    当我们发现电脑的内存很满,或平时工作中文件夹管理不清晰,导致里面的文件数据很杂乱,查找很不方便,一个一个文件夹去看去找然后删除又很浪费时间。本文将介绍如何利用Python实现按目录层级输出文件名并保存为excel,需要的可以参考一下
    2022-02-02
  • 详解Django中的权限和组以及消息

    详解Django中的权限和组以及消息

    这篇文章主要介绍了详解Django中的权限和组以及消息,在Python百花齐放的web框架中,Django是人气最高的一个,需要的朋友可以参考下
    2015-07-07
  • 在Python中使用SQLite的简单教程

    在Python中使用SQLite的简单教程

    这篇文章主要介绍了在Python中使用SQLite的简单教程,SQLite作为嵌入式数据库被内置于历代Python版本中,需要的朋友可以参考下
    2015-04-04

最新评论