使用Python3编写抓取网页和只抓网页图片的脚本

 更新时间:2015年08月20日 09:46:01   作者:damotiansheng  
这篇文章主要介绍了使用Python3编写抓取网页和只抓网页图片的脚本,使用到了urllib模块,需要的朋友可以参考下

最基本的抓取网页内容的代码实现:

#!/usr/bin/env python 
 
from urllib import urlretrieve 
 
def firstNonBlank(lines): 
  for eachLine in lines: 
    if not eachLine.strip(): 
      continue 
    else: 
      return eachLine 
 
def firstLast(webpage): 
  f = open(webpage) 
  lines = f.readlines() 
  f.close() 
  print firstNonBlank(lines), 
  lines.reverse() 
  print firstNonBlank(lines), 
 
def download(url='http://www',process=firstLast): 
  try: 
    retval = urlretrieve(url)[0] 
  except IOError: 
    retval = None 
  if retval: 
    process(retval) 
 
if __name__ == '__main__': 
  download() 

利用urllib模块,来实现一个网页中针对图片的抓取功能:

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"C:\Users\elqstux\Desktop\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  for link, t in set(re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes))): 
    print(link) 
    urllib.request.urlretrieve(link, destFile(link)) 

       

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"H:\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) #会以/作为分隔 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com/" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  match = re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes) )#r'(http:[^\s]*?(jpg|png|gif))'中包含两层圆括号,故有两个分组, 
                             #上面会返回列表,括号中匹配的内容才会出现在列表中 
  for picname, picType in match: 
    print(picname) 
    print(picType) 
    
 
''''' 
输出: 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g111328-1.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g197523-19.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
... 
''' 

相关文章

  • 基于matplotlib xticks用法详解

    基于matplotlib xticks用法详解

    这篇文章主要介绍了基于matplotlib xticks用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python批量创建指定名称的文件夹

    python批量创建指定名称的文件夹

    这篇文章主要为大家详细介绍了python批量创建指定名称的文件夹,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • Python Rich增加终端显示视觉效果

    Python Rich增加终端显示视觉效果

    Python开发中,命令行界面(CLI)经常被用于交互和数据展示,虽然命令行界面通常被视为简单、枯燥的文本显示区域,通过Python的Rich库,为命令行界面带来更多生机和视觉吸引力,本文带大家探索Rich功能强大的Python库,增强终端文本渲染,使输出更具有吸引力和可读性
    2024-01-01
  • 详解python itertools功能

    详解python itertools功能

    itertools是python内置的模块,使用简单且功能强大,这里尝试汇总整理下,并提供简单应用示例,这篇文章主要介绍了python itertools功能,需要的朋友可以参考下
    2020-02-02
  • Python 通过爬虫实现GitHub网页的模拟登录的示例代码

    Python 通过爬虫实现GitHub网页的模拟登录的示例代码

    这篇文章主要介绍了Python 通过爬虫实现GitHub网页的模拟登录的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • 10行Python代码实现Web自动化管控的示例代码

    10行Python代码实现Web自动化管控的示例代码

    这篇文章主要介绍了10行Python代码实现Web自动化管控的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python代码执行时间测量模块timeit用法解析

    Python代码执行时间测量模块timeit用法解析

    这篇文章主要介绍了Python代码执行时间测量模块timeit用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • Python基于SMTP协议实现发送邮件功能详解

    Python基于SMTP协议实现发送邮件功能详解

    这篇文章主要介绍了Python基于SMTP协议实现发送邮件功能,结合实例形式分析了Python使用SMTP协议实现邮件发送的相关操作技巧,并总结分析了Python发送纯文本邮件、邮件附件、图片邮件等相关操作技巧,需要的朋友可以参考下
    2018-08-08
  • 详解如何在Python中有效调用JavaScript

    详解如何在Python中有效调用JavaScript

    JavaScript和Python都是极为流行的编程语言,并在前端开发和后端开发领域扮演着重要的角色,那么Python如何更好的契合JavaScript呢,下面就跟随小编一起学习一下吧
    2024-02-02
  • 用Python爬取618当天某东热门商品销量数据,看看大家喜欢什么!

    用Python爬取618当天某东热门商品销量数据,看看大家喜欢什么!

    618购物节,准备分析一波购物节大家都喜欢买什么?本文以某东为例,Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些?销售数据如何?用户好评如何?等等,需要的朋友可以参考下
    2021-06-06

最新评论