使用Python3编写抓取网页和只抓网页图片的脚本

 更新时间:2015年08月20日 09:46:01   作者:damotiansheng  
这篇文章主要介绍了使用Python3编写抓取网页和只抓网页图片的脚本,使用到了urllib模块,需要的朋友可以参考下

最基本的抓取网页内容的代码实现:

#!/usr/bin/env python 
 
from urllib import urlretrieve 
 
def firstNonBlank(lines): 
  for eachLine in lines: 
    if not eachLine.strip(): 
      continue 
    else: 
      return eachLine 
 
def firstLast(webpage): 
  f = open(webpage) 
  lines = f.readlines() 
  f.close() 
  print firstNonBlank(lines), 
  lines.reverse() 
  print firstNonBlank(lines), 
 
def download(url='http://www',process=firstLast): 
  try: 
    retval = urlretrieve(url)[0] 
  except IOError: 
    retval = None 
  if retval: 
    process(retval) 
 
if __name__ == '__main__': 
  download() 

利用urllib模块,来实现一个网页中针对图片的抓取功能:

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"C:\Users\elqstux\Desktop\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  for link, t in set(re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes))): 
    print(link) 
    urllib.request.urlretrieve(link, destFile(link)) 

       

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"H:\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) #会以/作为分隔 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com/" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  match = re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes) )#r'(http:[^\s]*?(jpg|png|gif))'中包含两层圆括号,故有两个分组, 
                             #上面会返回列表,括号中匹配的内容才会出现在列表中 
  for picname, picType in match: 
    print(picname) 
    print(picType) 
    
 
''''' 
输出: 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g111328-1.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g197523-19.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
... 
''' 

相关文章

  • Python读取mat文件,并转为csv文件的实例

    Python读取mat文件,并转为csv文件的实例

    今天小编就为大家分享一篇Python读取mat文件,并转为csv文件的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • 让 python 命令行也可以自动补全

    让 python 命令行也可以自动补全

    这篇文章主要介绍了让 python 命令行也自动补全,需要的朋友可以参考下
    2014-11-11
  • python与js主要区别点总结

    python与js主要区别点总结

    在本篇内容里小编给大家整理了关于python与js主要区别点总结内容,有兴趣的朋友们可以学习下。
    2020-09-09
  • 详解Python如何获取视频文件的大小和时长

    详解Python如何获取视频文件的大小和时长

    这篇文章主要为大家详细介绍了Python如何实现获取视频文件的大小和时长,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起了解一下
    2023-03-03
  • python 对dataframe下面的值进行大规模赋值方法

    python 对dataframe下面的值进行大规模赋值方法

    今天小编就为大家分享一篇python 对dataframe下面的值进行大规模赋值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 详解OpenCV自适应直方图均衡化的应用

    详解OpenCV自适应直方图均衡化的应用

    在本文中,将介绍如何应用对比度受限的自适应直方图均衡化 ( Contrast Limited Adaptive Histogram Equalization, CLAHE ) 来均衡图像,需要的可以参考一下
    2022-02-02
  • python time.strptime格式化实例详解

    python time.strptime格式化实例详解

    在本篇文章里小编给大家整理的是一篇关于python time.strptime格式化实例详解内容,对此有兴趣的朋友们可以学习参考下。
    2021-02-02
  • Python实现双X轴双Y轴绘图的示例详解

    Python实现双X轴双Y轴绘图的示例详解

    这篇文章主要介绍了如何利用fig.add_subplot和axes.twinx().twiny()方法实现双X轴双Y轴绘图,文中的示例代码讲解详细,快跟随小编一起动手尝试一下吧
    2022-04-04
  • Python实战之制作天气查询软件

    Python实战之制作天气查询软件

    这篇文章主要给大家介绍了关于Python实战之制作天气查询软件的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • python双端队列原理、实现与使用方法分析

    python双端队列原理、实现与使用方法分析

    这篇文章主要介绍了python双端队列原理、实现与使用方法,结合实例形式分析了Python双端队列的概念、原理、定义及使用方法,需要的朋友可以参考下
    2019-11-11

最新评论