python3.4爬虫demo

 更新时间:2019年01月22日 10:27:15   作者:chenqiangdage  
今天小编就为大家分享一篇关于python3.4爬虫demo,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

python 3.4 所写爬虫

仅仅是个demo,以百度图片首页图片为例。能跑出图片上的图片;

使用 eclipse pydev 编写:

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e) 

HtmlHelper.py文件 

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #将图片一个个下载到项目所在文件夹     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意个大问题,python 默认编码的问题。

有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),错误。这个要设置python的默认编码为utf-8.

设置最好的方式是写bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重启电脑。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • Python urllib 入门使用详细教程

    Python urllib 入门使用详细教程

    urllib 库,它是 Python 内置的 HTTP 请求库,不需要额外安装即可使用,这篇文章主要介绍了Python urllib 入门使用,需要的朋友可以参考下
    2022-11-11
  • Pycharm如何运行.py文件的方法步骤

    Pycharm如何运行.py文件的方法步骤

    这篇文章主要介绍了Pycharm如何运行.py文件的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • python如何利用paramiko执行服务器命令

    python如何利用paramiko执行服务器命令

    这篇文章主要介绍了python如何利用paramiko执行服务器命令,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-11-11
  • python线程池threadpool使用篇

    python线程池threadpool使用篇

    这篇文章主要为大家详细介绍了python线程池threadpool的使用方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • Pytorch实现常用乘法算子TensorRT的示例代码

    Pytorch实现常用乘法算子TensorRT的示例代码

    pytorch 用于训练,TensorRT用于推理是很多AI应用开发的标配。大家往往更加熟悉 pytorch 的算子,而不太熟悉TensorRT的算子。本文介绍了Pytorch中常用乘法的TensorRT实现,感兴趣的可以了解一下
    2022-06-06
  • Python利用Selenium实现简单的中英互译功能

    Python利用Selenium实现简单的中英互译功能

    Selenium 是一个用于 Web 应用程序测试的工具,最初是为网站自动化测试而开发的,可以直接运行在浏览器上,是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作,本文介绍了如何利用Python中的Selenium实现简单的中英互译
    2024-08-08
  • PyCharm无法识别PyQt5的2种解决方法,ModuleNotFoundError: No module named ''pyqt5''

    PyCharm无法识别PyQt5的2种解决方法,ModuleNotFoundError: No module named

    这篇文章主要介绍了PyCharm无法识别PyQt5的两种解决办法,ModuleNotFoundError: No module named 'pyqt5',需要的朋友可以参考下
    2020-02-02
  • Python中Collections模块的Counter容器类使用教程

    Python中Collections模块的Counter容器类使用教程

    Counter是Python标准库提供的一个非常有用的容器,可以用来对序列中出现的各个元素进行计数,下面就来一起看一下Python中Collections模块的Counter容器类使用教程
    2016-05-05
  • python自带的http模块详解

    python自带的http模块详解

    本文主要是给大家详细讲解了Python中自带的http模块的使用方法和实例,非常的细致,有需要的小伙伴可以参考下
    2016-11-11
  • 使用python制作一个解压缩软件

    使用python制作一个解压缩软件

    这篇文章主要介绍了python制作一个解压缩软件的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-11-11

最新评论