python爬取51job中hr的邮箱

 更新时间:2016年05月14日 16:39:53   投稿:lijiao  
这篇文章主要为大家详细介绍了python爬取51job中hr的邮箱的相关资料,需要的朋友可以参考下

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下

#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[\w\.-]+@(?:[A-Za-z0-9]+\.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'\n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'\n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注脚本之家更多精彩内容。

相关文章

  • Python之使用adb shell命令启动应用的方法详解

    Python之使用adb shell命令启动应用的方法详解

    今天小编就为大家分享一篇Python之使用adb shell命令启动应用的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 详解Python安装scrapy的正确姿势

    详解Python安装scrapy的正确姿势

    Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架。这篇文章主要介绍了Python安装scrapy的正确姿势,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-06-06
  • Python中扩展包的安装方法详解

    Python中扩展包的安装方法详解

    这篇文章主要给大家总结了关于Python中扩展包的安装方法,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面跟着小编一起来学习学习吧。
    2017-06-06
  • 如何使用Python保存PPT中的形状为图像文件

    如何使用Python保存PPT中的形状为图像文件

    将PowerPoint演示文稿中的形状(幻灯片中的内容元素,包括文本框、图形、图片、图表等)保存为图片是方便内容跨平台分享和再利用的有效手段,本文将演示如何使用Python保存PowerPoint演示文稿中的形状为图像文件,需要的朋友可以参考下
    2024-10-10
  • python根据json数据画疫情分布地图的详细代码

    python根据json数据画疫情分布地图的详细代码

    这篇文章主要介绍了python根据json数据画疫情分布地图的详细代码,掌握使用pyecharts构建基础的全国地图可视化图表,本文结合示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • Flask学习笔记之日志操作配置实例讲解

    Flask学习笔记之日志操作配置实例讲解

    这篇文章主要为大家介绍了Flask学习笔记之日志操作配置实例讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • Python中字符串对齐方法介绍

    Python中字符串对齐方法介绍

    这篇文章主要介绍了Python中字符串对齐方法介绍,本文介绍Python字符串内置方法ljust、rjust、center的用法,需要的朋友可以参考下
    2015-05-05
  • 关于Python如何调用摄像头

    关于Python如何调用摄像头

    这篇文章主要介绍了关于Python如何调用摄像头,文中提供了部分实现代码和解决思路,需要的朋友可以参考下
    2023-04-04
  • Python字符编码转码之GBK,UTF8互转

    Python字符编码转码之GBK,UTF8互转

    说到python的编码,一句话总结,说多了都是泪啊,这个在以后的python的开发中绝对是一件令人头疼的事情。所以有必要输入理解
    2020-02-02
  • 浅析Python 引号、注释、字符串

    浅析Python 引号、注释、字符串

    这篇文章主要介绍了Python 引号、注释、字符串的相关知识,文中给大家提到了python中一对单引号,一对双引号,三个单双引号的区别和用法,需要的朋友可以参考下
    2019-07-07

最新评论