Python实现登录人人网并抓取新鲜事的方法

 更新时间:2015年05月11日 09:43:59   作者:断鸿  
这篇文章主要介绍了Python实现登录人人网并抓取新鲜事的方法,可实现Python模拟登陆并抓取新鲜事的功能,需要的朋友可以参考下

本文实例讲述了Python实现登录人人网并抓取新鲜事的方法。分享给大家供大家参考。具体如下:

这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~)

from sgmllib import SGMLParser
import sys,urllib2,urllib,cookielib
class spider(SGMLParser):
  def __init__(self,email,password):
    SGMLParser.__init__(self)
    self.h3=False
    self.h3_is_ready=False
    self.div=False
    self.h3_and_div=False
    self.a=False
    self.depth=0
    self.names=""
    self.dic={}  
    self.email=email
    self.password=password
    self.domain='renren.com'
    try:
      cookie=cookielib.CookieJar()
      cookieProc=urllib2.HTTPCookieProcessor(cookie)
    except:
      raise
    else:
      opener=urllib2.build_opener(cookieProc)
      urllib2.install_opener(opener)    
  def login(self):
    url='http://www.renren.com/PLogin.do'
    postdata={
         'email':self.email,
         'password':self.password,
         'domain':self.domain 
         }
    req=urllib2.Request(
              url,
              urllib.urlencode(postdata)      
              )
    self.file=urllib2.urlopen(req).read()
    #print self.file
  def start_h3(self,attrs):
    self.h3 = True
  def end_h3(self):
    self.h3=False
    self.h3_is_ready=True
  def start_a(self,attrs):
    if self.h3 or self.div:
      self.a=True
  def end_a(self):
    self.a=False
  def start_div(self,attrs):
    if self.h3_is_ready == False:
      return
    if self.div==True:
      self.depth += 1
    for k,v in attrs:
      if k == 'class' and v == 'content':
        self.div=True;
        self.h3_and_div=True  #h3 and div is connected
  def end_div(self):
    if self.depth == 0:
      self.div=False
      self.h3_and_div=False
      self.h3_is_ready=False
      self.names=""
    if self.div == True:
      self.depth-=1
  def handle_data(self,text):
    #record the name
    if self.h3 and self.a:
      self.names+=text
    #record says
    if self.h3 and (self.a==False):
      if not text:pass
      else: self.dic.setdefault(self.names,[]).append(text)
      return
    if self.h3_and_div:
      self.dic.setdefault(self.names,[]).append(text)
  def show(self):
    type = sys.getfilesystemencoding()
    for key in self.dic:
      print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \
         ( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)
renrenspider=spider('your email','your password')
renrenspider.login()
renrenspider.feed(renrenspider.file)
renrenspider.show()

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • Python如何通过内存管理提升程序执行效率

    Python如何通过内存管理提升程序执行效率

    Python提供了自动内存管理的功能,但是如果不小心使用,可能会导致内存泄漏和性能问题,所以巧妙使用内存管理是提高Python执行效率的关键,下面就来和大家仔细讲讲Python的内存管理技巧吧
    2023-06-06
  • Python实现视频转换为音频的方法详解

    Python实现视频转换为音频的方法详解

    这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-02-02
  • Python趣味挑战之实现简易版音乐播放器

    Python趣味挑战之实现简易版音乐播放器

    小伙伴们天天学编程应该都学累了,今天特地给大家整理了这篇文章,让大家在学习的时候也收货快乐,文中有非常详细的代码示例,需要的朋友可以参考下
    2021-05-05
  • 深入了解PyQt5中的图形视图框架

    深入了解PyQt5中的图形视图框架

    PyQt5中图形视图框架主要包含三个类:QGraphicsItem图元类、QGraphicsScene场景类和QGraphicsView视图类。本文将通过示例详细讲解一下这三个类,感兴趣的可以学习一下
    2022-03-03
  • Python进制转换与反汇编实现流程介绍

    Python进制转换与反汇编实现流程介绍

    这篇文章主要介绍了Python进制转换与反汇编的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2022-10-10
  • 一文带你探寻Python中的装饰器

    一文带你探寻Python中的装饰器

    这篇文章就来和大家详细讲一讲Python中装饰器的相关知识,文中的示例代码讲解详细,对我们深入了解Python有一定的帮助,感兴趣的可以了解一下
    2023-04-04
  • 浅谈tensorflow 中tf.concat()的使用

    浅谈tensorflow 中tf.concat()的使用

    今天小编就为大家分享一篇浅谈tensorflow 中tf.concat()的使用,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • PyQt 如何创建自定义QWidget

    PyQt 如何创建自定义QWidget

    这篇文章主要介绍了PyQt 如何创建自定义QWidget,帮助大家更好的理解和学习使用pyqt,感兴趣的朋友可以了解下
    2021-03-03
  • python实现批量修改文件名代码

    python实现批量修改文件名代码

    本文给大家分享的是一段仅仅10行代码就实现了批量修改文件名的python脚本,推荐给大家,有需要的小伙伴可以参考下
    2017-09-09
  • Python办公自动化之数据可视化与报表生成

    Python办公自动化之数据可视化与报表生成

    在现代办公环境中,数据处理和报表生成是一项重要的任务,本文将高效介绍如何使用Python进行数据可视化和报表生成,让您的办公工作更加顺利
    2023-07-07

最新评论