Python实现的爬取豆瓣电影信息功能案例

更新时间：2019年09月15日 09:41:43 作者：爆炒小青蛙

这篇文章主要介绍了Python实现的爬取豆瓣电影信息功能,结合具体实例形式分析了Python基于requests库的爬虫使用技巧,需要的朋友可以参考下

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考，具体如下：

本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库

step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2：做每一页的网址解析，打开原网址https://movie.douban.com/top250?，查看网页源代码，可以看到每一个电影的源代码都是从<li>开始，在</li>处结束，写好正则表达式以后爬到的列表的每一条item都有五个元素，因此将其写成字典的形式，这里用到yield函数（关于yield函数的用法，廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/）

对单个网页的进行解析的代码如下：

def parsepage(html):
  pat=re.compile('<li>.*?<em class="">(.*?)</em>.*?<img width="100" alt="(.*?)" src=.*?<p class="">'
          +'(.*?)</p>.*?property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>.*?</li>',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代码是将每一个item写入文件，这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变，json.dumps可以将（字典）对象转化成字符串（但前面要先import json），with open的第二个参数为a，表示每次写入时，是往后追加（续接），而不是后一次写入将之前内容覆盖，\n是指要每一次写入一个item之后要换行。

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后，需要用循环语句将每一页（共10页）内容都进行以上操作。这里，第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50，也就是每一页的start=为25*i。最后一段代码如下：

def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

当然，这一段代码还有一种写法：

def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想让你的程序跑的更快，可以用多线程爬虫（当然这里其实没有必要）：

#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为：
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循环外写
  pool.map(main,[i*10 for i in range (10)])

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Python自然语言处理库之NLTK库初级教程
NLTK（Natural Language Toolkit）是一个Python库,用于实现自然语言处理（NLP）的许多任务,NLTK包括一些有用的工具和资源,如文本语料库、词性标注器、语法分析器等,在这篇初级教程中,我们将了解NLTK的基础功能,需要的朋友可以参考下
2023-08-08
Python numpy数组转置与轴变换
这篇文章主要介绍了Python numpy数组转置与轴变换,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
跟老齐学Python之通过Python连接数据库
现在在做python的时候需要用到数据库，于是自己重新整理了一下数据库的知识，并且熟悉了python中MysqlDB模块的功能和函数等接口，现在系统地来总结一下吧
2014-10-10
python可变对象,不可变对象详解
这篇文章主要介绍了Python可变对象和不可变对象的相关资料,文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2021-09-09
python实现二叉排序树
这篇文章主要介绍了python实现二叉排序树，
2022-01-01
Python分割指定页数的pdf文件方法
今天小编就为大家分享一篇Python分割指定页数的pdf文件方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
浅谈tensorflow 中的图片读取和裁剪方式
这篇文章主要介绍了浅谈tensorflow 中的图片读取和裁剪方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
python向企业微信发送文字和图片消息的示例
这篇文章主要介绍了python向企业微信发送文字和图片消息的示例，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-09-09
举例讲解Python的lambda语句声明匿名函数的用法
匿名函数现在已经成了各大编程语言争相标配的热门特性,无需用函数名来定义函数的方式在很多场合下书写起来十分炫酷,这里我们就来举例讲解Python的lambda语句声明匿名函数的用法
2016-07-07
pip安装提示Twisted错误问题（Python3.6.4安装Twisted错误）
这篇文章主要介绍了pip安装提示Twisted错误问题（Python3.6.4安装Twisted错误）,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-05-05

Python实现的爬取豆瓣电影信息功能案例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具