python正则匹配抓取豆瓣电影链接和评论代码分享

 更新时间:2013年12月27日 09:52:27   作者:  
抓取豆瓣各类型电影的链接和评论,按评分排列

复制代码 代码如下:

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        这里还存在问题:
        ①这只针对单独的一页进行排序,而没有对全部页面的电影进行排序
        ②下次更新添加电影链接,考虑添加电影海报
        ③需要追加列表
        ④导入到本地txt或excel中
        ⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组
        ⑥
    '''
#正则表达式匹配电影的名字(链接)、评分与评论   
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'<span\s+class="rating_nums">([0-9.]+)<\/span>',tagUrl_read)
    evaluateURL = re.findall(r'<span\s+class="pl">\((\w+)人评价\)<\/span>',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote处理特殊(中文)字符
movie_type = urllib.request.quote(input('请输入电影类型(如剧情、喜剧、悬疑):'))
page_end=int(input('请输入搜索结束时的页码:'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num<num_end:
    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函数对列表进行排列,reverse参数为True时升序,默认或False时为降序, key=lambda还不是很明白这里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('结束')

相关文章

  • 本地文件上传到七牛云服务器示例(七牛云存储)

    本地文件上传到七牛云服务器示例(七牛云存储)

    这篇文章主要介绍了使用PYTHON把本地文件上传到七牛云服务的方法,开发环境是Python 2.7,大家参考使用吧
    2014-01-01
  • Python在实时数据流处理中集成Flink与Kafka

    Python在实时数据流处理中集成Flink与Kafka

    随着大数据和实时计算的兴起,实时数据流处理变得越来越重要,Flink和Kafka是实时数据流处理领域的两个关键技术,下面我们就来看看如何使用Python将Flink和Kafka集成在一起吧
    2025-03-03
  • pycharm下打开、执行并调试scrapy爬虫程序的方法

    pycharm下打开、执行并调试scrapy爬虫程序的方法

    本篇文章主要介绍了pycharm下打开、执行并调试scrapy爬虫程序的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-11-11
  • python人工智能深度学习入门逻辑回归限制

    python人工智能深度学习入门逻辑回归限制

    这篇文章主要为大家介绍了python人工智能深度学习入门之逻辑回归限制的详细讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • pandas将DataFrame的几列数据合并成为一列

    pandas将DataFrame的几列数据合并成为一列

    本文主要介绍了pandas将DataFrame的几列数据合并成为一列,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • python爬虫之生活常识解答机器人

    python爬虫之生活常识解答机器人

    这篇文章主要介绍了python爬虫之生活常识解答机器人,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-04-04
  • Python Asyncio 库之同步原语常用函数详解

    Python Asyncio 库之同步原语常用函数详解

    这篇文章主要为大家介绍了Python Asyncio 库之同步原语常用函数详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • Python 使用Opencv实现目标检测与识别的示例代码

    Python 使用Opencv实现目标检测与识别的示例代码

    这篇文章主要介绍了Python 使用Opencv实现目标检测与识别的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python编程flask使用页面模版的方法

    Python编程flask使用页面模版的方法

    今天小编就为大家分享一篇关于Python编程flask使用页面模版的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • Python爬虫之Selenium多窗口切换的实现

    Python爬虫之Selenium多窗口切换的实现

    这篇文章主要介绍了Python爬虫之Selenium多窗口切换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12

最新评论