Python实现爬取逐浪小说的方法

更新时间：2015年07月07日 15:14:52 作者：wucl202000

这篇文章主要介绍了Python实现爬取逐浪小说的方法,基于Python的正则匹配功能实现爬取小说页面标题、链接及正文等功能,需要的朋友可以参考下

本文实例讲述了Python实现爬取逐浪小说的方法。分享给大家供大家参考。具体分析如下：

本人喜欢在网上看小说，一直使用的是小说下载阅读器，可以自动从网上下载想看的小说到本地，比较方便。最近在学习Python的爬虫，受此启发，突然就想到写一个爬取小说内容的脚本玩玩。于是，通过在逐浪上面分析源代码，找出结构特点之后，写了一个可以爬取逐浪上小说内容的脚本。

具体实现功能如下：输入小说目录页的url之后，脚本会自动分析目录页，提取小说的章节名和章节链接地址。然后再从章节链接地址逐个提取章节内容。现阶段只是将小说从第一章开始，每次提取一章内容，回车之后提取下一章内容。其他网站的结果可能有不同，需要做一定修改。在逐浪测试过正常。

现分享此代码，一是做个记录，方便自己以后回顾。二么也想抛砖引玉，希望各路大神不吝赐教。

#-*-coding:utf8-*-
#!/usr/bin/python
# Python:   2.7.8
# Platform:  Windows
# Program:   Get Novels From Internet
# Author:   wucl
# Description: Get Novels
# Version:   1.0
# History:   2015.5.27 完成目录和url提取
#       2015.5.28 完成目录中正则提取第*章，提取出章节链接并下载。在逐浪测试下载无误。
from bs4 import BeautifulSoup
import urllib2,re
def get_menu(url):
  """Get chapter name and its url"""
  user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0"
  headers = {'User-Agent':user_agent}
  req = urllib2.Request(url,headers = headers)
  page = urllib2.urlopen(req).read()
  soup = BeautifulSoup(page)
  novel = soup.find_all('title')[0].text.split('_')[0]
  # 提取小说名
  menu = []
  all_text = soup.find_all('a',target="_blank")
  # 提取记载有小说章节名和链接地址的模块
  regex=re.compile(ur'\u7b2c.+\u7ae0')
  # 中文正则匹配第..章，去除不必要的链接
  for title in all_text:
    if re.findall(regex,title.text):
      name = title.text
      x = [name,title['href']]
      menu.append(x)
      # 把记载有小说章节名和链接地址的列表插入列表中
  return menu,novel
def get_chapter(name,url):
  """Get every chapter in menu"""
  html=urllib2.urlopen(url).read()
  soup=BeautifulSoup(html)
  content=soup.find_all('p') # 提取小说正文
  return content[0].text
if __name__=="__main__":
  url=raw_input("""Input the main page's url of the novel in ZhuLang\n    Then Press Enter to Continue\n""")
  if url:
    menu,title=get_menu(url)
    print title,str(len(menu))+'\n   Press Enter To Continue  \n' 
    # 输出获取到的小说名和章节数
    for i in menu:
      chapter=get_chapter(i[0],i[1])
      raw_input()
      print '\n'+i[0]+'\n'    
      print chapter
      print '\n'

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

Python下调用Linux的Shell命令的方法
有时候难免需要直接调用Shell命令来完成一些比较简单的操作，这篇文章主要介绍了Python下调用Linux的Shell命令的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-06-06
python单例模式的多种实现方法
这篇文章主要介绍了python单例模式的多种实现方法,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
详解Python itertools模块中starmap函数的应用
starmap是一个非常有用的函数,它属于itertools模块中的一部分,本文将详细介绍starmap函数的作用、用法以及实际应用场景,希望对大家有所帮助
2024-03-03
Python编写车票订购系统 Python实现快递收费系统
这篇文章主要为大家详细介绍了Python编写车票订购系统，Python实现快递收费系统，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-08-08
Starship定制shell提示符实现信息自由
这篇文章主要介绍了Starship定制shell提示符的实现，让你需要的所有信息触手可及，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-03-03
Python字典简介以及用法详解
字典(dictionary)是除列表意外python之中最灵活的内置数据结构类型。列表是有序的对象结合，字典是无序的对象集合。两者之间的区别在于：字典当中的元素是通过键来存取的，而不是通过偏移存取。
2016-11-11
通过代码简单了解django model序列化作用
这篇文章主要介绍了通过代码简单了解django model序列化作用,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
python中PyQuery库用法分享
在本篇文章里小编给大家整理了一篇关于python中PyQuery库用法内容，有兴趣的朋友们参考下。
2021-01-01
python字符串连接方法分析
这篇文章主要介绍了python字符串连接方法,结合实例形式对比分析了常用的字符串连接技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2016-04-04
Python 完美解决 Import “模块“ could not&n
这篇文章主要介绍了Python 完美解决 Import “模块“ could not be resolved ...,本文给大家分享问题原因及解决方法，需要的朋友可以参考下
2022-11-11

Python实现爬取逐浪小说的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具