python编写爬虫小程序

 更新时间:2024年07月09日 16:29:10   投稿:hebedich  
我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。

起因

深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。
想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!

怒了,准备写个程序直接去爬廖雪峰的教程,然后再html转成电子书。

过程

过程很有趣呢,用浅薄的python知识,写python程序,去爬python教程,来学习python。想想有点小激动……
果然python很是方便,50行左右就OK了。直接贴代码:

# coding:utf-8
import urllib

domain = 'http://www.liaoxuefeng.com'      #廖雪峰的域名
path = r'C:\Users\cyhhao2013\Desktop\temp\\'  #html要保存的路径

# 一个html的头文件
input = open(r'C:\Users\cyhhao2013\Desktop\0.html', 'r')
head = input.read()

# 打开python教程主界面
f = urllib.urlopen("http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000")
home = f.read()
f.close()

# 替换所有空格回车(这样容易好获取url)
geturl = home.replace("\n", "")
geturl = geturl.replace(" ", "")

# 得到包含url的字符串
list = geturl.split(r'em;"><ahref="')[1:]

# 强迫症犯了,一定要把第一个页面也加进去才完美
list.insert(0, '/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000">')

# 开始遍历url List
for li in list:
  url = li.split(r'">')[0]
  url = domain + url       #拼凑url
  print url
  f = urllib.urlopen(url)
  html = f.read()

  # 获得title为了写文件名
  title = html.split("<title>")[1]
  title = title.split(" - 廖雪峰的官方网站</title>")[0]

  # 要转一下码,不然加到路径里就悲剧了
  title = title.decode('utf-8').replace("/", " ")

  # 截取正文
  html = html.split(r'<!-- block main -->')[1]
  html = html.split(r'<h4>您的支持是作者写作最大的动力!</h4>')[0]
  html = html.replace(r'src="', 'src="' + domain)

  # 加上头和尾组成完整的html
  html = head + html+"</body></html>"

  # 输出文件
  output = open(path + "%d" % list.index(li) + title + '.html', 'w')
  output.write(html)
  output.close()

简直,人生苦短我用python啊!

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

  • python绘制汉诺塔

    python绘制汉诺塔

    这篇文章主要为大家详细介绍了python绘制汉诺塔,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • Python实现随机生成图片验证码详解

    Python实现随机生成图片验证码详解

    这篇文章主要介绍了如何利用Python生成随机的图片验证码 并打印验证码的值,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起试试
    2022-01-01
  • Python获取本机IP/MAC多网卡方法示例

    Python获取本机IP/MAC多网卡方法示例

    这篇文章主要为大家介绍了Python获取本机IP/MAC多网卡方法示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • Python自动化办公之群发邮件案例详解

    Python自动化办公之群发邮件案例详解

    我们在办公时常常会遇到需要将邮件群发给很多客户,这个时候如何快速完成这一任务呢?不要慌,本文将为大家提供用Python代码解决这一问题的方法,需要的可以参考一下
    2022-02-02
  • Python中最好用的json库orjson用法详解

    Python中最好用的json库orjson用法详解

    orjson是一个用于python的快速、正确的json库,它的基准是 json最快的python库,具有全面的单元、集成和互操作性测试,下面这篇文章主要给大家介绍了关于Python中最好用的json库orjson用法的相关资料,需要的朋友可以参考下
    2022-06-06
  • 利用python实现简单的循环购物车功能示例代码

    利用python实现简单的循环购物车功能示例代码

    购物车对我们每位开发者来说应该都不陌生,下面这篇文章主要给大家介绍了利用python实现简单的循环购物车功能的相关资料,文中给出了详细的示例代码供大家参考学习,需要的朋友们下面来一起看看吧。
    2017-07-07
  • 基于Python实现多人聊天室的示例代码

    基于Python实现多人聊天室的示例代码

    这篇文章主要为大家详细介绍了如何基于Python实现多人聊天室功能,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考下
    2025-02-02
  • Python中的Logging模块在项目应用小结

    Python中的Logging模块在项目应用小结

    Python标准库中的logging模块为我们提供了强大而灵活的日志记录功能,本文将介绍如何使用logging模块,并探讨其在Python开发中的实际应用,感兴趣的朋友一起看看吧
    2024-04-04
  • Python单链表的简单实现方法

    Python单链表的简单实现方法

    这篇文章主要介绍了Python单链表的简单实现方法,包括定义所需的字段及具体实现代码的分析,需要的朋友可以参考下
    2014-09-09
  • python使用tensorflow深度学习识别验证码

    python使用tensorflow深度学习识别验证码

    这篇文章主要介绍了python使用tensorflow深度学习识别验证码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-04-04

最新评论