python爬虫获取多页天涯帖子

 更新时间:2018年02月23日 14:18:40   作者:zengdamo  
本篇文章通过爬取多页天涯帖子内容来教给大家深入理解python爬虫相关知识,有兴趣的参考学习下。

今天练习了抓取多页天涯帖子,重点复习的知识包括

  • soup.find_all和soup.selcet两个筛选方式对应不同的参数;
  • 希望将获取到的多个内容组合在一起返回的时候,要用'zip()'的代码来实现;
  • 两层代码结构之间的关系如何构造;

这里有一个疑问:有时候一个标签可以有多个属性,不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围。

# 引入库和请求头文件
import requests
from bs4 import BeautifulSoup
headers = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

# 定义主体函数。函数主体由四部分组成:
#1.请求网址
#2.解析网页,形成可查找的html格式
#3.通过soup.select或者sopu.find_all查找需要的标签
#4.通过zip()代码将多个内容合并在一起

def get_content(url):
  res = requests.get(url,headers = headers)
  res.encoding = 'utf-8'
  soup = BeautifulSoup(res.text,'html.parser')
  contents = soup.find_all('div','bbs-content')
  authors = soup.find_all('a','js-vip-check')
  for author,content in zip(authors,contents):
    data = {
    'author':author.get_text().strip(),
    'content': content.get_text().strip()
  }
    print(data)
# 在这里构造一个两层链接结构:帖子的1、2、3、4页和帖子的详情页的关系在这里实现
if __name__ == '__main__':
  urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意,这里的‘5'是不包括在范围里的
  for url in urls:
    get_content(url)

相关文章

  • Python SELENIUM上传文件或图片实现过程

    Python SELENIUM上传文件或图片实现过程

    这篇文章主要介绍了Python SELENIUM上传文件或图片实现过程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10
  • 关于Python正则表达式 findall函数问题详解

    关于Python正则表达式 findall函数问题详解

    在写正则表达式的时候总会遇到不少的问题,本文讲述了Python正则表达式中 findall()函数和多个表达式元组相遇的时候会出现的问题
    2018-03-03
  • Python数据结构与算法之字典树实现方法示例

    Python数据结构与算法之字典树实现方法示例

    这篇文章主要介绍了Python数据结构与算法之字典树实现方法,可实现针对单词出现次数的统计功能,涉及Python树结构的定义、遍历及统计等相关操作技巧,需要的朋友可以参考下
    2017-12-12
  • Python 命令行非阻塞输入的小例子

    Python 命令行非阻塞输入的小例子

    很久很久以前,系windows平台下,用C语言写过一款贪食蛇游戏,cmd界面,用kbhit()函数实现非阻塞输入。系windows平台下用python依然可以调用msvcrt.khbit实现非阻塞监听。但系喺linux下面就冇呢支歌仔唱
    2013-09-09
  • Python知识之列表的十个小技巧分享

    Python知识之列表的十个小技巧分享

    这篇文章主要介绍了Python知识之列表的十个小技巧分享,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • Python中__init__和__new__的区别详解

    Python中__init__和__new__的区别详解

    这篇文章主要介绍了Python中__init__和__new__的区别详解,并着重说明了__new__的作用及什么情况下使用__new__,需要的朋友可以参考下
    2014-07-07
  • Python函数命名空间和作用域(Local与Global)

    Python函数命名空间和作用域(Local与Global)

    这篇文章主要介绍了Python函数命名空间和作用域分别介绍Local与Global模式,内容详细,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-03-03
  • 关于Pycharm乱码解决大全

    关于Pycharm乱码解决大全

    这篇文章主要介绍了关于Pycharm乱码解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-07-07
  • 一些Python 5行代码的神奇操作汇总

    一些Python 5行代码的神奇操作汇总

    最开始学习 Python,不需要太过复杂,下面这篇文章主要给大家介绍了关于Python 5行代码的神奇操作,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • Python3之不使用第三方变量,实现交换两个变量的值

    Python3之不使用第三方变量,实现交换两个变量的值

    今天小编就为大家分享一篇Python3之不使用第三方变量,实现交换两个变量的值,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06

最新评论