Python异步爬取知乎热榜实例分享

 更新时间:2022年04月11日 20:03:51   作者:程序员班长  
这篇文章主要介绍了Python异步爬取知乎热榜实例分享,文章围绕Python异步爬取是我相关资料展开对知乎热榜爬取的相关内容,需要的小伙伴卡哇伊参考一下

一、错误代码:摘要和详细的url获取不到

import asyncio
from bs4 import BeautifulSoup
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
    soup=BeautifulSoup(html,'lxml')
    items=soup.select('.HotList-item')
    for item in items:
        title=item.select('.HotList-itemTitle')[0].text
        try:
            abstract=item.select('.HotList-itemExcerpt')[0].text
        except:
            abstract='No Abstract'
        hot=item.select('.HotList-itemMetrics')[0].text
        try:
            img=item.select('.HotList-itemImgContainer img')['src']
        except:
            img='No Img'
        print("{}\n{}\n{}".format(title,abstract,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

二、查看JS代码

发现详细链接、图片链接、问题摘要等都在JS里面(CSDN的开发者助手插件确实好用)

正则表达式获取上述信息:

接下来就是详细的代码啦

import asyncio
import json
import re
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
 
    regex=re.compile('"hotList":(.*?),"guestFeeds":')
    text=regex.search(html).group(1)
    # print(json.loads(text))   # json换成字典格式
    for item in json.loads(text):
        title=item['target']['titleArea']['text']
        question=item['target']['excerptArea']['text']
        hot=item['target']['metricsArea']['text']
        link=item['target']['link']['url']
        img=item['target']['imageArea']['url']
        if not img:
            img='No Img'
        if not question:
            question='No Abstract'
        print("Title:{}\nPopular:{}\nQuestion:{}\nLink:{}\nImg:{}".format(title,hot,question,link,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

到此这篇关于Python异步爬取知乎热榜实例分享的文章就介绍到这了,更多相关Python异步爬取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用textract实现从各种文件中提取文本信息

    Python使用textract实现从各种文件中提取文本信息

    textract是一个强大的Python库,可以用于从各种文件格式中提取文本,本文将介绍textract的使用场景,以及一些常用的Python代码案例,希望对大家有所帮助
    2024-01-01
  • 利用Python进行微服务架构的监控与日志分析

    利用Python进行微服务架构的监控与日志分析

    Python作为一种强大的编程语言,提供了丰富的工具和库,可以帮助我们实现对微服务架构的监控和日志分析,本文将介绍如何利用Python编写监控脚本和日志分析程序,以便于更好地管理和维护微服务系统
    2024-03-03
  • python,pycharm的环境变量设置方式

    python,pycharm的环境变量设置方式

    这篇文章主要介绍了python,pycharm的环境变量设置方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • Python如何实现PDF隐私信息检测

    Python如何实现PDF隐私信息检测

    随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下
    2025-02-02
  • Python常问的100个面试问题汇总(下篇)

    Python常问的100个面试问题汇总(下篇)

    这篇文章主要介绍了Python常问的100个面试问题汇总(下篇),文章内容详细,简单易懂,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2023-01-01
  • 最近Python有点火? 给你7个学习它的理由!

    最近Python有点火? 给你7个学习它的理由!

    最近Python有点火?这篇文章主要为大家分享了7个你现在就该学习Python的理由,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • Python 虚拟机字典dict内存优化方法解析

    Python 虚拟机字典dict内存优化方法解析

    这篇文章主要为大家介绍了Python 虚拟机字典dict内存优化方法解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • Python中处理时间的几种方法小结

    Python中处理时间的几种方法小结

    这篇文章主要介绍了Python中处理时间的几种方法,包括时间的获取和时间之间的转换等等,需要的朋友可以参考下
    2015-04-04
  • python如何使用split多字符分割字符串的方法

    python如何使用split多字符分割字符串的方法

    这篇文章主要给大家介绍了关于python如何使用split多字符分割字符串的相关资料,split()方法是一个非常强大的工具,可以帮助我们轻松地分割字符串,需要的朋友可以参考下
    2023-10-10
  • 在pandas中一次性删除dataframe的多个列方法

    在pandas中一次性删除dataframe的多个列方法

    下面小编就为大家分享一篇在pandas中一次性删除dataframe的多个列方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论