python爬虫今日热榜数据到txt文件的源码

 更新时间:2021年02月23日 10:27:08   作者:一个超会写Bug的安太狼  
这篇文章主要介绍了python爬虫今日热榜数据到txt文件的源码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

今日热榜:https://tophub.today/

在这里插入图片描述

爬取数据及保存格式:

在这里插入图片描述

爬取后保存为.txt文件:

在这里插入图片描述

部分内容:

在这里插入图片描述
在这里插入图片描述

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中实现结构相似的函数调用方法

    Python中实现结构相似的函数调用方法

    这篇文章主要介绍了Python中实现结构相似的函数调用方法,本文讲解使用dict和lambda结合实现结构相似的函数调用,给出了不带参数和带参数的实例,需要的朋友可以参考下
    2015-03-03
  • python实现对excel进行数据剔除操作实例

    python实现对excel进行数据剔除操作实例

    python在数据分析这方便的介绍应该不用多说了,下面这篇文章主要给大家介绍了关于利用python实现对excel进行数据剔除操作的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-12-12
  • python模拟登录百度代码分享(获取百度贴吧等级)

    python模拟登录百度代码分享(获取百度贴吧等级)

    python模拟登录百度,实现了登录并读取百度关注贴吧列表,百度登录还是有点麻烦的,由于用的ssl,所以要先获取token,然后再登录,这个用finddle2分析下,还是比较好解决的
    2013-12-12
  • Python爬虫:通过关键字爬取百度图片

    Python爬虫:通过关键字爬取百度图片

    本文主要介绍了Python爬虫:通过关键字爬取百度图片的方法。具有很好的参考价值,下面跟着小编一起来看下吧
    2017-02-02
  • python利用 keyboard 库记录键盘事件

    python利用 keyboard 库记录键盘事件

    这篇文章主要介绍了python利用 keyboard 库记录键盘事件,帮助大家更好的利用python进行办公,感兴趣的朋友可以了解下
    2020-10-10
  • Django应用程序中如何发送电子邮件详解

    Django应用程序中如何发送电子邮件详解

    我们常常会用到一些发送邮件的功能,比如有人提交了应聘的表单,可以向HR的邮箱发邮件,这样,HR不看网站就可以知道有人在网站上提交了应聘信息。下面这篇文章就介绍了在Django应用程序中如何发送电子邮件的相关资料,需要的朋友可以参考借鉴。
    2017-02-02
  • python自动化办公操作PPT的实现

    python自动化办公操作PPT的实现

    这篇文章主要介绍了python自动化办公操作PPT的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • python连接sql server乱码的解决方法

    python连接sql server乱码的解决方法

    为解决python连接sql server是出现的乱码,需要在连接sql server 时指定字符集utf8(client charset = UTF-8),python环境制定了字符集变量(#coding=utf-8 )
    2013-01-01
  • python 合并文件的具体实例

    python 合并文件的具体实例

    提供了很多个文件,需要对文件分析,如果每次读取多个文件,造成很多麻烦,所以需要对源文件进行合并预处理。
    2013-08-08
  • Django unittest 设置跳过某些case的方法

    Django unittest 设置跳过某些case的方法

    今天小编就为大家分享一篇Django unittest 设置跳过某些case的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12

最新评论