python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

 更新时间:2019年08月24日 09:22:07   作者:shawn xie123  
今天小编就为大家分享一篇python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

爬取TOP500的音乐信息,包括排名情况、歌曲名、歌曲时间。

网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL:

http://www.kugou.com/yy/rank/home/1-8888.html

这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三页的信息,多次尝试发现不同的数字即为不同的页面。因此只需更改home/后面的数字即可。由于每页显示的为22首歌曲,所以总共需要23个URL。

import requests
from bs4 import BeautifulSoup
from time import sleep
import pymongo
#连接数据库
client = pymongo.MongoClient(‘localhost',27017)
mydb = client[‘yourdb']
#创建数据库
musicTop = mydb[‘musicTop']

#使用header是用于伪装为浏览器,让爬虫更稳定
Headers = {
‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
#定义获取信息的函数
def get_info(url):
wd_data = requests.get(url,headers=Headers)
soup = BeautifulSoup(wd_data.text,‘lxml')
#获取排名情况
ranks = soup.select(‘span.pc_temp_num')
#获取标题
titles = soup.select(‘div.pc_temp_songlist > ul > li > a')
#获取时间
times = soup.select(‘span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
‘rank':rank.get_text().strip(),
‘singer':title.get_text(),
‘song':title.get_text(),
‘time':time.get_text().strip()
}
musicTop.insert_one(data) #存入数据库中
if name == ‘main':
urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)]
for url in urls:
get_info(url)
sleep(2)

运行后,爬取的数据在mongoDB数据库中显示如下:

以上这篇python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Django对models里的objects的使用详解

    Django对models里的objects的使用详解

    今天小编就为大家分享一篇Django对models里的objects的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • 如何用Anaconda搭建虚拟环境并创建Django项目

    如何用Anaconda搭建虚拟环境并创建Django项目

    在本篇文章里小编给大家整理了关于如何用Anaconda搭建虚拟环境并创建Django项目的相关文章,需要的朋友们可以跟着学习下。
    2020-08-08
  • Pytorch中torch.unsqueeze()与torch.squeeze()函数详细解析

    Pytorch中torch.unsqueeze()与torch.squeeze()函数详细解析

    torch.squeeze()这个函数主要对数据的维度进行压缩,去掉维数为1的的维度,下面这篇文章主要给大家介绍了关于Pytorch中torch.unsqueeze()与torch.squeeze()函数详细的相关资料,需要的朋友可以参考下
    2023-02-02
  • Python接口测试数据库封装实现原理

    Python接口测试数据库封装实现原理

    这篇文章主要介绍了Python接口测试数据库封装实现原理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python 2.7中文显示与处理方法

    Python 2.7中文显示与处理方法

    今天小编就为大家分享一篇Python 2.7中文显示与处理方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • python3实现点餐系统

    python3实现点餐系统

    这篇文章主要为大家详细介绍了python3实现点餐系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • Eclipse + Python 的安装与配置流程

    Eclipse + Python 的安装与配置流程

    Eclipse的安装是很容易的。Eclipse是基于java的一个应用程序,因此需要一个java的运行环境(JRE)才行。(我这里主要介绍windows下的安装)
    2013-03-03
  • Django中使用session保持用户登陆连接的例子

    Django中使用session保持用户登陆连接的例子

    今天小编就为大家分享一篇Django中使用session保持用户登陆连接的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Python中设置变量访问权限的方法

    Python中设置变量访问权限的方法

    这篇文章主要介绍了Python中设置变量访问权限的方法,是Python学习当中的重要知识点,需要的朋友可以参考下
    2015-04-04
  • Python的面向对象编程方式学习笔记

    Python的面向对象编程方式学习笔记

    Python深度具备面向对象编程语言所应有的特性,这里我们以类和方法为主,来整理一下Python的面向对象编程方式学习笔记:
    2016-07-07

最新评论