Selenium爬取b站主播头像并以昵称命名保存到本地

 更新时间:2021年04月19日 17:29:27   作者:拿头来坚持  
这篇文章主要介绍了使用Selenium自动化爬取b站主播头像并以昵称命名保存到本地的方法,代码简单完整,对于大家练习Selenium自动化有一定的帮助,需要的朋友可以参考下

申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。

Pythion的Selenium自动化测试之获取哔哩哔哩主播的头像以昵称命名保存到本地文件

效果图

在这里插入图片描述

方法1

通过接口获取

首先使用pip下载requests包

pip install requests

在这里插入图片描述

import requests
# 通过接口获取请求的接口:想要获取网页的url
url = 'https://api.live.bilibili.com/xlive/web-interface/v1/second/getList?platform=web&parent_area_id=1&area_id=0&sort_type=sort_type_152&page=1'
# 发送get请求,获取返回数据
request = requests.get(url)
# 保存图片的路径
dir = '../requests/bilibili/'
# 将获取的数据转化为json文件并获取到图片的链接
info = request.json()['data']['list']
for i in info:
	# 将图片以主播的昵称命名
    file = open(dir + '{}.png'.format(i['uname']), 'wb')
    # 将图片保存到之前的路径
    file.write(requests.get(i['face']).content)
    # 关闭文件流
    file.close()

方法2

通过html定位获取

首先使用pip下载requests和selenium包

pip install requests
pip install selenium

在这里插入图片描述

import requests
from selenium import webdriver
# 使用谷歌驱动打开谷歌浏览器
driver = webdriver.Chrome()
# 访问哔哩哔哩直播页面
driver.get('https://live.bilibili.com/p/eden/area-tags?visit_id=2mwktlg4e2q0&areaId=0&parentAreaId=1')
# 循环30次一次保存的头像图片
for i in range(1, 31):
	# xpth定位头像的位置
    image_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[1]/div/div'.format(i)
    # 获取位置的style属性值
    image_style_value = driver.find_element_by_xpath(image_xpath).get_attribute('style')
    # 从style属性值中切片出图片的链接
    image_url = image_style_value[image_style_value.find('h'):image_style_value.find('@'):1]
    # xpath定位昵称的位置
    title_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[2]/div[2]/div/span'.format(i)
    # 获取位置的title值
    name_title_value = driver.find_element_by_xpath(title_xpath).get_attribute('title')
    print(image_url)
    # 发送get请求,获取返回数据
    request = requests.get(image_url)
    # 保存图片的路径
    file = open('D:Python Projects/requests/bilibili/{}.jpg'.format(name_title_value), 'wb')
    # 将图片保存到路径
    file.write(request.content)
    # 关闭文件流
    file.close()

最后,在为大家增加一个获取b站视频信息的操作代码

# coding:utf-8
import requests
import json
import time
import pymysql
import bs4
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
result = []
def get_aid(page):
    url = 'https://search.bilibili.com/all?keyword=爬虫&from_source=nav_search&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.11' + '&page=' + str(page)
    response = requests.get(url, headers=headers, verify=False).text
    time.sleep(1)
    try:
        soup = bs4.BeautifulSoup(response, 'lxml').find('div', attrs={'id':'all-list'}).find('div', attrs={'class':'mixin-list'})
        ul = soup.find('ul', attrs={'class':'video-list clearfix'}).find_all('li', attrs={'class':'video-item matrix'})
        for item in ul:
            # print(item)
            info = item.find('div', attrs={'class': 'headline clearfix'}).find('span', attrs={'class': 'type avid'}).get_text()
            aid = info.replace('av', '')
            print(aid)
            result.append(aid)
        return result
    except:
        print('something is wrong')
def get_contents(url):
    response = requests.get(url=url, headers=headers, verify=False).json()
    time.sleep(1)
    try:
        data_1 = response['data']
        data = data_1['stat']
        aid = data['aid']
        view = data['view']
        coin = data['coin']
        like = data['like']
        favorite = data['favorite']
        share = data['share']
        danmaku = data['danmaku']
        print('视频编号', aid)
        print('观看数量', view)
        print('投币数量', coin)
        print('收藏数量', favorite)
        print('点赞数量', like)
        print('分享数量', share)
        print('弹幕数量', danmaku)
    except:
        print('------------')
if __name__ == '__main__':
    for i in range(1, 50):
        result = get_aid(i)
    for i in result:
        url = 'https://api.bilibili.com/x/web-interface/view?aid=' + str(i)
        get_contents(url)

到此这篇关于Selenium爬取b站主播头像并以昵称命名保存到本地的文章就介绍到这了,希望对大家有所帮助,更多相关python爬取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章,希望大家以后多多支持脚本之家!

相关文章

  • python35种绘图函数详细总结

    python35种绘图函数详细总结

    Python有许多用于绘图的函数和库,比如Matplotlib,Plotly,Bokeh,Seaborn等,这只是一些常用的绘图函数和库,Python还有其他绘图工具,如Pandas、ggplot等,选择适合你需求的库,可以根据你的数据类型、图形需求和个人偏好来决定,本文给大家总结了python35种绘图函数
    2023-08-08
  • Pandas中datetime数据类型的使用

    Pandas中datetime数据类型的使用

    本文主要介绍了Pandas中datetime数据类型的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-12-12
  • Python日志模块logging基本用法分析

    Python日志模块logging基本用法分析

    这篇文章主要介绍了Python日志模块logging基本用法,结合实例形式分析了日志模块logging的功能、常用函数、相关使用技巧与注意事项,需要的朋友可以参考下
    2018-08-08
  • 给ubuntu18安装python3.7的详细教程

    给ubuntu18安装python3.7的详细教程

    这篇文章主要介绍了给ubuntu18安装python3.7的详细教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • python数据归一化及三种方法详解

    python数据归一化及三种方法详解

    这篇文章主要介绍了python数据归一化及三种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • python实现简易内存监控

    python实现简易内存监控

    这篇文章主要介绍了python实现简易内存监控,每隔3秒获取系统内存,当内存超过设定的警报值时,获取所有进程占用内存并发出警报声,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • python实现快速排序的示例(二分法思想)

    python实现快速排序的示例(二分法思想)

    本篇文章主要介绍了python实现快速排序的示例(二分法思想),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-03-03
  • python遍历文件夹的各种方法大全

    python遍历文件夹的各种方法大全

    在Python中,可以使用多种方法来多次遍历文件,下面这篇文章主要给大家介绍了关于python遍历文件夹的各种方法,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-03-03
  • pytorch/transformers 最后一层不加激活函数的原因分析

    pytorch/transformers 最后一层不加激活函数的原因分析

    这里给大家解释一下为什么bert模型最后都不加激活函数,是因为损失函数选择的原因,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2023-01-01
  • 深入理解Python虚拟机中的反序列化pyc文件

    深入理解Python虚拟机中的反序列化pyc文件

    再这篇文章中我们将主要对 Code Object 进行分析,并且详细它是如何被反序列化的,通过本篇文章我们将能够把握整个 pyc 文件结构,感兴趣的可以了解一下
    2023-05-05

最新评论