python 爬虫基本使用——统计杭电oj题目正确率并排序

 更新时间:2020年10月26日 08:43:03   作者:颀周  
这篇文章主要介绍了python 爬虫基本的基本使用,主要利用了Urllib和BeautifulSoup4这两个库,配以简单的实例帮助大家理解,感兴趣的朋友可以了解下

  python爬虫主要用两个库:Urllib和BeautifulSoup4。一个用来爬取网页,一个用来解析网页。

  Urllib是Python内置的HTTP请求库,它包含四个模块:

  1、request,最基本的 HTTP 请求模块,用来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 与额外的参数,就可以模拟这个过程。
  2、error ,异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
  3、parse ,工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等。
  4、robotparser,主要用于识别网站的 robots.txt 文件,判断网站是否可以爬取,用的较少。

  这里只用到了最常用的request。

  BeautifulSoup4从bs4包中导出,这里主要用的就是它的解析功能。

  代码如下,注释写得很清楚了:

#杭电OJ题目AC率排序

import urllib.request as ur
from bs4 import BeautifulSoup 

dic = {} #存:"题号:题名 AC 提交次数 正确率"
for t in range(1,59,1):#1~58页都爬一遍
 print(t)
 url = 'http://acm.hdu.edu.cn/listproblem.php?vol='+str(t) #存网址
 bs = BeautifulSoup(ur.urlopen(url).read(),"html.parser")#获取网址的html并转换为可以python可以使用的结构
 ql0 = str(bs.body.table.contents[11].td.table.contents[1])#网页的DOM解析后可以直接通过"."来寻找子元素,找到题目的列表元素后,将列表中所有题目转换成字符串。(可以输出看看)
 ql = ql0[30:-10].split(";") #字符串中的题目以";"分隔,将它们分开,并存到列表中

 for i in ql: #以下就是格式化处理每个题目,然后存到字典中
  info1 = i.split(',"',1)
  num = info1[0].split(',')[1]
  info2 = info1[1].split('",',1)
  name = info2[0]
  right,submit = info2[1].split(',',1)
  submit = submit[:-1] 
  dic[num] = [name,int(right),int(submit),int(right)/int(submit)]
dic = sorted(dic.items(),key = lambda x: x[1][3]) #每页题目都存入字典后,把字典中的题目通过正确率进行排序,传出列表

with open('Statistics.txt','w',encoding = 'utf-8') as f:#把统计排序好的题目保存到txt中
 for i in dic:
  f.write(str(i)+'\n') 
print("Success!")

以上就是python 爬虫基本使用——统计杭电oj题目正确率并排序的详细内容,更多关于python 爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • 对python pandas 画移动平均线的方法详解

    对python pandas 画移动平均线的方法详解

    今天小编就为大家分享一篇对python pandas 画移动平均线的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • Python自动扫码支付的实现示例

    Python自动扫码支付的实现示例

    本文主要介绍了Python自动扫码支付的实现示例,包括二维码识别、自动填写支付信息、自动点击支付等过程,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • Python使用Django实现博客系统完整版

    Python使用Django实现博客系统完整版

    这篇文章主要为大家详细介绍了Python利用Django完整的开发一个博客系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • PyQt5多线程刷新界面防假死示例

    PyQt5多线程刷新界面防假死示例

    今天小编就为大家分享一篇PyQt5多线程刷新界面防假死示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • pandas参数设置的实用小技巧

    pandas参数设置的实用小技巧

    这篇文章主要给大家介绍了关于pandas参数设置的实用小技巧,文中通过实例代码结束的非常详细,对大家学习或者使用pandas具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2020-08-08
  • Python中实现单例模式的n种方式和原理

    Python中实现单例模式的n种方式和原理

    这篇文章主要介绍了Python中实现单例模式的n种方式和原理,需要的朋友可以参考下
    2018-11-11
  • 使用Python实现图片处理工具

    使用Python实现图片处理工具

    这篇文章主要介绍了如何基于 wxPython 和 Pillow (PIL) 的简单图片处理工具,可以支持图片选择,旋转,合并和压缩等功能,感兴趣的小伙伴可以了解下
    2025-01-01
  • Python对excel的基本操作方法

    Python对excel的基本操作方法

    这篇文章主要介绍了Python对excel的基本操作,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • 利用pygame完成动画精灵和碰撞检测

    利用pygame完成动画精灵和碰撞检测

    这篇文章主要介绍了利用pygame完成动画精灵和碰撞检测,代码详细,内容丰富,对于想要学习pygame的朋友来讲是一个不错的练习,需要的朋友可以参考下
    2021-04-04
  • 浅析matlab中imadjust函数

    浅析matlab中imadjust函数

    对进行图像的灰度变换,即调节灰度图像的亮度或彩色图像的颜色矩阵。这篇文章主要介绍了matlab中imadjust函数,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下
    2020-02-02

最新评论