Shell+Curl网站状态检查脚本 抓出无法访问的站点

 更新时间:2015年10月18日 22:54:50   作者:张戈  
这篇文章主要介绍了Shell+Curl网站状态检查脚本 抓出无法访问的站点,需要的朋友可以参考下

一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去Debug一些已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了。


现在博客联盟也收录的博客也已破200了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖。由于大部分都是建站不过半年的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来。


上午用PHP做了一个放到了京东云试了下,发现检测速度一般,要等上半天(我写的php太蹩脚,就不献丑了)。
随后,我在VPS上写了一个多线程的网站状态检测脚本,直接从数据库load站点地址,然后用curl去检测返回码,发现速度非常好,基本1分钟内就能出结果


以下是脚本代码:

#!/bin/bash
#Author:ZhangGe
#Date:2014-08-21
#Desc:Check the site of ZGboke Alliance.
#取出网站数据
data=`/usr/bin/mysql -uroot -p123456 -e "use zgboke;select web_url from dir_websites where web_status='3';" -N -B | awk '{print $1}'`
if [ -z "$data" ];then
    echo "Faild to connect database!"
    exit 1
fi
test -f result.log && rm -f result.log
function delay {
    sleep 3
}
tmp_fifofile=/tmp/$$.fifo
mkfifo $tmp_fifofile
exec 6<>$tmp_fifofile
rm $tmp_fifofile
#定义并发线程数,需根据vps配置进行调整。
thread=100
for ((i=0 ;i<$thread;i++ ))
do
    echo
done>&6
#开始多线程循环检测
for url in $data
do
    read -u6
    {
    #curl抓取网站http状态码
    code=`curl -o /dev/null --retry 3 --retry-max-time 8 -s -w %{http_code} $url`
    echo "$code ---> $url">>result.log
    #判断子线程是否执行成功,并输出结果
    delay && {
        echo "$code ---> $url"
    } || {
        echo "Check thread error!"
    }
    echo >& 6
}&
done
#等待所有线程执行完毕
wait
exec 6>&-
#找出非200返回码的站点
echo List of exception website:
cat result.log | grep -v 200
exit 0

Ps:关于shell多线程脚本,后续文章会有一个详细说明,本文篇幅有限,就不多说了。
以下是中国博客联盟第一次成员站点存活检测的结果:
①、 非200返回码的异常站点:

②、脚本抓取的无法访问站点:

人工访问筛选结果:


wangyingxue.net(王英学博客):无法访问,经确认处于备案中 √
www.tao0102.com(长江博客):可以访问 √
blog.hack7d.com(Mcdull技术博客):无法访问 ×
www.1992621.com(教师日记):可以访问 √
www.3miaotu.com(三秒兔):无法访问 ×
xiaoxiaomayi.com(小小蚂蚁博客):可以访问 √
www.awrui.com(李文栋博客):可以访问 √


Ps:脚本检测机制为:8s内未连通的判定为异常,并重试3次,最后输出结果,若三次均异常则为000。从图中和人工筛选可以看出,存在一些误杀,这个和8s的设定有一定关系。可以考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,所以也没多大关系。


后续,中国博客联盟会制订一个检查周期,最短每星期检查一次,最长一个月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果公布在中国博客联盟的站长资讯专栏,方便所有成员查看。
由于目前中国博客联盟部署在京东云擎,无法远程操控数据库,所以只好暂时用半自动的模式。等以后有时间搬到了阿里云等VPS上后,将会将脚本改成全自动状态,当有网站联系多次检测为失联状态时,将会暂时将其设置为隐藏状态。

相关文章

  • 实现自动清除日期目录shell脚本实例代码

    实现自动清除日期目录shell脚本实例代码

    这篇文章主要介绍了实现自动清除日期目录shell脚本实例代码的相关资料,需要的朋友可以参考下
    2017-04-04
  • shell脚本实现数据库表增量同步的流程

    shell脚本实现数据库表增量同步的流程

    这篇文章主要介绍了shell脚本实现数据库表增量同步的流程,流程也很简单,通过获取axt_statistics 库的 zxxt_class 表中id字段的最大id值,具体脚本跟随小编一起看看本文吧
    2021-10-10
  • shell性能测试脚本优化的技巧

    shell性能测试脚本优化的技巧

    这篇文章主要介绍了shell性能测试脚本优化技巧,本文通过实例截图的形式给大家展示,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • 一个shell小案例(创建日期目录)

    一个shell小案例(创建日期目录)

    需要在多个目录中 (如:beijing shanghai tianjin guangzhou 等等) 创建子目录(以年份命名),然后进入子目录,新建目录并以当天的日期命名
    2016-08-08
  • Linux通过sar命令查看网卡流量

    Linux通过sar命令查看网卡流量

    sar(System Activity Reporter系统活动情况报告)是目前 Linux 上最为全面的系统性能分析工具之一,这篇文章主要介绍了Linux通过sar命令查看网卡流量,需要的朋友可以参考下
    2017-11-11
  • 一天一个shell命令 linux文本操作系列-head,tail命令详解

    一天一个shell命令 linux文本操作系列-head,tail命令详解

    这篇文章主要介绍了一天一个shell命令 linux文本操作系列-head,tail命令详解,需要的朋友可以参考下
    2016-06-06
  • linux shell 中 2>&1的含义

    linux shell 中 2>&1的含义

    对于&1 更准确的说应该是文件描述符 1,而1 一般代表的就是STDOUT_FILENO,实际上这个操作就是一个dup2(2)调用
    2013-02-02
  • Linux shell实现HTTP服务示例代码

    Linux shell实现HTTP服务示例代码

    这篇文章介绍的是如何实现一个可以调用shell脚本的HTTP服务,本文给出了详细的示例代码,有需要的可以参考借鉴。
    2016-08-08
  • Shell全局变量、局部变量与特殊变量的具体使用

    Shell全局变量、局部变量与特殊变量的具体使用

    本文主要介绍了Shell全局变量、局部变量与特殊变量的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-05-05
  • Linux查看端口占用情况的常用命令

    Linux查看端口占用情况的常用命令

    这篇文章主要给大家介绍了Linux查看端口占用情况的常用命令,lsof命令,netstat命令,ss命令,fuser命令,ps命令以及proc文件系统这几种常用命令,感兴趣的小伙伴跟着小编一起来看看吧
    2023-11-11

最新评论