python实时分析日志的一个小脚本分享

更新时间：2017年05月07日 15:56:56 作者：不懂真人

这篇文章主要给大家分享了一个实时分析日志的python小脚本，文中给出了详细的介绍和示例代码供大家参考学习，对大家学习或者使用python具有一定的参考学习价值，需要的朋友们下面来一起看看吧。

前言

大家都知道Web运维总要关注相关域名的实时2xx/s、4xx/s、5xx/s、响应时间、带宽等这些指标，之前的日志是五分钟一分割，简单的用awk就可以了，现在由于要推送日志到ELK,继续之前五分钟一分割会有问题，就改为一天分割一次。改成一天一分割后，显然再继续用Shell就不合适了，于是就用Python写了下。

方法如下：

脚本主要运用了文件的seek和tell函数，原理如下:

1.加入crontab，每5分钟执行一次

2.只分析从上次读取日志文件的结束位置到这次读取文件时的末尾位置之间的日志，出结果
可以使用zabbix_sender把结果发送到zabbix server或者直接使用zabbix agent来读取这个文件取数据，配合zabbix出图、做报警，代码如下:

#!/usr/bin/env python
#coding: utf-8

from __future__ import division
import os

LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 执行时间
CRON_TIME = 300

def get_position():
 #第一次读取日志文件，POSITION_FILE为空
 if not os.path.exists(POSITION_FILE):
  start_position = str(0)
  end_position = str(os.path.getsize(LOG_FILE))
  fh = open(POSITION_FILE,'w')
  fh.write('start_position: %s\n' % start_position)
  fh.write('end_position: %s\n' % end_position)
  fh.close()
  os._exit(1)
 else:
  fh = open(POSITION_FILE)
  se = fh.readlines()
  fh.close()
  #其他意外情况导致POSITION_FILE内容不是两行
  if len(se) != 2:
   os.remove(POSITION_FILE)
   os._exit(1)
  last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
  start_position = last_end_position
  end_position = str(os.path.getsize(LOG_FILE))
  #日志轮转导致start_position > end_position
  #print start_position,end_position
  if start_position > end_position:
   start_position = 0
  #日志停止滚动时
  elif start_position == end_position:
   os._exit(1)
  #print start_position,end_position
  fh = open(POSITION_FILE,'w')
  fh.write('start_position: %s\n' % start_position)
  fh.write('end_position: %s\n' % end_position)
  fh.close()
  return map(int,[start_position,end_position])

def write_status(content):
 fh = open(STATUS_FILE,'w')
 fh.write(content)
 fh.close()

def handle_log(start_position,end_position):
 log = open(LOG_FILE)
 log.seek(start_position,0)
 status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
 while True:
  current_position = log.tell()
  if current_position >= end_position:
   break
  line = log.readline()
  line = line.split(' ')
  host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
  #print host,request_time,time_local,status,bytes_sent
  status_all += 1
  try:
   rt += float(request_time.strip('s'))
   bandwidth += int(bytes_sent)
  except:
   pass
  if status == '200' or status == '206':
   status_2xx += 1
  elif status == '403':
   status_403 += 1
  elif status == '404':
   status_404 += 1
  elif status == '500':
   status_500 += 1
  elif status == '502':
   status_502 += 1
  elif status == '503':
   status_503 += 1
  elif status == '504':
   status_504 += 1
 log.close()
 #print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)

 write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))

if __name__ == '__main__':
 start_position,end_position = get_position()
 handle_log(start_position,end_position)

看下分析的结果:

cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0

后来发现有点问题，start_position、end_position 使用字符串比较会有问题，如下:

In [5]: '99772400' > '100227572'
Out[5]: True

In [6]: int('99772400') > int('100227572')
Out[6]: False

因此，更正为:

#日志轮转导致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
 start_position = 0
#日志停止滚动时
elif int(start_position) == int(end_position):
 os._exit(1)

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。

您可能感兴趣的文章:

Python 线程池模块之多线程操作代码
最近在做一个爬虫相关的项目，单线程的整站爬虫，耗时真的不是一般的巨大，运行一次也是心累，所以，要想实现整站爬虫，多线程是不可避免的，那么python多线程又应该怎样实现呢？今天小编给大家分享下实现代码，感兴趣的朋友一起看看吧
2021-05-05
用python打印1~20的整数实例讲解
在本篇内容中小编给大家分享了关于python打印1~20的整数的具体步骤以及实例方法，需要的朋友们参考下。
2019-07-07
10个简单但很有用的Python装饰器分享
装饰器（Decorators）是Python中一种强大而灵活的功能，用于修改或增强函数或类的行为，本文为大家整理了10个简单但很有用的Python装饰器，希望对大家有所帮助
2023-08-08
python中求两个向量的夹角方式
这篇文章主要介绍了python中求两个向量的夹角方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
Python filter()及reduce()函数使用方法解析
这篇文章主要介绍了Python filter()及reduce()函数使用方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Python max函数中key的用法及原理解析
最近有童鞋向小编求助怎么样找到字符串中出现字数最多的字符呢，其实最简单的处理方法是使用max函数，max()函数用于获得给定的可迭代对象中的最大值，关于Python max函数key用法跟随小编一起通过本文学习下吧
2021-06-06
Python Miniforge3 环境配置的实现
这篇文章主要介绍了Python Miniforge3 环境配置的实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考,一起跟随小编过来看看吧
2017-11-11
Pytorch如何指定device(cuda or cpu)
这篇文章主要介绍了Pytorch如何指定device(cuda or cpu)问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-06-06
解决Pycharm 运行后没有输出的问题
这篇文章主要介绍了解决Pycharm 运行后没有输出的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-02-02
使用pycharm运行flask应用程序的详细教程
这篇文章主要介绍了使用pycharm运行flask应用程序,首先大家需要使用pycharm创建你的第一个app，接下来就开始配置pycharm，需要的朋友可以参考下
2021-06-06

python实时分析日志的一个小脚本分享

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具