Python脚本实现下载合并SAE日志

更新时间：2015年02月10日 13:16:47 投稿：junjie

这篇文章主要介绍了Python脚本实现下载合并SAE日志,本文讲解了代码编写过程,然后给出了完整代码,需要的朋友可以参考下

由于一些原因，需要SAE上站点的日志文件，从SAE上只能按天下载，下载下来手动处理比较蛋疼，尤其是数量很大的时候。还好SAE提供了API可以批量获得日志文件下载地址，刚刚写了python脚本自动下载和合并这些文件

调用API获得下载地址

文档位置在这里

设置自己的应用和下载参数

请求中需要设置的变量如下

api_url = 'http://dloadcenter.sae.sina.com.cn/interapi.php?'

appname = 'xxxxx'

from_date = '20140101'

to_date = '20140116'

url_type = 'http' # http|taskqueue|cron|mail|rdc

url_type2 = 'access' # only when type=http  access|debug|error|warning|notice|resources

secret_key = 'xxxxx'

生成请求地址

请求地址生成方式可以看一下官网的要求：

1.将参数排序
2.生成请求字符串，去掉&
3.附加access_key
4.请求字符串求md5，形成sign
5.把sign增加到请求字符串中

具体实现代码如下

复制代码代码如下:

params = dict()
params['act'] = 'log'
params['appname'] = appname
params['from'] = from_date
params['to'] = to_date
params['type'] = url_type

if url_type == 'http':
params['type2'] = url_type2

params = collections.OrderedDict(sorted(params.items()))

request = ''
for k,v in params.iteritems():
request += k+'='+v+'&'

sign = request.replace('&','')
sign += secret_key

md5 = hashlib.md5()
md5.update(sign)
sign = md5.hexdigest()

request = api_url + request + 'sign=' + sign

if response['errno'] != 0:
print '[!] '+response['errmsg']
exit()

print '[#] request success'

下载日志文件

SAE将每天的日志文件都打包成tar.gz的格式，下载保存下来即可，文件名以日期.tar.gz命名

复制代码代码如下:

log_files = list()

for down_url in response['data']:
    file_name = re.compile(r'\d{4}-\d{2}-\d{2}').findall(down_url)[0] + '.tar.gz'
    log_files.append(file_name)
    data = urllib2.urlopen(down_url).read()
    with open(file_name, "wb") as file:
        file.write(data)

print '[#] you got %d log files' % len(log_files)

合并文件

合并文件方式用trafile库解压缩每个文件，然后把文件内容附加到access_log下就可以了

复制代码代码如下:

# compress these files to access_log
access_log = open('access_log','w');

for log_file in log_files:
    tar = tarfile.open(log_file)
    log_name = tar.getnames()[0]
    tar.extract(log_name)
    # save to access_log
    data = open(log_name).read()
    access_log.write(data)
    os.remove(log_name)

print '[#] all file has writen to access_log'

完整代码

复制代码代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: Su Yan <http://yansu.org>
# @Date: 2014-01-17 12:05:19
# @Last Modified by: Su Yan
# @Last Modified time: 2014-01-17 14:15:41

import os
import collections
import hashlib
import urllib2
import json
import re
import tarfile

# encode request
params = dict()
params['act'] = 'log'
params['appname'] = appname
params['from'] = from_date
params['to'] = to_date
params['type'] = url_type

if url_type == 'http':
params['type2'] = url_type2

params = collections.OrderedDict(sorted(params.items()))

request = ''
for k,v in params.iteritems():
request += k+'='+v+'&'

sign = request.replace('&','')
sign += secret_key

md5 = hashlib.md5()
md5.update(sign)
sign = md5.hexdigest()

request = api_url + request + 'sign=' + sign

# request api
response = urllib2.urlopen(request).read()
response = json.loads(response)

if response['errno'] != 0:
print '[!] '+response['errmsg']
exit()

print '[#] request success'

# download and save files
log_files = list()

print '[#] you got %d log files' % len(log_files)

# compress these files to access_log
access_log = open('access_log','w');

print '[#] all file has writen to access_log'

您可能感兴趣的文章:

python 3.5实现检测路由器流量并写入txt的方法实例
这篇文章主要给大家介绍了关于利用python 3.5实现检测路由器流量并写入txt的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起看看吧。
2017-12-12
详解Python如何实现发送带附件的电子邮件
SMTP（Simple Mail Transfer Protocol）即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则，由它来控制信件的中转方式。本文将利用SMTP实现发送带附件的电子邮件，感兴趣的可以了解一下
2023-04-04
python 实现汉诺塔游戏
这篇文章主要介绍了python 实现汉诺塔游戏的示例，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-11-11
python做接口测试的必要性
在本篇文章里小编给大家整理的是关于python做接口测试的必要性以及相关知识点，有兴趣的朋友们学习下。
2019-11-11
Java多线程编程中ThreadLocal类的用法及深入
这篇文章主要介绍了Java多线程编程中ThreadLocal类的用法及深入,尝试了自己实现一个ThreadLocal类以及对相关的线程安全问题进行讨论,需要的朋友可以参考下
2016-06-06
Python3中_(下划线)和__(双下划线)的用途和区别
经常会看到以下划线或者双下划线开头的方法或者属性，到底它们有什么作用，又有什么样的区别呢？今天我们来总结一下，感兴趣的小伙伴们可以参考一下
2019-04-04
python人工智能使用RepVgg实现图像分类示例详解
这篇文章主要介绍了python人工智能使用RepVgg实现图像分类示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-10-10
后端开发使用pycharm的技巧(推荐)
这篇文章主要介绍了后端开发使用pycharm的技巧,本文通过图文并茂的形式给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-03-03
Python如何利用pandas读取csv数据并绘图
这篇文章主要介绍了Python如何利用pandas读取csv数据并绘图，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-07-07
Django处理Ajax发送的Get请求代码详解
在本篇文章里小编给大家整理了关于Django处理Ajax发送的Get请求代码知识点，有需要的朋友们参考学习下。
2019-07-07