Python怎么解析nginx日志

这篇文章运用简单易懂的例子给大家介绍Python怎么解析nginx日志，代码非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

站在用户的角度思考问题，与客户深入沟通，找到百色网站设计与百色网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：成都网站制作、网站设计、企业官网、英文网站、手机端网站、网站推广、申请域名、网络空间、企业邮箱。业务覆盖百色地区。

Python项目的一个需求是解析nginx的日志文件，这里给出详细过程解析。

日志规则描述

首先要明确自己的Nginx的日志格式，这里采用默认Nginx日志格式：

log_format main '$remote_addr - $remote_user [$time_local] "$request" '
         '$status $body_bytes_sent "$http_referer" '
         '"$http_user_agent" "$http_x_forwarded_for"';

其中一条真实记录样例如下：

代码如下:

172.22.8.207 - - [16/Dec/2014:17:57:35 +0800] "GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1" 200 0 "-" "XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0"

其中，客户端型号信息用XXXXXXX代替。

项目中已经按照业务规则对Nginx日志文件进行了处理命名规则如下：

ID-ID-YYMMDD-hhmmss

并且所有的日志文件存放在统一路径下。

解决思路

获取所有日志文件path

这里使用Python的glob模块来获取日志文件path

import glob
def readfile(path):
  return glob.glob(path + '*-*-*-*')

获取日志文件中每一行的内容

使用Python的linecache模块来获取文件行的内容

import linecache
 
 
def readline(path):
  return linecache.getlines(path)

注意：linecache模块使用了缓存，所以存在以下问题：

在使用linecache模块读取文件内容以后，如果文件发生了变化，那么需要使用linecache.updatecache(filename)来更新缓存，以获取最新变化。

linecache模块使用缓存，所以会耗费内存，耗费量与要解析的文件相关。最好在使用完毕后执行linecache.clearcache()清空一下缓存。

当然，作为优化，这里可以利用生成器来进行优化。暂且按下不表。

处理日志条目

一条日志信息就是一个特定格式的字符串，因此使用正则表达式来解析，这里使用Python的re模块。

下面，一条一条建立规则：

规则

  ip = r"?P[\d.]*"
  date = r"?P\d+"
  month = r"?P\w+"
  year = r"?P\d+"
  log_time = r"?P\S+"
  method = r"?P\S+"
  request = r"?P\S+"
  status = r"?P\d+"
  bodyBytesSent = r"?P\d+"
  refer = r"""?P
       [^\"]*
       """
  userAgent=r"""?P
        .*
        """

解析

代码如下:

p = re.compile(r"(%s)\ -\ -\ \[(%s)/(%s)/(%s)\:(%s)\ [\S]+\]\ \"(%s)?[\s]?(%s)?.*?\"\ (%s)\ (%s)\
 \"(%s)\"\ \"(%s).*?\"" 
 %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ),\
  re.VERBOSE)
m = re.findall(p, logline)

这样，就可以得到日志条目中各个要素的原始数据。

格式及内容转化

得到日志原始数据之后，需要根据业务要求，对原始数据进行格式及内容转化。

这里需要处理的内容包括：时间，request，userAgent

时间格式转化

在日志信息原始数据中存在Dec这样的信息，利用Python的time模块可以方便的进行解析

import time
def parsetime(date, month, year, log_time):
  time_str = '%s%s%s %s' %(year, month, date, log_time)
  return time.strptime(time_str, '%Y%b%d %H:%M:%S')

解析request

在日志信息原始数据中得到的request的内容格式为：

/report?XXXXXX

这里只需要根据协议取出XXXXXX即可。

这里仍然采用Python的re模块

import re
def parserequest(rqst):
  param = r"?P.*"
  p = re.compile(r"/report\?(%s)" %param, re.VERBOSE)
  return re.findall(p, rqst)

接下来需要根据业务协议解析参数内容。这里需要先利用base64模块解码，然后再利用struct模块解构内容：

import struct
import base64
def parseparam(param):
  decodeinfo = base64.b64decode(param)
  s = struct.Struct('!x' + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + 'xii12x')
  return s.unpack(decodeinfo)

解析userAgent

在日志信息原始数据中userAgent数据的格式为：

XXX; XXX; XXX; XXX

根据业务要求，只需要取出最后一项即可。

这里采用re模块来解析。

import re
def parseuseragent(useragent):
  agent = r"?P.*"
  p = re.compile(r".*;.*;.*;(%s)" %agent, re.VERBOSE)
  return re.findall(p, useragent)

至此，nginx日志文件解析基本完成。

剩下的工作就是根据业务需要，对获得的基本信息进行处理。

关于Python怎么解析nginx日志就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

本文名称：Python怎么解析nginx日志
网站路径：http://chengdu.cdxwcx.cn/article/ggcodg.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python怎么解析nginx日志

其他资讯

c语言内存库函数 c语言存储函数

帝国cms标签帝国cms标签生成错误

域名已注册怎么恢复域名已注册怎么恢复出厂设置

linux挂载磁阵命令 linux挂载磁盘原理

我的世界腾讯云学生服务器腾讯云学生服务器使用教程

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python怎么解析nginx日志

其他资讯

c语言内存库函数 c语言存储函数

帝国cms标签 帝国cms标签生成错误

域名已注册怎么恢复 域名已注册怎么恢复出厂设置

linux挂载磁阵命令 linux挂载磁盘原理

我的世界腾讯云学生服务器 腾讯云学生服务器使用教程

成都网站建设设计将想法与焦点和您一起共享

帝国cms标签帝国cms标签生成错误

域名已注册怎么恢复域名已注册怎么恢复出厂设置

我的世界腾讯云学生服务器腾讯云学生服务器使用教程