一、关于nginx日志统计分析的心得总结
第一步:对nginx日志进行垃圾过滤
一般共性需要考虑过滤的内容包括:
1.访问类型:保留200,301,302,去除其他譬如499,501,502等
2.保留get、post访问方式,去除head方式
3.依据访问链接的类型过滤,一般需要过滤后缀为jpg、png、gif、svg、
ajax、js、css等
4.爬虫蜘蛛的访问,即ua中为蜘蛛信息的访问。
5.网站如果存在恶意点击,大量机器访问的情况,需要进行过滤。
第二步:网站访问主要指标的计算思路
1.由于nginx日志中记录的用户访问错综复杂,除了正常的用户访问的行为外,还有大量网站调用接口,以及网页重定向页面,这造成了网页指标统计分析的精度收到一定影响,所以从源头保证数据源以及计算规则的准确性对我们后面数据分析的工作有着至关重要的作用。
2.另外一方面,目前很过企业的网站,ap,微信公众号里面的很多功能也经常绑定到一起,而他们之间的交互式通过不同的接口api实现的,通过调用接口进行赋值传参,由于前期很多项目的设计把控考虑的不够周全的原因,部分的访问可能会同时调用多个接口,这样在nginx中就会记录下多条记录,这对我们通过日志分析用户行为也会有很大影响,因此,学会结合企业的实际情况优化数据分析统计的计算规则对我们基础数据指标的计算也具有很重要的意义。
思路一:累加法
从网站主页以及已知的网站的子页链接出发,匹配同类访问,计算每种页面访问的访问量,最后累加求和即可得出。
思路二:递减法
在上述第一步过滤后数据的基础之上依次根据剔除规则将本来纯度不高的用户访问依次递减压缩至能够接受的精度。
理论上,累加法计算出的访问量要低于递减法算出的值,当然,如果说两种方法计算的数值不相上下也可以从侧面佐证我们在此种计算规则下计算结果的可信性。如果说累加法计算的访问值远远低于递减法算出的值,那说明我们的计算规则还不够完善,换而言之我们对自己企业产品的了解还不够深入,这就是数据分析师所说的业务经验,业务经验是最简单获得的亦是数据分析最重要的基石,但是往往做好并不容易,需要投入很多耐心。