分析Linux系统以及状态的监视,提取Linux操作系统信息,获取操作系统运行状态,分析应用状态nginx,mysql,应用日志分析。
- VIM编辑器
- 设置
永久设置:修改vimrc文件
临时关闭高亮模式:syntax off
永久开启高亮模式,针对所有用户/etc/vimrcsyntax on
针对某个用户下,vim ~/.vimrc
- 语法高亮
syntax on
- 显示行号
set number
set nonumber
- 自动缩进
set autoindent
set cindent
- 自动加入文件头
- Shell编程高级知识
- Shell高亮显示
echo -e是处理特殊字符
echo -e 终端颜色+显示内容+结束后颜色
1为设置终端颜色,30m为灰色,0m为黑色
echo -e "\e[1;30m Jeson say Hi~ \e[1;0m"
tput sgr0
初始化终端为正常屏幕,先设置文字颜色,再初始化终端
echo -e "\e[1;30m" "Jeson say Hi~" $(tput sgr0)
- Shell关联数组
普通数组:只能用整数作为数组索引
关联数组:可以使用字符串作为数组索引
declare -A ass_array1
声明关联数组变量
ass_array1[index1]=pear
赋值
- 主控脚本
#!/bin/bash
#经常使用的命令
resettem=$(tput sgr0)
declare -A ssharray
#关联数组
#declare -A声明数组变量-x变成环境变量-i定义为整数
i=0
numbers=""
#ls -I 排除后面的字符串ignore
for script_file in `ls -I "monitor.sh" ./`
do
echo -e '\e[35m'"The script:" ${i} '==>' ${resettem} ${script_file}
grep -E "^\#Program function" ${script_file}
ssharray[$i]=${script_file}
#echo ${ssharray[$i]}
numbers="${numbers} | ${i}"
i=$((i+1))
done
while true
do
read -p "Please input one number in [ ${numbers} ]:" execshell
#使用模式匹配,双方括号,非数字开头+表示一次或者多次
if [[ ! ${execshell} = ~^[0-9]+ ]];then
exit 0
fi
/bin/bash ./${ssharray[$execshell]}
done```
3. Shell对于系统资源提取及运行状态分析
提取操作系统信息,内核,系统版本,网络地址,分析系统的运行状态,CPU负载,内存及磁盘使用率。
操作系统使用内存和应用程序使用内存
`free -m`
系统使用内存=Total-Free
应用使用内存=Total-(Free+Cached+Buffers)
内存中cache和buffer区别
缓存区,cache用于打开的文件,最少使用原则
buffer,分缓存主要用于目录项,inode等文件系统,先进先出策略
!/bin/bash
clear
if [ $# -eq 0 ];then
#uname命令打印当前系统相关信息
reset_terminal=$(tput sgr0)
#check os type
os=$(uname -o)
echo -e '\e[1;32m'" operating system type: " $reset_terminal $os
#check os release version and name
os_name=$(cat /etc/issue|grep -e "Server")
echo -e '\E[32m'"check os release version and name:" $reset_terminal $os_name
#check architectureCPU指令集
architecture=$(uname -m)
echo -e '\E[32m'"check architecture" $reset_terminal $architecture
#check kernel release
kernelrelease=$(uname -r)
echo -e '\E[32m'"check kernel release" $reset_terminal $kernelrelease
#check hostname
hostname=$(uname -n)
#hostname=$(set|grep HOSTNAME)
#hostname=$(echo HOSTNAME)
echo -e '\E[32m'"check hostname" $reset_terminal $hostname
#check internal ip内网ip
internelip=$(hostname -I)
echo -e '\E[32m'"check internal ip" $reset_terminal $internelip
#check external ip外网ip返回出口ip,curl -s静默发送请求
externalip=$(curl -s http://ipecho.net/plain)
echo -e '\E[32m'"check external ip" $reset_terminal $externalip
#check dns
dns=$(cat /etc/resolv.conf | grep nameserver | awk '{print $NF}')
echo -e '\E[32m'"check dns" $reset_terminal $dns
#check if connected to internet or not
#比用$?要方便多了
ping -c 2 imooc.com &>/dev/null && echo "Internet:connected" || echo "Internet:disconnected"
#check logged in users
who>/tmp/who
echo -e '\E[32m'"logged in Users" $reset_terminal && cat /tmp/who
rm -f /tmp/who
fi```
根分区下/proc 读取文件分析系统状态
应用程序使用内存awk '/MemTotal/{total=$2}/MemFree/{free=$2}/^Cached/{cached=$2}/Buffers/{buffers=$2}END{print (total-free-cached-buffers)/1024}' /proc/meminfo
操作系统使用内存awk '/MemTotal/{total=$2}/MemFree/{free=$2}END{print (total-free)/1024}' /proc/meminfo
- 操作系统负载
load=1.0 满负荷 =0.5 没有满负荷 =1.7
top -n 1 -b
-n表示读取一次,-b表示读取信息更加全面
top -n 1 -b | grep "load average"|awk '{print $12 $13 $14}'
- 操作系统磁盘容量
df -hP | grep -vE 'Filesystem|tmpfs' | awk '{print $1 " " $5}
- Shell分析程序或者应用状态
利用操作系统命令ping,nslookup(检查dns),nm-tool,traceroute,dig,telnet,nc,curl(检查http响应是否成功)
监控进程ps,netstat,pgrep(获得正在被调度的进程的相关信息)
客户端命令mysql,ab,mongo,php,jstack,nginxstatus,nagios-libexec
- nginx
curl -m 5 设置最大传输时间 -s 静默模式 -w %{http_code}显示http返回状态码 -o /dev/null 输出 - MySQL
监控MySQL主从复制状态,通过IO/Thread同步
shell,connect->show slave status->return data
搭建主从复制环境(MySQL相关课程)。基于mysql客户端状态,获取主从复制状态,show slave status\G;
格式化输出,每行输出,Slave_IO_Running
IO线程是否有链接到主服务器上,Seconds_Behind_Master
主从同步的延时时间
nc
用于设置路由器 -z使用0输入/输出模式,只在扫描通信端口时使用,-w2设置等待连线的时间,mysql默认端口3306
给监控单独配置一个用户,从服务器上。
mysql -urep -prep -h10.156.11.233 -e "show slave status\G"
也就是首先判断端口是否链接,然后登录客户端,然后执行相应的管理语句,返回状态信息进行判断。
整个检测判断分析代码:
#!/bin/bash
NginxServer='http://10.156.11.173/nginx_status'
Check_Nginx_Server(){
Status=$(curl -m 5 -s -w %{http_code} ${NginxServer} -o /dev/null)
if[ $Status -eq 000 -o $Status -ge 500 ];then
echo -e 'check http server error! Response status code is ' $Status
else
#成功的话重新发起请求,获取数据
Http_content=$(curl -s $(NginxServer))
echo "check http server ok! Response status code is " $Http_content
fi
}
Check_Nginx_Server
Mysql_Slave_Server='10.156.11.233'
Mysql_User='rep'
Mysql_Pass='rep'
Check_Mysql_Server(){
#判断端口是否链接
nc -z -w2 ${Mysql_Slave_Server} 3306 &>/dev/null
if [ $? -eq 0 ];then
echo "Connect ${Mysql_Slave_Server} ok!"
mysql -u${Mysql_User} -p${Mysql_Pass} -h${Mysql_Slave_Server} -e "show slave status\G" | grep "Slave_IO_Running" | awk '{if($2!="yes"){print "slave IO thread not running";exit 1}}'
if [ $? -eq 0 ];then
mysql -u${Mysql_User} -p${Mysql_Pass} -h${Mysql_Slave_Server} -e "show slave statys\G" | grep "Seconds_Behind_Master"
else
echo "Connect Mysql server not succeeded"
fi
}
Check_Mysql_Server```
5. Shell日志提取分析
nginx日志分析,webserver
- 常见系统日志文件
- 系统日志
/var/log/messages 系统主日志文件
/var/log/secure 认证,安全日志文件
/var/log/dmesg 和系统启动相关的日志文件
- 应用服务
access.log nginx访问日志
mysqld.log mysql运行日志
xferlog 访问ftp服务器相关
- 程序脚本
开发语言的日志:C,C++,Java,php
框架日志:Django,MVC,Servlet
脚本语言,shell,Python
log_format,日志的格式
`cat /etc/nginx/nginx.conf | grep -A 2 log_format`
- http状态码
- 1** 信息,服务器收到请求,需要请求者继续执行操作
- 2** 成功,操作被成功接收并处理
- 3** 重定向,需要进一步操作以完成请求
- 4** 客户端错误,请求包含语法错误或无法完成请求
- 5** 服务器错误,服务器在处理请求的过程中发生了错误
`cat /opt/logs/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -rn | more`
uniq命令删除文件中的重复行,-c在输出行前面加上每行在输入文件中出现的次数
sort排序,-r逆序,-n以数值排序,而不是字符
数据清洗,按照每一条数据特征点进行匹配,grep -i不区分大小写,-o精确输出,-E正则,使用原字符,`cat /opt/logs/nginx/access.log | grep -ioE "HTTP\/1\.[1|0]\"[[:blank:]][0-9]{3}" `
!/bin/bash
logfile_path='/opt/logs/nginx/access.log'
Check_http_status(){
http_status_codes=$(cat $logfile_path | grep -ioE "HTTP/1.[1|0]"[[:blank:]][0-9]{3}"|awk -F"[ ]+" '{if($2>100 && $2<200){i++}
else if($2>=200 && $2<300){j++}
else if($2>=300 && $2<400){k++}
else if($2>=400 && $2<500){n++}
else if($2>=500){p++}}END{
print i?i:0,j?j:0,k?k:0,n?n:0,p?p:0,i+j+k+n+p}')
echo 100-200 ${http_status_codes[0]}
echo 200-300 ${http_status_codes[1]}
echo 300-400 ${http_status_codes[2]}
echo 400-500 ${http_status_codes[3]}
echo 500+ ${http_status_codes[4]}
echo total ${http_status_codes[5]}
}
Check_http_status
Check_http_code(){
#关联数组
http_code=$(cat $logfile_path|grep -ioE "HTTP/1.[1|0]"[[:blank:]][0-9]{3}"|awk -v total=0 -F"[ ]+" '{
if($2!="")
{code[$2]++;total++}
else
{exit}
}END{
print code[404]?code[404]:0,code[403]?code[403]:0},total
}')
echo 404 $http_code[0]
echo 403 $http_code[1]
echo total $http_code[2]
}
Check_http_code