基于python的Linux系统指定进程性能监控思路详解

监控Linux服务器的工具、组件和程序网上有很多,但是一台服务器上会有很多进程同时运行,特别是做性能测试的时候,可能一台服务器上部署多个服务,如果只监控整个服务器的CPU和内存,当某个服务出现性能问题时,并不能有效准确的定位出(当然通过其他工具也可以实现),因此,很有必要只监控指定的进程。需求明确了,于是动手撸了一个性能监控脚本。

一、整体思路

1、为了方便的启动监控和停止监控,在想查看监控结果的时候随时查看监控结果,用flask开启了一个服务,通过发送get请求可以随时启停监控和查看监控结果。
2、针对控制是否监控cpu、内存、IO,开启多线程监控。
3、为了减少对其他组件的依赖,将监控结果写到日志中。
4、为了方便查看监控结果,直接将结果以html方式返回。

二、配置文件

config.py

IP = '127.0.0.1'
PORT = '5555'
LEVEL = 'INFO' # log level
BACKUP_COUNT = 9 # log backup counter
LOG_PATH = 'logs' # log path
INTERVAL = 1 # interval, run command interval.
SLEEPTIME = 3 # interval, when stopping monitor, polling to start monitor when satisfying condition.
ERROR_TIMES = 5 # times, number of running command. When equal, automatically stopped monitor.
IS_JVM_ALERT = True # Whether to alert when the frequency of Full GC is too high.
IS_MONITOR_SYSTEM = True # Whether to monitor system's CPU and Memory.
IS_MEM_ALERT = True # Whether to alert when memory is too low. Alert by sending email.
MIN_MEM = 2  # Minxium memory, uint: G
# 0: don't clear cache, 1: clear page caches, 2: clear dentries and inodes caches, 3: include 1 and 2;
# echo 1 >/proc/sys/vm/drop_caches
ECHO = 0
SMTP_SERVER = 'smtp.sina.com' # SMTP server
SENDER_NAME = '张三'  # sender name
SENDER_EMAIL = 'zhangsan@qq.com' # sender's email
PASSWORD = 'UjBWYVJFZE9RbFpIV1QwOVBUMDlQUT09' # email password, base64 encode.
RECEIVER_NAME = 'baidu_all' # receiver name
RECEIVER_EMAIL = ['zhangsan@qq.com', 'zhangsi@qq.com'] # receiver's email
DISK = 'device1' # Which disk your application runs
START_TIME = 'startTime.txt' # Store the time of start monitoring.
FGC_TIMES = 'FullGC.txt' # Store the time of every FullGC time.
# html
HTML = '<html><body>{}</body><html>'
ERROR = '<p style="color:red">{}</p>'
HEADER = '<div id="header"><h2 align="center">Performance Monitor (pid={})</h2></div>'
ANALYSIS = '<div id="container" style="width:730px; margin:0 auto">{}</div>'

IP和PORT:开启服务的服务器IP和端口,必须和所监控的服务在同一台服务器上;
BACKUP_COUNT:默认为9,即只保留最近9天监控结果;
INTERVAL:两次监控的时间间隔,默认为1s,主要用于cpu和内存监控,当同时监控多个端口或进程时,请将该值设小一点;
ERROR_TIMES:命令执行失败次数,当大于该次数时,则会自动停止监控;主要用于监控指定的进程,如果进程被杀掉,则必须自动停止监控,且必须手动触发再次开始监控;如果监控指定的端口,当端口的进程被杀掉后,也会停止监控,如果端口被重新启动,则自动开始监控;
IS_JVM_ALERT:仅针对java应用,如果频繁FullGC,则邮件提醒;一般性能测试,FullGC的频率不得小于3600秒;
IS_MONITOR_SYSTEM :是否监控系统总CPU使用率和剩余内存;
IS_MEM_ALERT:当系统剩余内存过低时,是否邮件提醒;
MIN_MEM:允许系统最小剩余内存,单位为G;
ECHO:当系统剩余内存过低时,是否释放缓存;0为不释放,1为释放页面缓存,2为释放dentries和inodes缓存,3为释放1和2;
DISK:磁盘号,如果监控IO,需要输入磁盘号,通过df -h 文件名查看当前文件挂在哪个磁盘下;
START_TIME:记录每次手动触发开始监控的时间;
FGC_TIMES:记录每次FullGC的时间,用于排查问题;

三、接口和服务

server.py

server = Flask(__name__)
permon = PerMon()
# 开启多线程
t = [threading.Thread(target=permon.write_cpu_mem, args=()),
 threading.Thread(target=permon.write_io, args=())]
for i in range(len(t)):
 t[i].start()
# 开始监控
# http://127.0.0.1:5555/runMonitor?isRun=1&type=pid&num=23121&totalTime=3600
@server.route('/runMonitor', methods=['get'])
def runMonitor():......
# 画监控结果图
# http://127.0.0.1:5555/plotMonitor?type=pid&num=23121
@server.route('/plotMonitor', methods=['get'])
def plotMonitor():.......
server.run(port=cfg.PORT, debug=True, host=cfg.IP) # 开启服务

通过在浏览器地址栏输入对应的url,即可启停监控和查看监控结果

url传参:

1、开始监控

http://127.0.0.1:5555/runMonitor?isRun=1&type=pid&num=23121&totalTime=3600
isRun:1为开始监控,0为停止监控;
type和num:type=pid时,表明num为进程号,type=port,表明num为端口号;可以同时监控多个端口或进程,多个端口或进程用英文逗号隔开;
totalTime:为监控总时间,单位为秒;如果不传入totalTime,则默认一直监控;

2、查看监控结果

http://127.0.0.1:
5555/plotMonitor?type=port&num=23121&system=1&startTime=2019-08-03 08:08:08&duration=3600
type和num:type=pid时,表明num为进程号,type=port,表明num为端口号;
system:表示查看系统监控结果;如果传了type和num,不管sysytem是否传值,都只能看到进程的监控结果;不传type和num,只传system,则可以查看系统监控结果;
startTime:查看监控结果开始时间;
duration:查看监控结果的时长,单位为秒;
如果不传startTime和duration,则默认查看最近一次开始监控以来的所有结果;如果需要查看某一段时间内的监控结果,则需要传startTime和duration,查看监控结果的时间范围为从startTime开始到startTime+duration为止。
注:如果在查看监控结果输入的一段时间内,服务被重启过,则进程号会有变化,此时仍输入重启前的进程号,则只能查看对应进程号在对应时间段内的监控结果。一般情况下,端口号不会轻易变化,建议查看监控结果时输入端口号。

四、监控

performance_monitor.py

使用top命令监控CPU和内存,使用jstat命令监控JVM内存(仅java应用),使用iotop命令监控进程读写磁盘,使用iostat命令监控磁盘IO,使用netstat命令根据端口查进程,使用ps命令查看服务启动时长。因此,服务器必须支持以上命令,如不支持,请安装。

注:由于进程可以开启多个线程,在查看进程的IO时,是看不到任何IO;而查看进程开启的某个线程IO时,是可以看到IO的,但是线程是一直是在变化的;故目前暂不支持监控指定进程IO的。

五、查看监控结果

draw_performance.py

1、分别画CPU图、内存和JVM图、IO图和句柄数图;
2、为方便统计CPU和IO使用情况,计算百分位数;
3、为方便统计垃圾回收信息,计算java应用的ygc、fgc,以及各自的频率。

监控结果效果图如下:

六、扩展函数

extern.py 有两个功能

1、端口转进程

try:
 result = os.popen(f'netstat -nlp|grep {port} |tr -s " "').readlines()
 res = [line.strip() for line in result if str(port) in line]
 p = res[0].split(' ')
 pp = p[3].split(':')[-1]
 if str(port) == pp:
 pid = p[-1].split('/')[0]
except Exception as err:
 logger.logger.error(err)

2、查找包含监控结果的日志

整体思路:

(1)根据输入的开始时间和结束时间,查找包含这段时间的所有日志文件;
        (2)根据查找出来的日志文件,找出包含监控结果的所有日志;
        (3)画图的时候遍历找出的所有日志。

补充

1、为了方便查看最近一次开始监控的时间,会将每一次开始监控的时间写到startTime.txt文件中;

2、为了方便排查java应用可能出现的问题,将每一次Full GC的时间写到FullGC.txt文件中。

项目地址:https://github.com/leeyoshinari/performance_monitor

总结

以上所述是小编给大家介绍的基于python的Linux系统指定进程性能监控,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

(0)

相关推荐

  • 使用Python脚本对Linux服务器进行监控的教程

    目前 Linux 下有一些使用 Python 语言编写的 Linux 系统监控工具 比如 inotify-sync(文件系统安全监控软件).glances(资源监控工具)在实际工作中,Linux 系统管理员可以根据自己使用的服务器的具体情况编写一下简单实用的脚本实现对 Linux 服务器的监控. 本文介绍一下使用 Python 脚本实现对 Linux 服务器 CPU 内存 网络的监控脚本的编写. Python 版本说明 Python 是由 Guido van Rossum 开发的.可免费获得的.

  • Linux 发邮件磁盘空间监控(python)

    核心代码: #!/usr/bin/python # -*- coding: UTF-8 -*- import smtplib import os import commands,time from email.mime.text import MIMEText #from email import MIMEText disk_free=os.popen('df -lh') list_disk=disk_free.read() mailto_list=["2880329185@qq.com&quo

  • python实现监控linux性能及进程消耗性能的方法

    本文以实例形式实现了python监控linux性能以及进程消耗性能的方法,具体实现代码如下: # -*- coding: utf-8 -*- """ Created on Tue Jun 10 10:20:13 2014 @author: lifeix """ from collections import OrderedDict import time import os def cpuinfo(): lines = open('/proc/s

  • linux系统使用python监控apache服务器进程脚本分享

    crtrl.py监控Apache服务器进程的Python 脚本 复制代码 代码如下: !/usr/bin/env Python import os, sys, time while True: time.sleep(4) try: ret = os.popen('ps -C apache -o pid,cmd').readlines() if len(ret) < 2: print "apache 进程异常退出, 4 秒后重新启动" time.sleep(3) os.system

  • Linux下用Python脚本监控目录变化代码分享

    #!/usr/bin/env python #coding=utf-8 import os from pyinotify import WatchManager, Notifier, ProcessEvent, IN_DELETE, IN_CREATE,IN_MODIFY wm = WatchManager() mask = IN_DELETE | IN_CREATE |IN_MODIFY # watched events class PFilePath(ProcessEvent): def p

  • python和shell监控linux服务器的详细代码

    本文实例为大家分享了python和shell监控linux服务器的具体代码,供大家参考,具体内容如下 1. shell监控负载 监控原理:使用uptime来获取负载的信息,然后通过字符串截取的方式来获取load值来获取单个核心的负载,在将负载与阈值比较确定是否报警. loard_monitor.sh脚本: #!/bin/bash #使用uptime命令监控linux系统负载变化 #提取本服务器的IP地址信息 IP=`ifconfig eth0 | grep "inet addr" |

  • 基于python的Linux系统指定进程性能监控思路详解

    监控Linux服务器的工具.组件和程序网上有很多,但是一台服务器上会有很多进程同时运行,特别是做性能测试的时候,可能一台服务器上部署多个服务,如果只监控整个服务器的CPU和内存,当某个服务出现性能问题时,并不能有效准确的定位出(当然通过其他工具也可以实现),因此,很有必要只监控指定的进程.需求明确了,于是动手撸了一个性能监控脚本. 一.整体思路 1.为了方便的启动监控和停止监控,在想查看监控结果的时候随时查看监控结果,用flask开启了一个服务,通过发送get请求可以随时启停监控和查看监控结果.

  • Linux系统下mysqlcheck修复数据库命令(详解)

    mysqlcheck客户端工具可以检查和修复MyISAM表,还可以优化和分析表. 实际上,它集成了mysql工具中check.repair.analyze.optimize的功能. 有3种方式来调用mysqlcheck: shell> mysqlcheck[options] db_name [tables] shell> mysqlcheck[options] ---database DB1 [DB2 DB3...] shell> mysqlcheck[options] --all--d

  • 基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解

    Pyplot matplotlib.pyplot是一个命令型函数集合,它可以让我们像使用MATLAB一样使用matplotlib.pyplot中的每一个函数都会对画布图像作出相应的改变,如创建画布.在画布中创建一个绘图区.在绘图区上画几条线.给图像添加文字说明等.下面我们就通过实例代码来领略一下他的魅力. import matplotlib.pyplot as plt plt.plot([1,2,3,4]) plt.ylabel('some numbers') plt.show() 上图是我们通

  • 基于Python的Post请求数据爬取的方法详解

    为什么做这个 和同学聊天,他想爬取一个网站的post请求 观察 该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反爬虫.既有query参数又有空对象体的body参数是一件脑洞很大的事情. 一开始先在apizza网站 上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情. 源码 import requests im

  • Linux 系统使用私钥登录的教程详解

    Linux 系统系统如何使用私钥登录?Linux服务器每次都要输入负责的密码,为了方便.安全登录Linux服务器,使用私钥公钥来登录. 生成ssh公钥密钥对: #ssh-keygen -t rsa -t? rsa? ? 是指采用rsa加密方式的公钥/私钥对. -b? ? ? ? ? ?是指公钥/私钥对的长度,一般为1024,2048.默认为2048字节. 进入/root/.ssh目录下: # cat id_rsa.pub >> authorized_keys # chmod 600 autho

  • 使用 Python 实现微信群友统计器的思路详解

    基于微信可以做很多有意思的练手项目,看了这张速查表你就会发现,可以做的事情超过你的想象. 有一次我想要统计微信群里哪些同学在北京,但发现直接问是很难得到准确结果的-- 这时候不如运用 wxpy 这个库抓取所有群友的地区信息,很快就可以得到想要的结果,甚至还精确到了区. 下面来分享一下这个微信群友统计器的实现思路,你可以基于它去拓展更多实用功能. 实现思路 解决复杂问题最好的办法就是把问题简单化,拆解成若干个小问题,然后逐个击破.问题的拆解思路如下: ▍1. 如何通过 wxpy 库找到指定微信群?

  • python发qq消息轰炸虐狗好友思路详解(完整代码)

    因为我的某个好友在情人节的时候秀恩爱,所以我灵光一闪制作了qq消息轰炸并记录了下来. 首先 我的编程环境是: windows 10系统 python3.6 记得要下载win32 pip install win32 思路介绍 其实也非常简单 将要发出去的句子储存在列表中 然后用随机模块调用 将随机出来的元素储存在剪贴板中 连接QQ 找到指定对象 疯狂输出 怎么样,简单吧 开始打代码吧 import random import win32gui as a import win32con as b i

  • python正则表达式从字符串中提取数字的思路详解

    python从字符串中提取数字 使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始. ## $ 匹配字符串的结尾. ## \b 匹配一个单词的边界. ## \d 匹配任意数字. ## \D 匹配任意非数字字符. ## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符). ## x* 匹配0次或者多次 x 字符. ## x+ 匹配1次或者多次 x 字符. ## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次. ## (a|b|c) 要么匹配

  • Python实现大数据收集至excel的思路详解

    一.在工程目录中新建一个excel文件 二.使用python脚本程序将目标excel文件中的列头写入,本文省略该部分的code展示,可自行网上查询 三.以下code内容为:实现从接口获取到的数据值写入excel的整体步骤 1.整体思路: (1).根据每日调取接口的日期来作为excel文件中:列名为"收集日期"的值 (2).程序默认是每天会定时调取接口并获取接口的返回值并写入excel中(我使用的定时任务是:linux下的contab) (3).针对接口异常未正确返回数据时,使用特殊符号

  • python+selenium 脚本实现每天自动登记的思路详解

    最近受疫情影响,学校要求每天必须进行健康登记,而我身处大山深处,身体健康,足不出户,奈何总是容易忘记,遂决定手撸一个自动登记的小程序,仅供学习交流之用,话不多说,直接上代码. 配置:Chrom python3.7 selenium库,webdriver等 基本思路,使用selenium模拟浏览器自动登录,需要解决验证码的提取,嵌套表单的提取,弹窗处理,异常处理. 为了防止大家用此网站测试,搞垮服务器,关键网址我已隐藏. import selenium.webdriver import time

随机推荐