定位Linux耗CPU较高的线程
压测过程,经常遇见服务器CPU非常高,只是单纯的top,也只能看到是哪个进程比较耗CPU,不能进一步定位具体的线程。
Linux定位CPU瓶颈几种方式
系统查看
查看物理CPU个数:
1 | cat /proc/cpuinfo |grep "physical id"|sort|uniq|wc -l |
查看每个物理CPU中的core个数:
1 | cat /proc/cpuinfo |grep "cpu cores"|wc -l |
逻辑CPU个数
1 | cat /proc/cpuinfo |grep "procetestr"|wc -l |
物理cpu个数*核数=逻辑cpu个数(不支持超线程技术的情况下)
uptime
1 | [root@izuf6a1s9ws9726xatwn47z tools]# uptime |
- load average三值大小一般不能大于系统CPU的个数。
1
系统有8个CPU,如load average三值长期大于8,说明CPU很繁忙,负载很高,可能会影响系统性能。
- 但偶尔大于8,一般不会影响系统性能。
- 如load average输出值小于CPU个数,则表示CPU有空闲时间片,比如本例中的输出,CPU是非常空闲的
vmstat
1 | [root@izuf6b0a7e5agj4lm7aj3mz ~]# vmstat 2 3 |
r–运行和等待cpu时间片的进程数,这个值如果长期大于系统CPU的个数,说明CPU不足,需要增加CPU
b–在等待资源的进程数,比如正在等待I/O、或者内存交换等。
CPU
us
用户进程消耗的CPU时间百分比
us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期大于50%,就需要考虑优化程序或算法。
sy
内核进程消耗的CPU时间百分比,Sy的值较高时,说明内核消耗的CPU资源很多
根据经验,us+sy的参考值为80%,如果大于80%可能存在CPU资源不足。
sar
sar对系统每个方面进行单独统计,但会增加系统开销,不过开销可以评估,对系统的统计结果不会有很大影响
1 | [root@izuf6b0a7e5agj4lm7aj3mz ~]# sar -u 3 5 |
解释:
1 | %user列显示了用户进程消耗的CPU 时间百分比。 |
top
1 | top - 10:20:34 up 54 days, 18:06, 1 user, load average: 0.14, 0.30, 0.26 |
第一行为当前时间,系统运行时间,当前登录用户数,系统1/5/15分钟平均负载
第二、三行为进程和CPU的信息。当有多个CPU时,这些内容可能会超过两行。内容如下:
Tasks:
total 进程总数
running 正在运行的进程数
sleeping 睡眠的进程数
stopped 停止的进程数
zombie 僵尸进程数
Cpu(s):
us 用户空间占用CPU百分比
sy 内核空间占用CPU百分比
ni 用户进程空间内改变过优先级的进程占用CPU百分比
id 空闲CPU百分比
wa 等待输入输出的CPU时间百分比
hi 硬中断(Hardware IRQ)占用CPU的百分比
si 软中断(Software Interrupts)占用CPU的百分比
st (Steal time) 是当 hypervisor 服务另一个虚拟处理器的时候,虚拟 CPU 等待实际 CPU 的时间的百分比。
最后两行为内存信息。内容如下:
Mem:
total 物理内存总量
used 使用的物理内存总量
free 空闲内存总量
buffers 用作内核缓存的内存量
Swap:
total 交换区总量
used 使用的交换区总量
free 空闲交换区总量
cached 缓冲的交换区总量。
内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,
该数值即为这些内容已存在于内存中的交换区的大小。
相应的内存再次被换出时可不必再对交换区写入。
进程信息区
统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。
序号 列名 含义
PID 进程id
PPID 父进程id
RUSER Real user name
d UID 进程所有者的用户id
e USER 进程所有者的用户名
f GROUP 进程所有者的组名
g TTY 启动进程的终端名。不是从终端启动的进程则显示为 ?
h PR 优先级
i NI nice值。负值表示高优先级,正值表示低优先级
j P 最后使用的CPU,仅在多CPU环境下有意义
k %CPU 上次更新到现在的CPU时间占用百分比
l TIME 进程使用的CPU时间总计,单位秒
m TIME+ 进程使用的CPU时间总计,单位1/100秒
n %MEM 进程使用的物理内存百分比
o VIRT 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
p SWAP 进程使用的虚拟内存中,被换出的大小,单位kb。
q RES 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
r CODE 可执行代码占用的物理内存大小,单位kb
s DATA 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
t SHR 共享内存大小,单位kb
u nFLT 页面错误次数
v nDRT 最后一次写入到现在,被修改过的页面数。
w S 进程状态。
D=不可中断的睡眠状态
R=运行
S=睡眠
T=跟踪/停止
Z=僵尸进程
x COMMAND 命令名/命令行
y WCHAN 若该进程在睡眠,则显示睡眠中的系统函数名
z Flags 任务标志,参考 sched.h
默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。
更改显示内容
通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。
按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。
定位具体线程
top -c
通过top -c
获得当前系统资源总览,键盘输入P
(大写),根据对CPU消耗倒序排列,获得最耗CPU的进程PID
1 | Tasks: 122 total, 1 running, 121 sleeping, 0 stopped, 0 zombie |
以上例子,最耗CPU的进程PID为4209
top -Hp PID
top -Hp PID
获得该PID的线程列表,通过大写P,倒序排列,获取最耗CPU的线程PID:
1 | %Cpu(s): 91.3 us, 1.9 sy, 0.0 ni, 5.5 id, 0.0 wa, 0.0 hi, 1.4 si, 0.0 st |
例如上述例子,获得最耗CPU的线程PID为10185
printf “%x”
通过printf “%x” 线程PID
,将PID转换为16进制:
1 | [testadmin@izuf6bp7m03kbyap05zr6gz themes]$ printf “%x” 10185 |
获得16进制的PID27c9
jstack 进程PID | grep 16进制线程PID -C5 –color
通过jstack 进程PID | grep 16进制线程PID -C5 --color
,获得耗CPU的线程详情:
1 | [testadmin@izuf6bp7m03kbyap05zr6gz themes]$ jstack 4209 | grep 27c9 -C5 --color |
上述例子,可以获取最耗CPU的线程名称:default task-417
,以及该线程执行的代码堆栈:0x27c9
以上,完!