CPU Load spike every 7 hours

CPU负载每 7 小时激增一次

1 CPU load 含义

CPU load 是指一段时间内系统所有 CPU 上，正在处理以及等待CPU处理的进程数之和。

在使用top命令检查系统负载的时候，可以看到Load averages字段，但是这个字段并不是表示CPU的繁忙程度，而是度量系统整体负载。

Load averages采样是从/proc/loadavg中获取的:

$ cat /proc/loadavg
0.00 0.01 0.05 1/161 29703

每个值的含义依次为：
lavg_1 (0.00) 1-分钟平均负载
lavg_5 (0.01) 5-分钟平均负载
lavg_15(0.05) 15-分钟平均负载
nr_running (1) 在采样时刻，运行队列的任务的数目，与/proc/stat的procs_running表示相同意思，这个数值是当前可运行的内核调度对象（进程，线程）。
nr_threads (161) 在采样时刻，系统中活跃的任务的个数（不包括运行已经结束的任务），即这个数值表示当前存在系统中的内核可调度对象的数量。
last_pid(29703) 系统最近创建的进程的PID，包括轻量级进程，即线程。

假设当前有两个CPU，则每个CPU的当前任务数为0.00/2=0.00

如果你看到 load average 数值是 10，则表明平均有 10 个进程在运行或等待状态。

有可能系统有很高的负载但是 CPU 使用率却很低，或者负载很低而 CPU 利用率很高，

因为这两者没有直接关系。

2 Load 周期性波动

这是由于内核计算负载的方式造成的。参见内核源码

#define LOAD_FREQ   (5*HZ+1)

load 不是每 5 秒检查一次，是每 5.001 检查一次，因此，需要5*1000*5.001秒才能回到5秒的倍数。25005/3600大约是7小时（6小时56分40秒）。

2.1 特定机器？

每台机器都会有这个情况，只是是否明显，即使是空闲的机器，也会有 7 小时 cpu 波动情况。

如果定时任务执行脚本时间很短，load 不是每次都能采集到进程正在运行，但随着时间推移，会在 7 小时内采集到

2.2 这个是内核 BUG 吗？

不是！我们确信，增加额外的毫秒是有意的，以准确覆盖正在进行非常短但紧张的工作的情况。想象一下，load 是以 5 秒的间隔精确测量的。load 测量中根本看不到一个特殊定制的任务，比如等待0.1秒，做4.8秒的高强度工作，然后再等待0.1秒。

2.3 这是一个特定的问题吗？

绝对不是，当定期执行相对较短（执行时间 <5s）的任务时，这种情况一定无处不在。

执行脚本小于 5s 时，load 检查时，检查的时候，只会在特定的周期才能正好捕获到脚本处于运行中

4 如何找出系统中 load 高时处于运行队列的进程

每秒输出处于 R (运行中的队列)or D (不可中断的睡眠进程)状态的进程

#!/bin/bash
LANG=C
PATH=/sbin:/usr/sbin:/bin:/usr/bin

interval=1
length=86400
for i in $(seq 1 $(expr ${length} / ${interval}));do
    date
    LANG=C ps -eTo stat,pid,tid,ppid,comm --no-header | sed -e 's/^ \*//' | perl -nE 'chomp;say if (m!^\S*[RD]+\S*!)'
    date
    cat /proc/loadavg
    echo -e "\n"
    sleep ${interval}
done

查 CPU 使用率比较高的线程

#!/bin/bash
LANG=C
PATH=/sbin:/usr/sbin:/bin:/usr/bin
interval=1
length=86400

for i in $(seq 1 $(expr ${length} / ${interval}));do
    echo "----------------------------------"
    date
    LANG=C ps -eT -o%cpu,pid,tid,ppid,comm | grep -v CPU | sort -n -r | head -20
    date
    LANG=C cat /proc/loadavg
    { LANG=C ps -eT -o%cpu,pid,tid,ppid,comm | sed -e 's/^ *//' | tr -s ' ' | grep -v CPU | sort -n -r | cut -d ' ' -f 1 | xargs -I{} echo -n "{} + " && echo ' 0';  } | bc -l
    sleep ${interval}
done
fuser -k $0