标签监控下的文章

监控 Linux 服务器活动的几个命令

Sandra Henry-Stocker 发布于 2019-02-02
另请参阅: 系统运维,监控, top, watch
评论

watch、top 和 ac 命令为我们监视 Linux 服务器上的活动提供了一些十分高效的途径。

为了在获取系统活动时更加轻松，Linux 系统提供了一系列相关的命令。在这篇文章中，我们就一起来看看这些对我们很有帮助的命令吧。

watch 命令

watch 是一个用来轻松地重复检测 Linux 系统中一系列数据命令，例如用户活动、正在运行进程、登录、内存使用等。这个命令实际上是重复地运行一个特定的命令，每次都会重写之前显示的输出，它提供了一个比较方便的方式用以监测在你的系统中发生的活动。

首先以一个基础且不是特别有用的命令开始，你可以运行 watch -n 5 date，然后你可以看到在终端中显示了当前的日期和时间，这些数据会每五秒更新一次。你可能已经猜到了，-n 5 选项指定了运行接下来一次命令需要等待的秒数。默认是 2 秒。这个命令将会一直运行并按照指定的时间更新显示，直到你使用 ^C 停下它。

Every 5.0s: date                             butterfly: Wed Jan 23 15:59:14 2019

Wed Jan 23 15:59:14 EST 2019

下面是一个更有趣的命令实例，你可以监控一个在服务器中登录用户的列表，该列表会按照指定的时间定时更新。就像下面写到的，这个命令会每 10 秒更新一次这个列表。登出的用户将会从当前显示的列表中消失，那些新登录的将会被添加到这个表格当中。如果没有用户再登录或者登出，这个表格跟之前显示的将不会有任何不同。

$ watch -n 10 who

Every 10.0s: who                             butterfly: Tue Jan 23 16:02:03 2019

shs      :0           2019-01-23 09:45 (:0)
dory     pts/0        2019-01-23 15:50 (192.168.0.5)
nemo     pts/1        2019-01-23 16:01 (192.168.0.15)
shark    pts/3        2019-01-23 11:11 (192.168.0.27)

如果你只是想看有多少用户登录进来，可以通过 watch 调用 uptime 命令获取用户数和负载的平均水平，以及系统的工作状况。

$ watch uptime

Every 2.0s: uptime                           butterfly: Tue Jan 23 16:25:48 2019

 16:25:48 up 22 days,  4:38,  3 users,  load average: 1.15, 0.89, 1.02

如果你想使用 watch 重复一个包含了管道的命令，就需要将该命令用引号括起来，就比如下面这个每五秒显示一次有多少进程正在运行的命令。

$ watch -n 5 'ps -ef | wc -l'

Every 5.0s: ps -ef | wc -l butterfly: Tue Jan 23 16:11:54 2019

245

要查看内存使用，你也许会想要试一下下面的这个命令组合：

$ watch -n 5 free -m

Every 5.0s: free -m butterfly: Tue Jan 23 16:34:09 2019

Every 5.0s: free -m                          butterfly: Tue Jan 23 16:34:09 2019

              total        used        free      shared  buff/cache   available
Mem:           5959         776        3276          12        1906        4878
Swap:          2047           0        2047

你可以在 watch 后添加一些选项查看某个特定用户下运行的进程，不过 top 为此提供了更好的选择。

top 命令

如果你想查看某个特定用户下的进程，top 命令的 -u 选项可以很轻松地帮你达到这个目的。

$ top -u nemo
top - 16:14:33 up 2 days,  4:27,  3 users,  load average: 0.00, 0.01, 0.02
Tasks: 199 total,   1 running, 198 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.2 sy,  0.0 ni, 99.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
MiB Mem :   5959.4 total,   3277.3 free,    776.4 used,   1905.8 buff/cache
MiB Swap:   2048.0 total,   2048.0 free,      0.0 used.   4878.4 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
23026 nemo      20   0   46340   7820   6504 S   0.0   0.1   0:00.05 systemd
23033 nemo      20   0  149660   3140     72 S   0.0   0.1   0:00.00 (sd-pam)
23125 nemo      20   0   63396   5100   4092 S   0.0   0.1   0:00.00 sshd
23128 nemo      20   0   16836   5636   4284 S   0.0   0.1   0:00.03 zsh

你可能不仅可以看到某个用户下的进程，还可以查看每个进程所占用的资源，以及系统总的工作状况。

ac 命令

如果你想查看系统中每个用户登录的时长，可以使用 ac 命令。运行该命令之前首先需要安装 acct（Debian 等）或者 psacct（RHEL、Centos 等）包。

ac 命令有一系列的选项，该命令从 wtmp 文件中拉取数据。这个例子展示的是最近用户登录的总小时数。

$ ac
        total     1261.72

这个命令显示了用户登录的总的小时数：

$ ac -p
        shark                                5.24
        nemo                                 5.52
        shs                               1251.00
        total     1261.76

这个命令显示了每天登录的用户小时数：

$ ac -d | tail -10

Jan 11  total        0.05
Jan 12  total        1.36
Jan 13  total       16.39
Jan 15  total       55.33
Jan 16  total       38.02
Jan 17  total       28.51
Jan 19  total       48.66
Jan 20  total        1.37
Jan 22  total       23.48
Today   total        9.83

总结

Linux 系统上有很多命令可以用于检查系统活动。watch 命令允许你以重复的方式运行任何命令，并观察输出有何变化。top 命令是一个专注于用户进程的最佳选项，以及允许你以动态方式查看进程的变化，还可以使用 ac 命令检查用户连接到系统的时间。

via: https://www.networkworld.com/article/3335200/linux/how-to-monitor-activity-on-your-linux-server.html

作者：Sandra Henry-Stocker 选题：lujun9972 译者：dianbanjiu 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

开始使用 WTF 吧，一款终端仪表板

Kevein Sonney 发布于 2019-01-28
另请参阅: 分享,监控, WTF
评论

使用 WTF 将关键信息置于视野之中，这个系列中第六个开源工具可使你在 2019 年更有工作效率。

每年年初似乎都有疯狂的冲动想提高工作效率。新年的决心，渴望开启新的一年，当然，“抛弃旧的，拥抱新的”的态度促成了这一切。通常这时的建议严重偏向闭源和专有软件，但事实上并不用这样。

这是我挑选出的 19 个新的（或者对你而言新的）开源项目来帮助你在 2019 年更有效率。

WTF

曾几何时，我在一家使用彭博终端的公司做咨询。我的反应是，“哇，在一个屏幕上显示的信息太多了。” 然而，现在，当我正在工作并且打开多个网页、仪表板和控制台应用程序以试图跟踪事物时，我似乎无法在屏幕上获得足够的信息。

虽然 tmux 和 Screen 可以进行分屏和打开多个窗口，但它们很难设置，并且它们的键绑定可能需要一段时间才能学会（还经常与其他应用程序冲突）。

WTF 是一个简单的、易于配置的终端信息仪表板。它是用 Go 语言编写的，使用 YAML 配置文件，可以从几个不同的源提取数据。所有的数据源都包含在模块中，包括天气、问题跟踪器、日期和时间、Google 表格以及更多内容。有些窗格是交互式的，有些窗格只是使用最新的信息进行更新。

安装它就像下载适用于您的操作系统的最新版本并运行命令一样简单。因为它是用 Go 编写的，所以它的移植性很好，应该可以在任何可以编译它的地方运行（尽管开发人员目前只为 Linux 和 MacOS 做了构建）。

当您第一次运行 WTF 时，您将看到如上图的默认屏幕。

其默认配置文件在 ~/.wtf/config.yml，您可以编辑该文件以满足您的需要。网格布局的配置在文件的顶部。

grid:
  columns: [45, 45]
  rows: [7, 7, 7, 4]

网格设置中的数字表示每个块的字符尺寸。默认配置是两列，每列 40 个字符，两行 13 个字符高，一行 4 个字符高。在上面的代码中，我使列更宽（45,45），行更小，并添加了第四行，所以我可以放更多的小部件。

我喜欢在仪表板上看到当天的天气。有两个天气模块可供选择：Weather，它只显示文本信息；Pretty Weather 则色彩丰富，并使用基于文本的图形显示。

prettyweather:
  enabled: true
  position:
    top: 0
    left: 1
    height: 2
    width: 1

此代码创建了一个窗格，高为两个块（height: 2），宽为一个块（width: 1），位于顶行（top: 0）的第二列（left: 1）上，包含 Pretty Weather 模块.

一些模块是交互式的，如 Jira、GitHub 和 Todo，您可以在其中滚动、更新和保存信息。您可以使用 Tab 键在交互式窗格之间移动。\ 键会显示活动窗格的帮助屏幕，以便您可以查看可以执行的操作以及操作方式。Todo 模块允许您添加、编辑和删除待办事项，并在完成后勾掉它们。

还有一些模块可以执行命令并显示输出、监视文本文件，以及监视构建和集成服务器的输出。所有文档都做得很好。

对于需要在不同来源的一个屏幕上查看大量数据的人来说，WTF 是一个有价值的工具。

via: https://opensource.com/article/19/1/wtf-information-dashboard

作者：Kevein Sonney 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

s-tui：在 Linux 中监控 CPU 温度、频率、功率和使用率的终端工具

Prakash Subramanian 发布于 2019-01-23
另请参阅: 分享,监控, 压力测试
评论

一般每个 Linux 管理员都会使用 lm\_sensors 监控 CPU 温度。lm\_sensors （Linux 监控传感器）是一个自由开源程序，它提供了监控温度、电压和风扇的驱动和工具。

如果你正在找替代的 CLI 工具，我会建议你尝试 s-tui。

它其实是一个压力测试的终端 UI，可以帮助管理员通过颜色查看 CPU 温度。

s-tui 是什么

s-tui 是一个用于监控计算机的终端 UI。s-tui 可以在终端以图形方式监控 CPU 温度、频率、功率和使用率。此外，它还显示由发热量限制引起的性能下降，它需要很少的资源并且不需要 X 服务器。它是用 Python 编写的，需要 root 权限才能使用它。

s-tui 是一个独立的程序，可以开箱即用，并且不需要配置文件就可以使用其基本功能。

s-tui 使用 psutil 来探测你的一些硬件信息。如果不支持你的一些硬件，你可能看不到所有信息。

以 root 身份运行 s-tui 时，当压测所有 CPU 核心时，可以将 CPU 发挥到最大睿频频率。它在后台使用 Stress 压力测试工具，通过对系统施加某些类型的计算压力来检查其组件的温度是否超过其可接受的范围。只要计算机稳定并且其组件的温度不超过其可接受的范围，PC 超频就没问题。有几个程序可以通过压力测试得到系统的稳定性，从而评估超频水平。

如何在 Linux 中安装 s-tui

它是用 Python 写的，pip 是在 Linux 上安装 s-tui 的推荐方法。确保你在系统上安装了 python-pip 软件包。如果还没有，请使用以下命令进行安装。

对于 Debian/Ubuntu 用户，使用 apt 命令或 apt-get 命令来安装 pip。

$ sudo apt install python-pip stress

对于 Archlinux 用户，使用 pacman 命令来安装 pip。

$ sudo pacman -S python-pip stress

对于 Fedora 用户，使用 dnf 命令来安装 pip。

$ sudo dnf install python-pip stress

对于 CentOS/RHEL 用户，使用 yum 命令来安装 pip。

$ sudo yum install python-pip stress

对于 openSUSE 用户，使用 zypper 命令来安装 pip。

$ sudo zypper install python-pip stress

最后运行下面的 pip 命令在 Linux 中安装 s-tui 工具。

对于 Python 2.x：

$ sudo pip install s-tui

对于Python 3.x：

$ sudo pip3 install s-tui

如何使用 s-tui

正如我在文章开头所说的那样。它需要 root 权限才能从系统获取所有信息。只需运行以下命令即可启动 s-tui。

$ sudo s-tui

默认情况下，它启用硬件监控并选择 “Stress” 选项以对系统执行压力测试。

要查看其他选项，请到帮助页面查看。

$ s-tui --help

via: https://www.2daygeek.com/s-tui-stress-terminal-ui-monitor-linux-cpu-temperature-frequency/

作者：Prakash Subramanian 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用 Graylog 和 Prometheus 监视 Kubernetes 集群

Kevin Monroe 发布于 2018-04-11
另请参阅: 容器与云,监控, Kubernetes
评论

这篇文章最初发表在 Kevin Monroe 的博客上。

监视日志和指标状态是集群管理员的重点工作。它的好处很明显：指标能帮你设置一个合理的性能目标，而日志分析可以发现影响你工作负载的问题。然而，困难的是如何找到一个与大量运行的应用程序一起工作的监视解决方案。

在本文中，我将使用 Graylog （用于日志）和 Prometheus （用于指标）去打造一个 Kubernetes 集群的监视解决方案。当然了，这不仅是将三个东西连接起来那么简单，实现上，最终结果看起来应该如题图所示：

正如你所了解的，Kubernetes 不是一件东西 —— 它由主控节点、工作节点、网络连接、配置管理等等组成。同样，Graylog 是一个配角（apache2、mongodb、等等），Prometheus 也一样（telegraf、grafana 等等）。在部署中连接这些点看起来似乎有些让人恐惧，但是使用合适的工具将不会那么困难。

我将使用 conjure-up 和 Canonical 版本的 Kubernetes (CDK) 去探索 Kubernetes。我发现 conjure-up 接口对部署大型软件很有帮助，但是我知道一些人可能不喜欢 GUI、TUI 以及其它用户界面。对于这些人，我将用命令行再去部署一遍。

在开始之前需要注意的一点是，Graylog 和 Prometheus 是部署在 Kubernetes 外侧而不是集群上。像 Kubernetes 仪表盘和 Heapster 是运行的集群的非常好的信息来源，但是我的目标是为日志/指标提供一个分析机制，而不管集群运行与否。

开始探索

如果你的系统上没有 conjure-up，首先要做的第一件事情是，请先安装它，在 Linux 上，这很简单：

sudo snap install conjure-up --classic

对于 macOS 用户也提供了 brew 包：

brew install conjure-up

你需要最新的 2.5.2 版，它的好处是添加了 CDK spell，因此，如果你的系统上已经安装了旧的版本，请使用 sudo snap refresh conjure-up 或者 brew update && brew upgrade conjure-up 去更新它。

安装完成后，运行它：

conjure-up

你将发现有一个 spell 列表。选择 CDK 然后按下回车。

这个时候，你将看到 CDK spell 可用的附加组件。我们感兴趣的是 Graylog 和 Prometheus，因此选择这两个，然后点击 “Continue”。

它将引导你选择各种云，以决定你的集群部署的地方。之后，你将看到一些部署的后续步骤，接下来是回顾屏幕，让你再次确认部署内容：

除了典型的 K8s 相关的应用程序（etcd、flannel、load-balancer、master 以及 workers）之外，你将看到我们选择的日志和指标相关的额外应用程序。

Graylog 栈包含如下：

apache2：graylog web 界面的反向代理
elasticsearch：日志使用的文档数据库
filebeat：从 K8s master/workers 转发日志到 graylog
graylog：为日志收集器提供一个 api，以及提供一个日志分析界面
mongodb：保存 graylog 元数据的数据库

Prometheus 栈包含如下：

grafana：指标相关的仪表板的 web 界面
prometheus：指标收集器以及时序数据库
telegraf：发送主机的指标到 prometheus 中

你可以在回顾屏幕上微调部署，但是默认组件是必选的。点击 “Deploy all Remaining Applications” 继续。

部署工作将花费一些时间，它将部署你的机器和配置你的云。完成后，conjure-up 将展示一个摘要屏幕，它包含一些链接，你可以用你的终端去浏览各种感兴趣的内容：

浏览日志

现在，Graylog 已经部署和配置完成，我们可以看一下采集到的一些数据。默认情况下，filebeat 应用程序将从 Kubernetes 的 master 和 worker 中转发系统日志（ /var/log/*.log ）和容器日志（/var/log/containers/*.log）到 graylog 中。

记住如下的 apache2 的地址和 graylog 的 admin 密码：

juju status --format yaml apache2/0 | grep public-address
 public-address: <your-apache2-ip>
juju run-action --wait graylog/0 show-admin-password
 admin-password: <your-graylog-password>

在浏览器中输入 http://<your-apache2-ip> ，然后以管理员用户名（admin）和密码（）登入。

注意： 如果这个界面不可用，请等待大约 5 分钟时间，以便于配置的反向代理生效。

登入后，顶部的 “Sources” 选项卡可以看到从 K8s 的 master 和 workers 中收集日志的概述：

通过点击 “System / Inputs” 选项卡深入这些日志，选择 “Show received messages” 查看 filebeat 的输入：

在这里，你可以应用各种过滤或者设置 Graylog 仪表板去帮助识别大多数比较重要的事件。查看 Graylog Dashboard 文档，可以了解如何定制你的视图的详细资料。

浏览指标

我们的部署通过 grafana 仪表板提供了两种类型的指标：系统指标，包括像 K8s master 和 worker 的 CPU /内存/磁盘使用情况，以及集群指标，包括像从 K8s cAdvisor 端点上收集的容器级指标。

记住如下的 grafana 的地址和 admin 密码：

juju status --format yaml grafana/0 | grep public-address
 public-address: <your-grafana-ip>
juju run-action --wait grafana/0 get-admin-password
 password: <your-grafana-password>

在浏览器中输入 http://<your-grafana-ip>:3000，输入管理员用户（admin）和密码（）登入。成功登入后，点击 “Home” 下拉框，选取 “Kubernetes Metrics (via Prometheus)” 去查看集群指标仪表板：

我们也可以通过下拉框切换到 “Node Metrics (via Telegraf) ” 去查看 K8s 主机的系统指标。

另一种方法

正如在文章开始的介绍中提到的，我喜欢用 conjure-up 的向导去完成像 Kubernetes 这种复杂软件的部署。现在，我们来看一下 conjure-up 的另一种方法，你可能希望去看到实现相同结果的一些命令行的方法。还有其它的可能已经部署了前面的 CDK，并想去扩展使用上述的 Graylog/Prometheus 组件。不管什么原因你既然看到这了，既来之则安之，继续向下看吧。

支持 conjure-up 的工具是 Juju。CDK spell 所做的一切，都可以使用 juju 命令行来完成。我们来看一下，如何一步步完成这些工作。

从 Scratch 中启动

如果你使用的是 Linux，安装 Juju 很简单，命令如下：

sudo snap install juju --classic

对于 macOS，Juju 也可以从 brew 中安装：

brew install juju

现在为你选择的云配置一个控制器。你或许会被提示请求一个凭据（用户名密码）：

juju bootstrap

我们接下来需要基于 CDK 捆绑部署：

juju deploy canonical-kubernetes

从 CDK 开始

使用我们部署的 Kubernetes 集群，我们需要去添加 Graylog 和 Prometheus 所需要的全部应用程序：

## deploy graylog-related applications
juju deploy xenial/apache2
juju deploy xenial/elasticsearch
juju deploy xenial/filebeat
juju deploy xenial/graylog
juju deploy xenial/mongodb

## deploy prometheus-related applications
juju deploy xenial/grafana
juju deploy xenial/prometheus
juju deploy xenial/telegraf

现在软件已经部署完毕，将它们连接到一起，以便于它们之间可以相互通讯：

## relate graylog applications
juju relate apache2:reverseproxy graylog:website
juju relate graylog:elasticsearch elasticsearch:client
juju relate graylog:mongodb mongodb:database
juju relate filebeat:beats-host kubernetes-master:juju-info
juju relate filebeat:beats-host kubernetes-worker:jujuu-info

## relate prometheus applications
juju relate prometheus:grafana-source grafana:grafana-source
juju relate telegraf:prometheus-client prometheus:target
juju relate kubernetes-master:juju-info telegraf:juju-info
juju relate kubernetes-worker:juju-info telegraf:juju-info

这个时候，所有的应用程序已经可以相互之间进行通讯了，但是我们还需要多做一点配置（比如，配置 apache2 反向代理、告诉 prometheus 如何从 K8s 中取数、导入到 grafana 仪表板等等）：

## configure graylog applications
juju config apache2 enable_modules="headers proxy_html proxy_http"
juju config apache2 vhost_http_template="$(base64 <vhost-tmpl>)"
juju config elasticsearch firewall_enabled="false"
juju config filebeat \
 logpath="/var/log/*.log /var/log/containers/*.log"
juju config filebeat logstash_hosts="<graylog-ip>:5044"
juju config graylog elasticsearch_cluster_name="<es-cluster>"

## configure prometheus applications
juju config prometheus scrape-jobs="<scraper-yaml>"
juju run-action --wait grafana/0 import-dashboard \
 dashboard="$(base64 <dashboard-json>)"

以上的步骤需要根据你的部署来指定一些值。你可以用与 conjure-up 相同的方法得到这些：

<vhost-tmpl>：从 github 获取我们的示例模板
<graylog-ip>： juju run --unit graylog/0 'unit-get private-address'
<es-cluster>： juju config elasticsearch cluster-name
<scraper-yaml>：从 github 获取我们的示例 scraper ；[K8S_PASSWORD][20] 和 [K8S_API_ENDPOINT][21] substitute 的正确值
<dashboard-json>：从 github 获取我们的主机和 k8s 仪表板

最后，发布 apache2 和 grafana 应用程序，以便于可以通过它们的 web 界面访问：

## expose relevant endpoints
juju expose apache2
juju expose grafana

现在我们已经完成了所有的部署、配置、和发布工作，你可以使用与上面的浏览日志和浏览指标部分相同的方法去查看它们。

总结

我的目标是向你展示如何去部署一个 Kubernetes 集群，很方便地去监视它的日志和指标。无论你是喜欢向导的方式还是命令行的方式，我希望你清楚地看到部署一个监视系统并不复杂。关键是要搞清楚所有部分是如何工作的，并将它们连接到一起工作，通过断开/修复/重复的方式，直到它们每一个都能正常工作。

这里有一些像 conjure-up 和 Juju 一样非常好的工具。充分发挥这个生态系统贡献者的专长让管理大型软件变得更容易。从一套可靠的应用程序开始，按需定制，然后投入到工作中！

大胆去尝试吧，然后告诉我你用的如何。你可以在 Freenode IRC 的 #conjure-up 和 #juju 中找到像我这样的爱好者。感谢阅读！

关于作者

Kevin 在 2014 年加入 Canonical 公司，他专注于复杂软件建模。他在 Juju 大型软件团队中找到了自己的位置，他的任务是将大数据和机器学习应用程序转化成可重复的（可靠的）解决方案。

via: https://insights.ubuntu.com/2018/01/16/monitor-your-kubernetes-cluster/

作者：Kevin Monroe 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

cTop：用于容器监控的命令行工具

2daygeek 发布于 2018-04-03
另请参阅: 分享,容器, 监控, top, ctop
1 条评论

最近 Linux 容器很火，我们中的大多数人甚至已经在使用它，同时一些人也开始学习它。

我们已经介绍了有名的 GUI（用户图形界面）工具如 Portainer 和 Rancher 。这将会有助于我们通过 GUI 管理容器。

这篇指南将会通过 cTop 命令帮助我们理解和监控 Linux 容器。它是一个类似 top 命令的命令行工具。

什么是 cTop

ctop 为多个容器提供了一个简洁凝练的实时指标概览。它是一个类 top 的针对容器指标的界面。

它展示了容器指标比如 CPU 利用率、内存利用率、磁盘 I/O 读写、进程 ID（PID）和网络发送（TX - 从此服务器发送）以及接受（RX - 此服务器接受）。

ctop 带有对 Docker 和 runc 的内建支持；对其他容器和集群系统的连接计划在未来版本中推出。

它不需要任何参数并且默认使用 Docker 主机变量。

建议阅读：

如何安装 cTop

开发者提供了一个简单的 shell 脚本来帮助我们直接使用 ctop。我们要做的，只是在 /bin 目录下下载 ctop shell 文件来保证全局访问。最后给予 ctop 脚本文件执行权限。

在 /usr/local/bin 目录下下载 ctop shell 脚本。

$ sudo wget https://github.com/bcicen/ctop/releases/download/v0.7/ctop-0.7-linux-amd64 -O /usr/local/bin/ctop

对 ctop shell 脚本设置执行权限。

$ sudo chmod +x /usr/local/bin/ctop

另外你可以通过 docker 来安装和运行 ctop。在此之前先确保你已经安装过 docker。为了安装 docker，参考以下链接。

建议阅读：

$ docker run --rm -ti \
 --name=ctop \
 -v /var/run/docker.sock:/var/run/docker.sock \
 quay.io/vektorlab/ctop:latest

如何使用 cTop

直接启动 ctop 程序而不用任何参数。默认它绑定的 a 键用来展示所有容器（运行的和没运行的）。

ctop 头部显示你的系统时间和容器的总数。

$ ctop

你可能得到以下类似输出。

如何管理容器

你可以使用 ctop 来管理容器。选择一个你想要管理的容器然后按下回车键，选择所需选项如 start、stop、remove 等。

如何给容器排序

默认 ctop 使用 state 字段来给容器排序。按下 s 键来按不同的方面给容器排序。

如何查看容器指标

如何你想要查看关于容器的更多细节和指标，只用选择你想要查看的相应容器然后按 o 键。

如何查看容器日志

选择你想要查看日志的相应容器然后按 l 键。

仅显示活动容器

使用 -a 选项运行 ctop 命令来仅显示活动容器

打开帮助对话框

运行 ctop，只需按 h 键来打开帮助部分。

via: https://www.2daygeek.com/ctop-a-command-line-tool-for-container-monitoring-and-management-in-linux/

作者：2DAYGEEK 译者：kimii 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

每个系统管理员都要知道的 30 个 Linux 系统监控工具

Vivek Gite 发布于 2018-02-23
另请参阅: 分享,监控
评论

您需要监控 Linux 服务器的性能吗？试试用这些内置命令和附加工具吧！大多数 Linux 发行版都附带了大量的监控工具。这些工具提供了获取系统活动的相关指标。您可以使用这些工具来查找性能问题的可能原因。本文提到的是一些基本的命令，用于系统分析和服务器调试等，例如：

找出系统瓶颈
磁盘（存储）瓶颈
CPU 和内存瓶颈
网络瓶颈

1. top - 进程活动监控命令

top 命令会显示 Linux 的进程。它提供了一个运行中系统的实时动态视图，即实际的进程活动。默认情况下，它显示在服务器上运行的 CPU 占用率最高的任务，并且每五秒更新一次。

图 01：Linux top 命令

top 的常用快捷键

常用快捷键列表：

快捷键	用法
`t`	是否显示汇总信息
`m`	是否显示内存信息
`A`	根据各种系统资源的利用率对进程进行排序，有助于快速识别系统中性能不佳的任务。
`f`	进入 `top` 的交互式配置屏幕，用于根据特定的需求而设置 `top` 的显示。
`o`	交互式地调整 `top` 每一列的顺序。
`r`	调整优先级（`renice`）
`k`	杀掉进程（`kill`）
`z`	切换彩色或黑白模式

相关链接：Linux 如何查看 CPU 利用率？

2. vmstat - 虚拟内存统计

vmstat 命令报告有关进程、内存、分页、块 IO、中断和 CPU 活动等信息。

# vmstat 3

输出示例：

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
 r b swpd free buff cache si so bi bo in cs us sy id wa st
 0 0 0 2540988 522188 5130400 0 0 2 32 4 2 4 1 96 0 0
 1 0 0 2540988 522188 5130400 0 0 0 720 1199 665 1 0 99 0 0
 0 0 0 2540956 522188 5130400 0 0 0 0 1151 1569 4 1 95 0 0
 0 0 0 2540956 522188 5130500 0 0 0 6 1117 439 1 0 99 0 0
 0 0 0 2540940 522188 5130512 0 0 0 536 1189 932 1 0 98 0 0
 0 0 0 2538444 522188 5130588 0 0 0 0 1187 1417 4 1 96 0 0
 0 0 0 2490060 522188 5130640 0 0 0 18 1253 1123 5 1 94 0 0

显示 Slab 缓存的利用率

# vmstat -m

获取有关活动和非活动内存页面的信息

# vmstat -a

相关链接：如何查看 Linux 的资源利用率从而找到系统瓶颈？

3. w - 找出登录的用户以及他们在做什么

w 命令显示了当前登录在该系统上的用户及其进程。

# w username
# w vivek

输出示例：

 17:58:47 up 5 days, 20:28, 2 users, load average: 0.36, 0.26, 0.24
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
root pts/0 10.1.3.145 14:55 5.00s 0.04s 0.02s vim /etc/resolv.conf
root pts/1 10.1.3.145 17:43 0.00s 0.03s 0.00s w

4. uptime - Linux 系统运行了多久

uptime 命令可以用来查看服务器运行了多长时间：当前时间、已运行的时间、当前登录的用户连接数，以及过去 1 分钟、5 分钟和 15 分钟的系统负载平均值。

# uptime

输出示例：

 18:02:41 up 41 days, 23:42, 1 user, load average: 0.00, 0.00, 0.00

1 可以被认为是最佳负载值。不同的系统会有不同的负载：对于单核 CPU 系统来说，1 到 3 的负载值是可以接受的；而对于 SMP（对称多处理）系统来说，负载可以是 6 到 10。

5. ps - 显示系统进程

ps 命令显示当前运行的进程。要显示所有的进程，请使用 -A 或 -e 选项：

# ps -A

输出示例：

 PID TTY TIME CMD
 1 ? 00:00:02 init
 2 ? 00:00:02 migration/0
 3 ? 00:00:01 ksoftirqd/0
 4 ? 00:00:00 watchdog/0
 5 ? 00:00:00 migration/1
 6 ? 00:00:15 ksoftirqd/1
....
.....
 4881 ? 00:53:28 java
 4885 tty1 00:00:00 mingetty
 4886 tty2 00:00:00 mingetty
 4887 tty3 00:00:00 mingetty
 4888 tty4 00:00:00 mingetty
 4891 tty5 00:00:00 mingetty
 4892 tty6 00:00:00 mingetty
 4893 ttyS1 00:00:00 agetty
12853 ? 00:00:00 cifsoplockd
12854 ? 00:00:00 cifsdnotifyd
14231 ? 00:10:34 lighttpd
14232 ? 00:00:00 php-cgi
54981 pts/0 00:00:00 vim
55465 ? 00:00:00 php-cgi
55546 ? 00:00:00 bind9-snmp-stat
55704 pts/1 00:00:00 ps

ps 与 top 类似，但它提供了更多的信息。

显示长输出格式

# ps -Al

显示完整输出格式（它将显示传递给进程的命令行参数）：

# ps -AlF

显示线程（轻量级进程（LWP）和线程的数量（NLWP））

# ps -AlFH

在进程后显示线程

# ps -AlLm

显示系统上所有的进程

# ps ax
# ps axu

显示进程树

# ps -ejH
# ps axjf
# pstree

显示进程的安全信息

# ps -eo euser,ruser,suser,fuser,f,comm,label
# ps axZ
# ps -eM

显示指定用户（如 vivek）运行的进程

# ps -U vivek -u vivek u

设置用户自定义的输出格式

# ps -eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,wchan:14,comm
# ps axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm
# ps -eopid,tt,user,fname,tmout,f,wchan

显示某进程（如 lighttpd）的 PID

# ps -C lighttpd -o pid=

或

# pgrep lighttpd

或

# pgrep -u vivek php-cgi

显示指定 PID（如 55977）的进程名称

# ps -p 55977 -o comm=

找出占用内存资源最多的前 10 个进程

# ps -auxf | sort -nr -k 4 | head -10

找出占用 CPU 资源最多的前 10 个进程

# ps -auxf | sort -nr -k 3 | head -10

相关链接：显示 Linux 上所有运行的进程

6. free - 内存使用情况

free 命令显示了系统的可用和已用的物理内存及交换内存的总量，以及内核用到的缓存空间。

# free

输出示例：

 total used free shared buffers cached
Mem: 12302896 9739664 2563232 0 523124 5154740
-/+ buffers/cache: 4061800 8241096
Swap: 1052248 0 1052248

7. iostat - CPU 平均负载和磁盘活动

iostat 命令用于汇报 CPU 的使用情况，以及设备、分区和网络文件系统（NFS）的 IO 统计信息。

# iostat

输出示例：

Linux 2.6.18-128.1.14.el5 (www03.nixcraft.in)   06/26/2009

avg-cpu: %user %nice %system %iowait %steal %idle
 3.50 0.09 0.51 0.03 0.00 95.86

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 22.04 31.88 512.03 16193351 260102868
sda1 0.00 0.00 0.00 2166 180
sda2 22.04 31.87 512.03 16189010 260102688
sda3 0.00 0.00 0.00 1615 0

相关链接：如何跟踪 Linux 系统的 NFS 目录或磁盘的 IO 负载情况

8. sar - 监控、收集和汇报系统活动

sar 命令用于收集、汇报和保存系统活动信息。要查看网络统计，请输入：

# sar -n DEV | more

显示 24 日的网络统计：

# sar -n DEV -f /var/log/sa/sa24 | more

您还可以使用 sar 显示实时使用情况：

# sar 4 5

输出示例：

Linux 2.6.18-128.1.14.el5 (www03.nixcraft.in)       06/26/2009

06:45:12 PM CPU %user %nice %system %iowait %steal %idle
06:45:16 PM all 2.00 0.00 0.22 0.00 0.00 97.78
06:45:20 PM all 2.07 0.00 0.38 0.03 0.00 97.52
06:45:24 PM all 0.94 0.00 0.28 0.00 0.00 98.78
06:45:28 PM all 1.56 0.00 0.22 0.00 0.00 98.22
06:45:32 PM all 3.53 0.00 0.25 0.03 0.00 96.19
Average: all 2.02 0.00 0.27 0.01 0.00 97.70

9. mpstat - 监控多处理器的使用情况

mpstat 命令显示每个可用处理器的使用情况，编号从 0 开始。命令 mpstat -P ALL 显示了每个处理器的平均使用率：

# mpstat -P ALL

输出示例：

Linux 2.6.18-128.1.14.el5 (www03.nixcraft.in)       06/26/2009

06:48:11 PM CPU %user %nice %sys %iowait %irq %soft %steal %idle intr/s
06:48:11 PM all 3.50 0.09 0.34 0.03 0.01 0.17 0.00 95.86 1218.04
06:48:11 PM 0 3.44 0.08 0.31 0.02 0.00 0.12 0.00 96.04 1000.31
06:48:11 PM 1 3.10 0.08 0.32 0.09 0.02 0.11 0.00 96.28 34.93
06:48:11 PM 2 4.16 0.11 0.36 0.02 0.00 0.11 0.00 95.25 0.00
06:48:11 PM 3 3.77 0.11 0.38 0.03 0.01 0.24 0.00 95.46 44.80
06:48:11 PM 4 2.96 0.07 0.29 0.04 0.02 0.10 0.00 96.52 25.91
06:48:11 PM 5 3.26 0.08 0.28 0.03 0.01 0.10 0.00 96.23 14.98
06:48:11 PM 6 4.00 0.10 0.34 0.01 0.00 0.13 0.00 95.42 3.75
06:48:11 PM 7 3.30 0.11 0.39 0.03 0.01 0.46 0.00 95.69 76.89

相关链接：多处理器的 Linux 上单独显示每个 CPU 的使用率.

10. pmap - 监控进程的内存使用情况

pmap 命令用以显示进程的内存映射，使用此命令可以查找内存瓶颈。

# pmap -d PID

显示 PID 为 47394 的进程的内存信息，请输入：

# pmap -d 47394

输出示例：

47394: /usr/bin/php-cgi
Address Kbytes Mode Offset Device Mapping
0000000000400000 2584 r-x-- 0000000000000000 008:00002 php-cgi
0000000000886000 140 rw--- 0000000000286000 008:00002 php-cgi
00000000008a9000 52 rw--- 00000000008a9000 000:00000 [ anon ]
0000000000aa8000 76 rw--- 00000000002a8000 008:00002 php-cgi
000000000f678000 1980 rw--- 000000000f678000 000:00000 [ anon ]
000000314a600000 112 r-x-- 0000000000000000 008:00002 ld-2.5.so
000000314a81b000 4 r---- 000000000001b000 008:00002 ld-2.5.so
000000314a81c000 4 rw--- 000000000001c000 008:00002 ld-2.5.so
000000314aa00000 1328 r-x-- 0000000000000000 008:00002 libc-2.5.so
000000314ab4c000 2048 ----- 000000000014c000 008:00002 libc-2.5.so
.....
......
..
00002af8d48fd000 4 rw--- 0000000000006000 008:00002 xsl.so
00002af8d490c000 40 r-x-- 0000000000000000 008:00002 libnss_files-2.5.so
00002af8d4916000 2044 ----- 000000000000a000 008:00002 libnss_files-2.5.so
00002af8d4b15000 4 r---- 0000000000009000 008:00002 libnss_files-2.5.so
00002af8d4b16000 4 rw--- 000000000000a000 008:00002 libnss_files-2.5.so
00002af8d4b17000 768000 rw-s- 0000000000000000 000:00009 zero (deleted)
00007fffc95fe000 84 rw--- 00007ffffffea000 000:00000 [ stack ]
ffffffffff600000 8192 ----- 0000000000000000 000:00000 [ anon ]
mapped: 933712K writeable/private: 4304K shared: 768000K

最后一行非常重要：

mapped: 933712K 映射到文件的内存量
writeable/private: 4304K 私有地址空间
shared: 768000K 此进程与其他进程共享的地址空间

相关链接：使用 pmap 命令查看 Linux 上单个程序或进程使用的内存

11. netstat - Linux 网络统计监控工具

netstat 命令显示网络连接、路由表、接口统计、伪装连接和多播连接等信息。

# netstat -tulpn
# netstat -nat

12. ss - 网络统计

ss 命令用于获取套接字统计信息。它可以显示类似于 netstat 的信息。不过 netstat 几乎要过时了，ss 命令更具优势。要显示所有 TCP 或 UDP 套接字：

# ss -t -a

或

# ss -u -a

显示所有带有 SELinux 安全上下文 Security Context 的 TCP 套接字：

# ss -t -a -Z

请参阅以下关于 ss 和 netstat 命令的资料：

13. iptraf - 获取实时网络统计信息

iptraf 命令是一个基于 ncurses 的交互式 IP 网络监控工具。它可以生成多种网络统计信息，包括 TCP 信息、UDP 计数、ICMP 和 OSPF 信息、以太网负载信息、节点统计信息、IP 校验错误等。它以简单的格式提供了以下信息：

基于 TCP 连接的网络流量统计
基于网络接口的 IP 流量统计
基于协议的网络流量统计
基于 TCP/UDP 端口和数据包大小的网络流量统计
基于二层地址的网络流量统计

title=

图 02：常规接口统计：基于网络接口的 IP 流量统计

title=

图 03：基于 TCP 连接的网络流量统计

14. tcpdump - 详细的网络流量分析

tcpdump 命令是简单的分析网络通信的命令。您需要充分了解 TCP/IP 协议才便于使用此工具。例如，要显示有关 DNS 的流量信息，请输入：

# tcpdump -i eth1 'udp port 53'

查看所有去往和来自端口 80 的 IPv4 HTTP 数据包，仅打印真正包含数据的包，而不是像 SYN、FIN 和仅含 ACK 这类的数据包，请输入：

# tcpdump 'tcp port 80 and (((ip[2:2] - ((ip[0]&0xf)<<2)) - ((tcp[12]&0xf0)>>2)) != 0)'

显示所有目标地址为 202.54.1.5 的 FTP 会话，请输入：

# tcpdump -i eth1 'dst 202.54.1.5 and (port 21 or 20'

打印所有目标地址为 192.168.1.5 的 HTTP 会话：

# tcpdump -ni eth0 'dst 192.168.1.5 and tcp and port http'

使用 wireshark 查看文件的详细内容，请输入：

# tcpdump -n -i eth1 -s 0 -w output.txt src or dst port 80

15. iotop - I/O 监控

iotop 命令利用 Linux 内核监控 I/O 使用情况，它按进程或线程的顺序显示 I/O 使用情况。

$ sudo iotop

输出示例：

iotop monitoring linux disk read write IO

相关链接：Linux iotop：什么进程在增加硬盘负载

16. htop - 交互式的进程查看器

htop 是一款免费并开源的基于 ncurses 的 Linux 进程查看器。它比 top 命令更简单易用。您无需使用 PID、无需离开 htop 界面，便可以杀掉进程或调整其调度优先级。

$ htop

输出示例：

htop process viewer for Linux

17. atop - 高级版系统与进程监控工具

atop 是一个非常强大的交互式 Linux 系统负载监控器，它从性能的角度显示最关键的硬件资源信息。您可以快速查看 CPU、内存、磁盘和网络性能。它还可以从进程的级别显示哪些进程造成了相关 CPU 和内存的负载。

$ atop

atop Command Line Tools to Monitor Linux Performance

18. ac 和 lastcomm

您一定需要监控 Linux 服务器上的进程和登录活动吧。psacct 或 acct 软件包中包含了多个用于监控进程活动的工具，包括：

ac 命令：显示有关用户连接时间的统计信息
lastcomm 命令：显示已执行过的命令
accton 命令：打开或关闭进程账号记录功能
sa 命令：进程账号记录信息的摘要

相关链接：如何对 Linux 系统的活动做详细的跟踪记录

19. monit - 进程监控器

monit 是一个免费且开源的进程监控软件，它可以自动重启停掉的服务。您也可以使用 Systemd、daemontools 或其他类似工具来达到同样的目的。本教程演示如何在 Debian 或 Ubuntu Linux 上安装和配置 monit 作为进程监控器。

20. NetHogs - 找出占用带宽的进程

NetHogs 是一个轻便的网络监控工具，它按照进程名称（如 Firefox、wget 等）对带宽进行分组。如果网络流量突然爆发，启动 NetHogs，您将看到哪个进程（PID）导致了带宽激增。

$ sudo nethogs

nethogs linux monitoring tools open source

相关链接：Linux：使用 Nethogs 工具查看每个进程的带宽使用情况

21. iftop - 显示主机上网络接口的带宽使用情况

iftop 命令监听指定接口（如 eth0）上的网络通信情况。它显示了一对主机的带宽使用情况。

$ sudo iftop

iftop in action

22. vnstat - 基于控制台的网络流量监控工具

vnstat 是一个简单易用的基于控制台的网络流量监视器，它为指定网络接口保留每小时、每天和每月网络流量日志。

$ vnstat

vnstat linux network traffic monitor

23. nmon - Linux 系统管理员的调优和基准测量工具

nmon 是 Linux 系统管理员用于性能调优的利器，它在命令行显示 CPU、内存、网络、磁盘、文件系统、NFS、消耗资源最多的进程和分区信息。

$ nmon

nmon command

相关链接：安装并使用 nmon 工具来监控 Linux 系统的性能

24. glances - 密切关注 Linux 系统

glances 是一款开源的跨平台监控工具。它在小小的屏幕上提供了大量的信息，还可以工作于客户端-服务器模式下。

$ glances

Glances

相关链接：Linux：通过 Glances 监控器密切关注您的系统

25. strace - 查看系统调用

想要跟踪 Linux 系统的调用和信号吗？试试 strace 命令吧。它对于调试网页服务器和其他服务器问题很有用。了解如何利用其追踪进程并查看它在做什么。

26. /proc 文件系统 - 各种内核信息

/proc 文件系统提供了不同硬件设备和 Linux 内核的详细信息。更多详细信息，请参阅 Linux 内核 /proc 文档。常见的 /proc 例子：

# cat /proc/cpuinfo
# cat /proc/meminfo
# cat /proc/zoneinfo
# cat /proc/mounts

27. Nagios - Linux 服务器和网络监控

Nagios 是一款普遍使用的开源系统和网络监控软件。您可以轻松地监控所有主机、网络设备和服务，当状态异常和恢复正常时它都会发出警报通知。FAN 是“全自动 Nagios”的缩写。FAN 的目标是提供包含由 Nagios 社区提供的大多数工具包的 Nagios 安装。FAN 提供了标准 ISO 格式的 CD-Rom 镜像，使安装变得更加容易。除此之外，为了改善 Nagios 的用户体验，发行版还包含了大量的工具。

28. Cacti - 基于 Web 的 Linux 监控工具

Cacti 是一个完整的网络图形化解决方案，旨在充分利用 RRDTool 的数据存储和图形功能。Cacti 提供了快速轮询器、高级图形模板、多种数据采集方法和用户管理功能。这些功能被包装在一个直观易用的界面中，确保可以实现从局域网到拥有数百台设备的复杂网络上的安装。它可以提供有关网络、CPU、内存、登录用户、Apache、DNS 服务器等的数据。了解如何在 CentOS / RHEL 下安装和配置 Cacti 网络图形化工具。

29. KDE 系统监控器 - 实时系统报告和图形化显示

KSysguard 是 KDE 桌面的网络化系统监控程序。这个工具可以通过 ssh 会话运行。它提供了许多功能，比如可以监控本地和远程主机的客户端-服务器模式。前端图形界面使用传感器来检索信息。传感器可以返回简单的值或更复杂的信息，如表格。每种类型的信息都有一个或多个显示界面，并被组织成工作表的形式，这些工作表可以分别保存和加载。所以，KSysguard 不仅是一个简单的任务管理器，还是一个控制大型服务器平台的强大工具。

title=

图 05：KDE System Guard {图片来源：维基百科}

详细用法，请参阅 KSysguard 手册。

30. GNOME 系统监控器

系统监控程序能够显示系统基本信息，并监控系统进程、系统资源使用情况和文件系统。您还可以用其修改系统行为。虽然不如 KDE System Guard 强大，但它提供的基本信息对新用户还是有用的：

显示关于计算机硬件和软件的各种基本信息
Linux 内核版本
GNOME 版本
硬件
安装的内存
处理器和速度
系统状况
可用磁盘空间
进程
内存和交换空间
网络使用情况
文件系统
列出所有挂载的文件系统及其基本信息

title=

图 06：Gnome 系统监控程序

福利：其他工具

更多工具：

nmap - 扫描服务器的开放端口
lsof - 列出打开的文件和网络连接等
ntop 基于网页的工具 - ntop 是查看网络使用情况的最佳工具，与 top 命令之于进程的方式类似，即网络流量监控工具。您可以查看网络状态和 UDP、TCP、DNS、HTTP 等协议的流量分发。
Conky - X Window 系统下的另一个很好的监控工具。它具有很高的可配置性，能够监视许多系统变量，包括 CPU 状态、内存、交换空间、磁盘存储、温度、进程、网络接口、电池、系统消息和电子邮件等。
GKrellM - 它可以用来监控 CPU 状态、主内存、硬盘、网络接口、本地和远程邮箱及其他信息。
mtr - mtr 将 traceroute 和 ping 程序的功能结合在一个网络诊断工具中。
vtop - 图形化活动监控终端

如果您有其他推荐的系统监控工具，欢迎在评论区分享。

关于作者

作者 Vivek Gite 是 nixCraft 的创建者，也是经验丰富的系统管理员，以及 Linux 操作系统和 Unix shell 脚本的培训师。他的客户遍布全球，行业涉及 IT、教育、国防航天研究以及非营利部门等。您可以在 Twitter、Facebook 和 Google+ 上关注他。

via: https://www.cyberciti.biz/tips/top-linux-monitoring-tools.html

作者：Vivek Gite 译者：jessie-pang 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出