标签系统监控下的文章

SysMonTask：一个类似于 Windows 任务管理器的 Linux 系统监控器

Abhishek Prakash 发布于 2021-03-10
另请参阅: 分享,系统监控, 任务管理器
2 条评论

得益于桌面环境，几乎所有的 Linux 发行版都带有任务管理器应用程序。除此之外，还有一些其他的 Linux 的系统监控应用程序，它们具有更多的功能。

但最近我遇到了一个为 Linux 创建的任务管理器，它看起来像……嗯……Windows 的任务管理器。

你自己看看就知道了。

就我个人而言，我不确定用户界面的相似性是否有意义，但开发者和其他一些 Linux 用户可能不同意我的观点。

SysMonTask: 一个具有 Windows 任务管理器外观的系统监控器

开源软件 SysMonTask 将自己描述为“具有 Windows 任务管理器的紧凑性和实用性的 Linux 系统监控器，以实现更高的控制和监控”。

SysMonTask 以 Python 编写，拥有以下功能：

系统监控图。
显示 CPU、内存、磁盘、网络适配器、单个 Nvidia GPU 的统计数据。
在最近的版本中增加了对挂载磁盘列表的支持。
用户进程选项卡可以进行进程过滤，显示递归-CPU、递归-内存和列头的汇总值。
当然，你可以在进程选项卡中杀死一个进程。
还支持系统主题（深色和浅色）。

体验 SysMonTask

SysMonTask 需要提升权限。当你启动它时，你会被要求提供你的管理员密码。我不喜欢一个任务管理器一直用 sudo 运行，但这只是我的喜好。

我玩了一下，探索它的功能。磁盘的使用量基本稳定不变，所以我把一个 10GB 的文件从外部 SSD 复制到笔记本的磁盘上几次。你可以看到文件传输时对应的峰值。

进程标签也很方便。它在列的顶部显示了累积的资源利用率。

杀死按钮被添加在底部，所以你要做的就是选择一个进程，然后点击“Killer” 按钮。它在杀死进程之前会询问你的确认。

在 Linux 发行版上安装 SysMonTask

对于一个简单的应用程序，它需要下载 50 MB 的存档文件，并占用了大约 200 MB 的磁盘。我想这是因为 Python 的依赖性。

还有就是它读取的是 env。

在写这篇文章的时候，SysMonTask 可以通过 PPA 在基于 Ubuntu 的发行版上使用。

在基于 Ubuntu 的发行版上，打开一个终端，使用以下命令添加 PPA 仓库：

sudo add-apt-repository ppa:camel-neeraj/sysmontask

当然，你会被要求输入密码。在新版本中，仓库列表会自动更新。所以，你可以直接安装应用程序：

sudo apt install sysmontask

基于 Debian 的发行版也可以尝试从 deb 文件中安装它。它可以在发布页面找到。

对于其他发行版，没有现成的软件包。令我惊讶的是，它基本上是一个 Python 应用程序，所以可以为其他发行版添加一个 PIP 安装程序。也许开发者会在未来的版本中添加它。

由于它是开源软件，你可以随时得到源代码。

SysMonTask Deb 文件和源代码

安装完毕后，在菜单中寻找 SysMonTask，并从那里启动它。

删除 SysMonTask

如果你想删除它，使用以下命令：

sudo apt remove sysmontask

最好也删除 PPA：

sudo add-apt-repository -r ppa:camel-neeraj/sysmontask

你也可以在这里使用 PPA 清除工具，这是一个处理 PPA 应用程序删除的方便工具。

你会尝试吗？

对我来说，功能比外观更重要。SysMonTask 确实有额外的功能，监测磁盘性能和检查 GPU 统计数据，这是其他系统监视器通常不包括的东西。

如果你尝试并喜欢它，也许你会喜欢添加 Ctrl+Alt+Del 快捷键来启动 SysMonTask，以获得完整的感觉 :smiley:

via: https://itsfoss.com/sysmontask/

作者：Abhishek Prakash 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用 smem 可视化显示Linux内存使用情况

Dan Nanni 发布于 2014-12-21
另请参阅: 技术,内存, 系统监控, smem
5 条评论

物理内存不足对Linux桌面系统和服务器系统的性能影响都很大。当你的计算机变慢时，要做的第一件事就是释放内存。尤其是在多用户环境以及执行关键任务的服务器环境下，内存消耗会变得更加关键，因为多个用户和应用线程会同时竞争更多的内存空间。

如果要监测系统内各种资源的使用情况（比如说CPU或内存），图形化显示是一种高效的方法，通过图形界面可以快速分析各用户和进程的资源消耗情况。本教程将给大家介绍在linux下图形化分析内存使用情况的方法，使用到命令行工具是smem.

物理内存使用情况: RSS 、 PSS 和 USS

由于Linux使用到了虚拟内存（virtual memory），因此要准确的计算一个进程实际使用的物理内存就不是那么简单。只知道进程的虚拟内存大小也并没有太大的用处，因为还是无法获取到实际分配的物理内存大小。

RSS（Resident set size），使用top命令可以查询到，是最常用的内存指标，表示进程占用的物理内存大小。但是，将各进程的RSS值相加，通常会超出整个系统的内存消耗，这是因为RSS中包含了各进程间共享的内存。
PSS（Proportional set size）会更准确一些，它将共享内存的大小进行平均后，再分摊到各进程上去。
USS(Unique set size )是PSS中自己的部分，它只计算了进程独自占用的内存大小，不包含任何共享的部分。

安装Smem

smem是一个能够生成多种内存耗用报告的命令行工具，它从/proc文件系统中提取各进程的PSS/USS信息，并进行汇总输出。它还内建了图表的生成能力，所以能够方便地分析整个系统的内存使用情况。

在Debian, Ubuntu 或 Linux Mint 上安装smem

$ sudo apt-get install smem

在Fedora 或 CentOS/RHEL上安装Smem

在CentOS/RHEL上，你首先得启用EPEL仓库。

$ sudo yum install smem python-matplotlib

使用smem检查内存使用情况

你可以在非特权模式下使用smem，它能够显示当前用户运行的所有进程的内存使用情况，并按照PSS的大小进行排序。

$ smem

如有你想得到整个系统中所有用户的内存使用情况，就需要使用root权限来运行smem。

$ sudo smem

也可以按用户维度来输出报告：

$ sudo smem -u

smem提供了以下选项来对输出结果进行筛选，支持按映射方式（mapping）、进程和用户三个维度的筛选：

-M <正则表达式>
-P <正则表达式>
-U <正则表达式>

想了解smem更多的使用方式，可以查询用户手册（man page）。

使用smem图形化显示内存使用情况

图形化的报告使用起来会更加方便快捷。smem支持两种格式的图形显示方式：直方图和饼图。

下面是一些图形化显示的实例。

下面的命令行会基于PSS/RSS值，生成直方图，以用户alice为例。

$ sudo smem --bar name -c "pss uss" -U alice

这个例子会生成一张饼图，图中显示了系统中各进程的PSS内存使用量：

$ sudo smem --pie name -c "pss"

概括来说，smem是一个方便易用的内存分析工具。利用smem的格式化输出，你可以对内存使用报告进行自动化分析，并执行一些自动化的处理措施。如果你还知道其他的一些优秀的内存检测工具，请在留言区告诉我。

via: http://xmodulo.com/visualize-memory-usage-linux.html

作者：Dan Nanni 译者：coloka 校对：wxy

本文由 LCTT 原创翻译，Linux中国荣誉推出

Monitorix ：支持服务器和树莓派的轻量级系统监控系统

linux中国_ 发布于 2014-06-10
另请参阅: 树莓派,系统监控, Monitorix
4 条评论

有时候，无论是普通用户还是系统管理员，都需要知道系统运行是否良好。与系统状态相关的许多问题，都可以通过检查运行的服务所生成的日志文件来获得答案。然而，即便对于干过几年的系统管理员而言，要检查日志文件的每个细节都不是件容易的事。这也是为什么他们依赖于监控软件的原因，监控软件能够从不同的源收集信息，并以易于理解的格式给出分析报告，如图表、可视化图像、统计数据等。

市面上流传着许多复杂的系统监控软件，诸如Cacti, Nagios, Zabbix, Munin此类。在本文中，我们向您介绍一个轻量级的监控工具——Monitorix，该工具设计用于在Linux/BSD上监控系统资源和许多熟知的第三方应用程序。由于专为资源有限的嵌入式系统而优化，Monitorix以使用简单，消耗内存资源少而著称。它内建了一个HTTP服务器用于提供web界面，并使用RRDtool数据库来存储时间序列统计数据，RRDtool可以很容易地和任何脚本语言整合，如Perl，Python，shell脚本，Ruby等。

主要特性

这里列出了Monitorix的主要特性。要查看完整列表，请参阅官方网站

当前系统负载和系统服务
CPU/GPU温度传感器
磁盘温度和健康度
网络/端口流量和网络状况统计
邮件统计
Web服务器统计（Apache，Nginx，Lighttpd）
MySQL负载和统计
Squid代理统计
NFS服务器/客户端统计
Raspberry Pi传感器统计
Memcached统计

在Fedora, CentOS或者RHEL上安装并配置Monitorix

首先，安装需要的软件包。注意，在CentOS上，你需要先设置 EPEL和Repoforge仓库。

$ sudo yum install rrdtool rrdtool-perl perl-libwww-perl perl-MailTools perl-MIME-Lite perl-CGI perl-DBI perl-XML-Simple perl-Config-General perl-HTTP-Server-Simple perl-IO-Socket-SSL

完成上一步后，可以通过以下命令来安装Monitorix：

$ sudo yum install monitorix

要配置Monitorix，打开/etc/monitorix/monitorix.conf配置文件，并修改选项。关于Monitorix的配置文件细节，可以查阅http://www.monitorix.org/documentation.html。

默认情况下，内建的HTTP服务器监听8080端口。因此，确保你的防火墙没有阻止TCP 8080端口。

要启动Monitorix，只需输入以下命令：

$ sudo service monitorix start

启动你喜爱的Web浏览器，然后通过http://:8080/monitorix来访问Monitorix的Web界面。

在Archlinux上安装并配置Monitorix

在Archlinux上，可以从AUR上下载Monitorix包。

默认情况下，在Archlinux上是禁用了其内建HTTP服务器的。要启用内建的HTTP服务器，请编辑/etc/monitorix.conf文件的如下区块。

<httpd_builtin>
        enabled = y
        host =
        port = 8080
        user = nobody
        group = nobody
        log_file = /var/log/monitorix-httpd
        hosts_deny =
        hosts_allow =
        <auth>
                enabled = n
                msg = Monitorix: Restricted access
                htpasswd = /var/lib/monitorix/htpasswd
        </auth>
</httpd_builtin>

最后，启动Monitorix服务。

打开你喜欢的Web浏览器，然后通过http://:8080/monitorix来访问Monitorix的Web界面。

在Debian和Ubuntu上安装并配置Monitorix

对于Debian家族，Monitorix可以通过两种方式安装：手工安装或通过第三方软件仓库。

手工安装(用于Debian)

首先安装所有依赖包。

$ sudo apt-get install rrdtool perl libwww-perl libmailtools-perl libmime-lite-perl librrds-perl libdbi-perl libxml-simple-perl libhttp-server-simple-perl libconfig-general-perl libio-socket-ssl-perl

从http://www.monitorix.org/downloads.html下载Monitorix包，并安装。

$ sudo dpkg -i monitorix*.deb

在安装期间，会要求你配置一个后端Web服务器。如果你正是用Apache，确保重启Apache服务来重新加载Apache配置。

$ sudo service apache2 reload

通过软件仓库安装 (用于Ubuntu)

在/etc/apt/source.list中添加以下行来启用Izzysoft仓库。

deb http://apt.izzysoft.de/ubuntu generic universe

下载并为软件仓库添加GPG密钥。

$ wget http://apt.izzysoft.de/izzysoft.asc
$ sudo apt-key add izzysoft.asc

使用apt-get安装Monitorix，所有依赖包也将自动安装。

$ sudo apt-get update
$ sudo apt-get install monitorix

最后，启动Monitorix服务。

$ sudo service monitorix start

要配置Monitorix，请使用文本编辑器编辑/etc/monitorix/monitorix.conf，并重启Monitorix服务。

$ sudo service monitorix restart

用于Ubuntu的内建Web服务器默认启用。要从Web查看监控结果，在你喜爱的Web浏览器中访问http://8080/monitorix。

在Raspberry Pi上安装并配置Monitorix

如果想要在Raspberry Pi（基于Debian）上安装Monitorix，你不能使用上面提到的Izzysoft仓库，因为它不提供Monitorix的ARM移植。取而代之的是，你可以参照如下基于Debian的手工安装。

首先，安装需要的软件包。

$ sudo apt-get install rrdtool perl libwww-perl libmailtools-perl libmime-lite-perl librrds-perl libdbi-perl libxml-simple-perl libhttp-server-simple-perl libconfig-general-perl libio-socket-ssl-perl

如果某些需要的软件包没有安装，我们需要使用此命令来强制安装。

$ sudo apt-get -f install

从http://www.monitorix.org/downloads.html下载Monitorix软件包(monitorixx.x.x-izzy1all.deb)。

使用下面的命令来安装Monitorix包。

$ sudo dpkg -i monitorix_x.x.x-izzy1_all.deb

安装完成后，我们需要像下面这样对Monitorix配置稍作修改。

用你喜爱的文本编辑器打开/etc/monitorix/monitorix.conf，向下滚动文本直到你找到。搜索“raspberrypi = n”，并用“y”替换“n”，这将启用对Raspberry Pi时钟频率、温度和电压的监控。

编辑完成后，重启Monitorix服务。

$ sudo service monitorix restart

默认情况下，Monitorix的内建HTTP Web服务器会被启用。要访问Monitorix的Web界面，访问此地址http://:8080/monitorix。

Monitorix截图(Raspberry Pi上)

Monitorix主屏幕:

系统平均负载和使用情况图示:

活动进程图示:

在主屏幕中选择“Raspberry Pi”部分下的“时钟频率”，你会看到Raspberry Pi的时钟频率、温度和电压的图示：

所有监控图示：

via: http://xmodulo.com/2014/05/web-based-lightweight-system-monitor-linux.html

译者：GOLinux 校对：wxy

本文由 LCTT 原创翻译，Linux中国荣誉推出

Collectl

linux中国_ 发布于 2014-06-06
另请参阅: 系统运维,系统监控, Collectl
10 条评论

对于一个 Linux 系统管理员来说确保自己管理的系统处于一个良好的状态是其首要责任。Linux 系统管理员可以找到有很多工具来帮助自己监控和显示系统中的进程，例如 top 和 htop ,但是这些工具都不能与 collectl 相媲美。

Collectl: Linux Performance Monitoring

collectl是一款非常优秀并且有着丰富的命令行功能的实用程序，你可以用它来采集描述当前系统状态的性能数据。不同于大多数其它的系统监控工具，collectl 并非仅局限于有限的系统度量，相反，它可以收集许多不同类型系统资源的相关信息，如 cpu 、disk、memory 、network 、sockets 、 tcp 、inodes 、infiniband 、 lustre 、memory、nfs、processes、quadrics、slabs和buddyinfo等。

使用 collectl 的另一个好处就是它可以替代那些特定用途的工具如： top、ps、iotop 等等其它工具。那么 collectl 有什么特性而使其成为一个有用的工具呢？

经过许多研究后，我总结了 collectl 的命令行功能的一些非常重要的特性。

Collectl 特性

可以交互式地运行或作为一个守护进程，或同时二者兼备地运行。
可以以多种格式显示输出。
可以监控几乎所有的子系统。
可以替代许多工具如 ps、top、iotop、vmstat。
可以记录并回放捕获的数据。
可以将数据导出成多种数据格式。（这在你想用外部工具分析数据时非常有用）
可以作为一个服务来监控远程机或者整个服务器集群。
可以在终端显示数据，写入数据到文件或者一个套接字。

如何在Linux上安装collectl

collectl可以在所有的 Linux 发行版上运行，唯一需要的就是 perl 语言，所以在安装 collectl 之前，一定要确保你的电脑上已经安装了Perl。

对于Debian/Ubuntu/Linux Mint

下面的命令可以用来在以 Debian 为基础的设备如 Ubuntu 上安装 collectl。

$ sudo apt-get install collectl

对于RHEL/CentOS/Fedora

如果你正在使用基于红帽的发行版，你可以用 yum 命令轻松获取它。

# yum install collectl

一些关于collectl的实例

collectl 工具安装完成之后，你可以轻松地在终端运行它，你甚至不需要指定任何选项。下面的命令将会以简短易读的格式显示cpu、硬盘和网络信息。

# collectl

waiting for 1 second sample...
#
#cpu sys inter  ctxsw KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut 
  13   5   790   1322      0      0     92      7      4     13      0       5 
  10   2   719   1186      0      0      0      0      3      9      0       4 
  12   0   753   1188      0      0     52      3      2      5      0       6 
  13   2   733   1063      0      0      0      0      1      1      0       1 
  25   2   834   1375      0      0      0      0      1      1      0       1 
  28   2   870   1424      0      0     36      7      1      1      0       1 
  19   3   949   2271      0      0     44      3      1      1      0       1 
  17   2   809   1384      0      0      0      0      1      6      0       6 
  16   2   732   1348      0      0      0      0      1      1      0       1 
  22   4   993   1615      0      0     56      3      1      2      0       3

正如上面终端上所显示的，我们很容易观察该命令输出的系统度量值，因为它每次以一行显示。

不加任何参数执行 collectl 会显示下面子系统的信息

cpu
磁盘
网络

提示：在这里，一个子系统就是每一种可以测量的系统资源。

你也可以显示除slabs以外各个子系统的统计数据，这要结合下面的 -all 选项来实现。

# collectl --all

waiting for 1 second sample...
#
#cpu sys inter  ctxsw Cpu0 Cpu1 Free Buff Cach Inac Slab  Map   Fragments KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut   IP  Tcp  Udp Icmp  Tcp  Udp  Raw Frag Handle Inodes  Reads Writes Meta Comm 
  16   3   817   1542  430  390   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0     24      3      1      1      0       1    0    0    0    0  623    0    0    0   8160 240829      0      0    0    0 
  11   1   745   1324  316  426   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0      0      0      0      3      0       2    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0 
  15   2   793   1683  371  424   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0      0      0      1      1      0       1    0    0    0    0  622    0    0    0   8160 240829      0      0    0    0 
  16   2   872   1875  427  446   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0     24      3      1      1      0       1    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0 
  24   2   842   1383  473  368   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0    168      6      1      1      0       1    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0 
  27   3   844   1099  478  365   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0      0      0      1      6      1       9    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0 
  26   5   823   1238  396  428   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0      0      0      2     11      3       9    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0 
  15   1   753   1276  361  391   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0     40      3      1      2      0       3    0    0    0    0  623    0    0    0   8160 240829      0      0    0    0

但是，你如何用它来监控 cpu 的使用情况呢？ ‘-s’ 选项可以用来控制哪个子系统的数据需要收集和回放。

例如下面的命令可以用来对cpu使用情况进行一个总结。

# collectl -sc

waiting for 1 second sample...
#
#cpu sys inter  ctxsw 
  15   2   749   1155 
  16   3   772   1445 
  14   2   793   1247 
  27   4   887   1292 
  24   1   796   1258 
  16   1   743   1113 
  15   1   743   1179 
  14   1   706   1078 
  15   1   764   1268

当你将这个命令与“scdn”结合时会发生什么呢？学习命令行工具最好的方式就是多加练习，所以在终端运行下面的命令看看会发生什么吧。

# collectl -scdn

waiting for 1 second sample...
#
#cpu sys inter  ctxsw KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut 
  25   4   943   3333      0      0      0      0      1      1      0       2 
  27   3   825   2910      0      0      0      0      1      1      0       1 
  27   5   886   2531      0      0      0      0      0      0      0       1 
  20   4   872   2406      0      0      0      0      1      1      0       1 
  26   1   854   2091      0      0     20      2      1      1      0       1 
  39   4  1004   3398      0      0      0      0      2      8      3       6 
  41   6   955   2464      0      0     40      3      1      2      0       3 
  25   7   890   1609      0      0      0      0      1      1      0       1 
  16   2   814   1165      0      0    796     43      2      2      0       2 
  14   1   779   1383      0      0     48      6      1      1      0       1 
  11   2   795   1285      0      0      0      0      2     14      1      14

你可以很容易就明白默认选项是“cdn”，它代表cpu、硬盘和网络数据。运行带这个选项的 collectl 命令的输出和“collectl －scn”的输出一样。

如果你想采集内存的数据，用下面的命令。

# collectl -sm

waiting for 1 second sample...
#
#Free Buff Cach Inac Slab  Map 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G 
   1G 177M   1G 684M 193M   1G

当你想要进一步了解内存使用信息、空闲的内存或者与你系统性能有关的重要资料时，上面的输出将是非常有用的。

如果想搜集一点儿 tcp 的数据呢？使用下面的命令来实现吧。

# collectl -st

waiting for 1 second sample...
#
#  IP  Tcp  Udp Icmp 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0 
    0    0    0    0

当你熟练到一定程度时，你就可以很轻松地得到你想要的结果了。例如你可以将关于 tcp 的“t”选项和关于 cpu 的“c”选项组合到一起。下面的命令就是如此。

# collectl -stc

waiting for 1 second sample...
#
#cpu sys inter  ctxsw   IP  Tcp  Udp Icmp 
  23   8   961   3136    0    0    0    0 
  24   5   916   3662    0    0    0    0 
  21   8   848   2408    0    0    0    0 
  30  10   916   2674    0    0    0    0 
  38   3   826   1752    0    0    0    0 
  31   3   820   1408    0    0    0    0 
  15   5   781   1335    0    0    0    0 
  17   3   802   1314    0    0    0    0 
  17   3   755   1218    0    0    0    0 
  14   2   788   1321    0    0    0    0

对于我们普通大众来说记住这些选项很困难，所以在这里，我整理出了一个列表来总结这个工具支持的选项。

b – buddy info (内存碎片)
c – CPU
d – Disk
f – NFS V3 Data
i – Inode and File System
j – Interrupts
l – Lustre
m – Memory
n – Networks
s – Sockets
t – TCP
x – Interconnect
y – Slabs (系统对象缓存)

对于一个系统管理员或者一个 Linux 用户来说很重要的一种数据就是硬盘的使用情况。下面的命令可以帮你监控硬盘使用情况。

# collectl -sd

waiting for 1 second sample...
#
#KBRead  Reads KBWrit Writes 
      0      0      0      0 
      0      0      0      0 
      0      0     92      7 
      0      0      0      0 
      0      0     36      3 
      0      0      0      0 
      0      0      0      0 
      0      0    100      7 
      0      0      0      0

你也可以使用“-sD”选项来采集单个硬盘的数据，不过你必须知道这就不会显示全部硬盘的信息。

# collectl -sD

waiting for 1 second sample...

# DISK STATISTICS (/sec)
#           Pct
#Name       KBytes Merged  IOs Size  KBytes Merged  IOs Size  RWSize  QLen  Wait SvcTim Util
sda              0      0    0    0      52     11    2   26      26     1     8      8    1
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0      24      0    2   12      12     0     0      0    0
sda              0      0    0    0     152      0    4   38      38     0     0      0    0
sda              0      0    0    0     192     45    3   64      64     1    20     20    5
sda              0      0    0    0     204      0    2  102     102     0     0      0    0
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0     116     26    3   39      38     1    16     16    4
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0      32      5    3   11      10     1    16     16    4
sda              0      0    0    0       0      0    0    0       0     0     0      0    0

你也可以使用其它详细的子系统来采集详细的数据。下面是详细子系统的一个列表。

C – CPU
D – Disk
E – Environmental data (fan, power, temp), via ipmitool
F – NFS Data
J – Interrupts
L – Lustre OST detail OR client Filesystem detail
N – Networks
T – 65 TCP counters only available in plot format
X – Interconnect
Y – Slabs (system object caches)
Z – Processes

collectl 工具中有许多选项，但是仅用一篇文章来介绍肯定是介绍不过来的。然而如果将它当作 top 和 ps 工具来使用还是值得一提的。

很容易将 collectl 当作 top 来使用，只要在 Linux 系统的终端运行下面的命令你就会看到和 top 工具类似的输出。

# collectl --top

# TOP PROCESSES sorted by time (counters are /sec) 13:11:02
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
^COuch!tecmint  20     1   40 R    1G  626M  0  0.01  0.14  15  28:48.24    0    0    0  109 /usr/lib/firefox/firefox 
 3403  tecmint  20     1   40 R    1G  626M  1  0.00  0.20  20  28:48.44    0    0    0  600 /usr/lib/firefox/firefox 
 5851  tecmint  20  4666    0 R   17M   13M  0  0.02  0.06   8  00:01.28    0    0    0    0 /usr/bin/perl 
 1682  root     20  1666    2 R  211M   55M  1  0.02  0.01   3  03:10.24    0    0    0   95 /usr/bin/X 
 3454  tecmint  20  3403    8 S  216M   45M  1  0.01  0.02   3  01:23.32    0    0    0    0 /usr/lib/firefox/plugin-container 
 4658  tecmint  20  4657    3 S  207M   17M  1  0.00  0.02   2  00:08.23    0    0    0  142 gnome-terminal 
 2890  tecmint  20  2571    3 S  340M   68M  0  0.00  0.01   1  01:19.95    0    0    0    0 compiz 
 3521  tecmint  20     1   24 S  710M  148M  1  0.01  0.00   1  01:47.84    0    0    0    0 skype 
    1  root     20     0    0 S    3M    2M  0  0.00  0.00   0  00:02.57    0    0    0    0 /sbin/init 
    2  root     20     0    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd 
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.60    0    0    0    0 ksoftirqd/0 
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H 
    7  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/u:0H 
    8  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:04.42    0    0    0    0 migration/0 
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh 
   10  root     20     2    0 R     0     0  0  0.00  0.00   0  00:02.22    0    0    0    0 rcu_sched 
   11  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.05    0    0    0    0 watchdog/0 
   12  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:00.07    0    0    0    0 watchdog/1 
   13  root     20     2    0 S     0     0  1  0.00  0.00   0  00:00.73    0    0    0    0 ksoftirqd/1 
   14  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:01.96    0    0    0    0 migration/1 
   16  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kworker/1:0H 
   17  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 cpuset

最后，当然不是说这不重要，我们在终端运行下面的命令就可以将 collectl 用作 ps 工具了。你可以得到关于你系统进程的信息，这和在终端运行“ps”命令是一样的。

# collectl -c1 -sZ -i:1

waiting for 1 second sample...

### RECORD    1 >>> tecmint-vgn-z13gn <<< (1397979716.001) (Sun Apr 20 13:11:56 2014) ###

# PROCESS SUMMARY (counters are /sec)
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
    1  root     20     0    0 S    3M    2M  0  0.00  0.00   0  00:02.57    0    0    0    0 /sbin/init 
    2  root     20     0    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd 
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.60    0    0    0    0 ksoftirqd/0 
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H 
    7  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/u:0H 
    8  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:04.42    0    0    0    0 migration/0 
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh 
   10  root     20     2    0 S     0     0  0  0.00  0.00   0  00:02.24    0    0    0    0 rcu_sched 
   11  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.05    0    0    0    0 watchdog/0 
   12  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:00.07    0    0    0    0 watchdog/1 
   13  root     20     2    0 S     0     0  1  0.00  0.00   0  00:00.73    0    0    0    0 ksoftirqd/1 
   14  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:01.96    0    0    0    0 migration/1 
   16  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kworker/1:0H 
   17  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 cpuset 
   18  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 khelper 
   19  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kdevtmpfs 
   20  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 netns 
   21  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 bdi-default 
   22  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kintegrityd

我确信许多系统管理员将会喜欢这个工具并且在充分使用它后会感受到它的强大。如果你想增进你对 collectl 的了解，从而达到新的层面，你可以去参阅 collectl 的 man 手册并勤加练习。

在你的终端键入下面的命令开始阅读吧。

# man collectl

参考链接

collectl Homepage

via: http://www.tecmint.com/linux-performance-monitoring-with-collectl-tool/

译者：Linchenguang 校对：Caroline

本文由 LCTT 原创翻译，Linux中国荣誉推出

Linux系统监控神器--Collectl

linux中国_ 发布于 2014-04-10
另请参阅: 系统运维,系统监控, Collectl
2 条评论

系统资源监控

为使系统良好运转,Linux系统管理员经常需要监测cpu,内存,磁盘,网络等系统信息。Linux上已有iotop,top,free,htop,sar等丰富的常规工具来实现监测功能。今天让我们走进Collectl来了解这个集测试/监控/分析系统性能为一体的Linux工具。

Collectl作为一个轻量级的监控工具,在同类工具中是功能最全的。用户可监测不同的复杂系统矩阵值,并可保留数据以做之后的分析。不同于其他只用来监测特定系统参数的工具,Collectl可以同时监测不同的变量,并以合适的方式记录它们。

摘自Collectl官网 ...

不同于或聚焦于一小组统计数据、采用唯一输出方式,或采用迭代、作为守护进程运行的大部分监测工具,collectl可以同时全部实现。用户可选择各种子系统中的任一系统来监测包括内存,CPU,磁盘,索引节点,无线带宽,lustre,内存,网络,网络文件系统,进程,二次型,slabs,套接口及TCP等信息。

深入学习前让我们先看以下命令。

$ collectl
waiting for 1 second sample...
#<--------CPU--------><----------Disks-----------><----------Network---------->
#cpu sys inter  ctxsw KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut 
   0   0   864   1772      0      0      0      0      0      1      0       0 
   5   2  1338   2734      0      0      8      2      0      0      0       1 
   1   0  1222   2647      0      0     92      3      0      2      0       1 
   1   0   763   1722      0      0     80      3      0      1      0       2

CPU使用率,磁盘输入输出和网络活动以每秒为单位来加载。对可以理解这些数据的人来说这些信息很容易读懂。这项列表在给定的时间间隔里会持续增加，并可直接形成一项文件跟踪日志。collectl工具提供了各种命令来对这些数据进行记录,查找及做其他处理。

安装collectl工具

对Ubuntu/Debian用户来说Collectl是默认资源,所以使用apt命令便可获取。

$ sudo apt-get install collectl

Fedora/CentOS用户使用yum命令便可获取。

$ yum install collectl

使用

必要的了解 - Collectl子系统

子系统是可检测到的不同系统资源类型。像CPU,内存,带宽等等都可构成一个子系统。只运行collectl命令将以批处理模式输出CPU,磁盘和网络子系统信息,我们在上文已看到相关内容。

从操作说明可以看到,Collectl可以识别以下子系统。

总计子系统

b - buddy info (内存片段)
c - CPU
d - Disk
f - NFS V3 Data
i - Inode and File System
j - Interrupts
l - Lustre
m - Memory
n - Networks
s - Sockets
t - TCP
x - Interconnect
y - Slabs (system object caches)

细节子系统

这是一系列的详细信息,大部分情况下都会由相应的总计数据衍生出来。目前“环境变量”和“进程”2类没有相应的总计数据。如果有3个磁盘,选择-sd,将只会看到3个磁盘组合出的单一信息。如果选择-sD,将会分别显示各磁盘信息。

C - CPU
D - Disk
E - Environmental data (fan, power, temp),  via ipmitool
F - NFS Data
J - Interrupts
L - Lustre OST detail OR client Filesystem detail
M - Memory node data, which is also known as numa data
N - Networks
T - 65 TCP counters only available in plot format
X - Interconnect
Y - Slabs (system object caches)
Z - Processes

使用“-s”来监测特定的子系统并向其添加子系统的识别项。现在让我们举几个例子。

1. 监测cpu使用率

用“-sc”实现CPU总使用率的监测

$ collectl -sc
waiting for 1 second sample...
#<--------CPU-------->
#cpu sys inter  ctxsw 
   3   0  1800   3729 
   3   0  1767   3599

使用“-C”观察各个单独的CPU使用情况。结果将会输出多行,分别对应一个CPU。

   $ collectl -sC
waiting for 1 second sample...

# SINGLE CPU STATISTICS

#   Cpu  User Nice  Sys Wait IRQ  Soft Steal Idle
      0     3    0    0    0    0    0     0   96
      1     3    0    0    0    0    0     0   96
      2     2    0    0    0    0    0     0   97
      3     1    0    0    0    0    0     0   98
      0     2    0    0    0    0    0     0   97
      1     2    0    2    0    0    0     0   95
      2     1    0    0    0    0    0     0   98
      3     4    0    1    0    0    0     0   95

如果需要,可以同时使用C和c来获取单项CPU监测数据和汇总数据。

2. 内存监测

使用m子系统查看内存。

$ collectl -sm
waiting for 1 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   2G 220M   1G   1G 210M   3G 
   2G 220M   1G   1G 210M   3G 
   2G 220M   1G   1G 210M   3G

不难解释。 M用来查看更多内存的详细信息。

$ collectl -sM
waiting for 1 second sample...

# MEMORY STATISTICS 

# Node    Total     Used     Free     Slab   Mapped     Anon   Locked    Inact Hit%
     0    7975M    5939M    2036M  215720K  372184K        0    6652K    1434M    0
     0    7975M    5939M    2036M  215720K  372072K        0    6652K    1433M    0

这类似于免费报告吗？

3. 查看磁盘使用情况

d和D可以查看磁盘使用的概况和详细情况。

$ collectl -sd
waiting for 1 second sample...
#<----------Disks----------->
#KBRead  Reads KBWrit Writes 
      4      1    136     24 
      0      0     80     13

$ collectl -sD
waiting for 1 second sample...

# DISK STATISTICS (/sec)
#          <---------reads---------><---------writes---------><--------averages--------> Pct
#Name       KBytes Merged  IOs Size  KBytes Merged  IOs Size  RWSize  QLen  Wait SvcTim Util
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              0      0    0    0       0      0    0    0       0     0     0      0    0
sda              1      0    2    1      17      1    5    3       2     2     6      2    1
sda              0      0    0    0      92     11    5   18      18     1    12     12    5

“--verbose”命令可以用来查看附加信息。和D命令不同,它将概况扩展,包含了更多信息。

$ collectl -sd --verbose

4. 同时报告多系统情况

如果想要同时得到CPU,内存和磁盘报告,那么同时使用子命令组合来实现。

$ collectl -scmd
waiting for 1 second sample...
#<--------CPU--------><-----------Memory-----------><----------Disks----------->
#cpu sys inter  ctxsw Free Buff Cach Inac Slab  Map KBRead  Reads KBWrit Writes 
   4   0  2187   4334   1G 221M   1G   1G 210M   3G      0      0      0      0 
   3   0  1896   4065   1G 221M   1G   1G 210M   3G      0      0     20      5

5. 显示统计时间

若要将每行的监测信息和时间一同显示,使用T选项。通过在“-o”参数来指定。

$ collectl -scmd -oT
waiting for 1 second sample...
#         <--------CPU--------><-----------Memory-----------><----------Disks----------->
#Time     cpu sys inter  ctxsw Free Buff Cach Inac Slab  Map KBRead  Reads KBWrit Writes 
12:03:05    3   0  1961   4013   1G 225M   1G   1G 212M   3G      0      0      0      0 
12:03:06    3   0  1884   3810   1G 225M   1G   1G 212M   3G      0      0      0      0 
12:03:07    3   0  2011   4060   1G 225M   1G   1G 212M   3G      0      0      0      0

使用“-oTm”可将时间换成毫秒显示。

6. 改变样本计数

collectl报告的每行都是一份快照或样本,它通常设定定期间隔如1秒来取样。i可用来设置时间间隔,c用来设置样本计数。

$ collectl -c1 -sm
waiting for 1 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   1G 261M   1G   1G 228M   3G

使用i命令可改变更新时间间隔。

$ collectl -sm -i2
waiting for 2 second sample...
#<-----------Memory----------->
#Free Buff Cach Inac Slab  Map 
   1G 261M   1G   1G 229M   3G

上面的命令设定每2秒收集一次内存信息。

7. 像iotop一样使用collectl

top命令将collectl像iostat/top工具一样进行智能统计。列表会持续更新,且可以使用不同字段实现排序。

$ collectl --top iokb

输出如下

# TOP PROCESSES sorted by iokb (counters are /sec) 09:44:57
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
 3104  enlighte 20  2683    3 S  938M   33M  0  0.00  0.00   0  00:09.16    0    4    0    0 /usr/bin/ktorrent 
    1  root     20     0    0 S   26M    3M  2  0.00  0.00   0  00:01.30    0    0    0    0 /sbin/init 
    2  root     20     0    0 S     0     0  3  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd 
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.02    0    0    0    0 ksoftirqd/0 
    4  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0 
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H 
    7  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.08    0    0    0    0 migration/0 
    8  root     20     2    0 S     0     0  2  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh 
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcuob/0

上面的输出很像top命令,并且它以磁盘数量降序排列进程。

若只想显示上面的5项进程,可用以下命令实现

$ collectl --top iokb,5

若想学习上面的列表里哪些字段可以排序,使用如下命令

$ collectl --showtopopts

下面是应用于进程或数据的最高排序类型列表。某些情况下你可能会使用某一字段进行排序,但它并非显示的一部分。

TOP PROCESS SORT FIELDS
进程排序字段

Memory
  vsz    virtual memory
  rss    resident (physical) memory

Time
  syst   system time
  usrt   user time
  time   total time
  accum  accumulated time

I/O
  rkb    KB read
  wkb    KB written
  iokb   total I/O KB

  rkbc   KB read from pagecache
  wkbc   KB written to pagecache
  iokbc  total pagecacge I/O
  ioall  total I/O KB (iokb+iokbc)

  rsys   read system calls
  wsys   write system calls
  iosys  total system calls

  iocncl Cancelled write bytes

Page Faults
  majf   major page faults
  minf   minor page faults
  flt    total page faults

Context Switches
  vctx   volunary context switches
  nctx   non-voluntary context switches

Miscellaneous (best when used with --procfilt)
  cpu    cpu number
  pid    process pid
  thread total process threads (not counting main)

TOP SLAB SORT FIELDS

  numobj    total number of slab objects
  actobj    active slab objects
  objsize   sizes of slab objects
  numslab   number of slabs
  objslab   number of objects in a slab
  totsize   total memory sizes taken by slabs
  totchg    change in memory sizes
  totpct    percent change in memory sizes
  name      slab names

8. 像top一样使用collectl

为使collectl像top,我们只需以CPU使用率排序输出进程。

$ collectl --top

输出如下

# TOP PROCESSES sorted by time (counters are /sec) 14:08:46
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
 9471  enlighte 20  9102    0 R   63M   22M  3  0.03  0.10  13  00:00.81    0    0    0    3 /usr/bin/perl 
 3076  enlighte 20  2683    2 S  521M   40M  2  0.00  0.03   3  00:55.14    0    0    0    2 /usr/bin/yakuake 
 3877  enlighte 20  3356   41 S    1G  218M  1  0.00  0.03   3  10:10.50    0    0    0    0 /opt/google/chrome/chrome 
 4625  enlighte 20  2895   36 S    1G  241M  2  0.00  0.02   2  08:24.39    0    0    0   12 /usr/lib/firefox/firefox 
 5638  enlighte 20  3356    3 S    1G  265M  1  0.00  0.02   2  09:55.04    0    0    0    2 /opt/google/chrome/chrome 
 1186  root     20  1152    4 S  502M   76M  0  0.00  0.01   1  03:02.96    0    0    0    0 /usr/bin/X 
 1334  www-data 20  1329    0 S   87M    1M  2  0.00  0.01   1  00:00.85    0    0    0    0 nginx:

上面的命令也可用于显示子系统信息。

$ collectl --top -scm

9. 像ps一样列出进程

为像ps命令一样列出所有进程且没有后续更新,用“c”命令让其计数至1. $ collectl -c1 -sZ -i:1

上面的命令将会列出类似“ps -e”命令的所有进程。“procfilt”用于从所有进程中过滤出特定的进程信息。“procopts”用于指定另一组微调进程列表显示的命令。

10. 像vmstat一样使用collectl

Collectl有内置命令来完成像vmstat一样的功能。

$ collectl --vmstat
waiting for 1 second sample...
#procs ---------------memory (KB)--------------- --swaps-- -----io---- --system-- ----cpu-----
# r  b   swpd   free   buff  cache  inact active   si   so    bi    bo   in    cs us sy  id wa
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0   108 1982  3918  2  0  95  1
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0     0 1906  3886  1  0  98  0
  1  0      0  1733M   242M  1922M  1137M   710M    0    0     0     0 1739  3480  3  0  96  0

11. 子系统的详细信息

下面的命令以一秒为间隔，统计5次CPU信息并和时间一起显示出详细信息（冗长）。

$ collectl -sc -c5 -i1 --verbose -oT
waiting for 1 second sample...

# CPU SUMMARY (INTR, CTXSW & PROC /sec)
#Time      User  Nice   Sys  Wait   IRQ  Soft Steal  Idle  CPUs  Intr  Ctxsw  Proc  RunQ   Run   Avg1  Avg5 Avg15 RunT BlkT
14:22:10     11     0     0     0     0     0     0    87     4  1312   2691     0   866     1   0.78  0.86  0.78    1    0
14:22:11     15     0     0     0     0     0     0    84     4  1283   2496     0   866     1   0.78  0.86  0.78    1    0
14:22:12     17     0     0     0     0     0     0    82     4  1342   2658     0   866     0   0.78  0.86  0.78    0    0
14:22:13     15     0     0     0     0     0     0    84     4  1241   2429     0   866     1   0.78  0.86  0.78    1    0
14:22:14     11     0     0     0     0     0     0    88     4  1270   2488     0   866     0   0.80  0.87  0.78    0    0

改变"-s"变量查看不同的子系统。

总结

本文的介绍不过是对collectl这个强大工具的一些浅见。本文本希望展示它有多灵活,其实通过以上的讨论让我们了解了包括记录及回寻捕获的数据,以多种文件格式导出数据并将数据转换为可被广泛的工具分析的格式等等功能的实现。

collectl提供的另一大功能便是像服务一样运行,对远程Linux机器或完整的服务器集群提供远程监控,其表现堪称完美。

Collectl同另一批可用于处理分析收集数据的名为Collectl实用工具 (colmux, colgui, colplot)的功能相契合。如果有机会,我们在之后的文章中会介绍它们。

为更详细的了解Collectl工具,请登录它的主页来学习更多的功能。笔者建议查看FAQs来快速了解collectl,读取collectl文档获取深层次的例子。等价命令表也可定位至更多的像sar,iostat,netstat,top等和collectl功能部分等价的常用工具。

via: http://www.binarytides.com/collectl-monitor-system-resources-linux/

译者：icybreaker 校对：wxy

本文由 LCTT 原创翻译，Linux中国荣誉推出

Linux 系统实时监控的瑞士军刀 —— Glances

linux中国_ 发布于 2014-04-01
另请参阅: 系统运维,Glances, top, 系统监控
12 条评论

早些时候，我们提到过有很多可以用来监视系统性能的 Linux 系统监视工具。但我们估计，或许更多的用户会倾向与绝大多数 Linux 发行版都带的工具（top 命令）。

top 命令是 Linux 下的一个实时任务管理器，同时也是用于在 GNU/Linux 发行版中寻找系统性能方面的瓶颈，并帮助我们作出正确操作的常用系统监视工具。她有着一个极为简洁的界面，并自带少量的可以帮助我们快速了解系统性能的实用选项。

但是，有些时候想要通过她寻找一个占用系统资源比较大的应用或进程可能会比较困难。因为 top 命令本身并不会帮助我们高亮那些吃太多 CPU，内存，或者其他资源的程序。

为了达到这个目标，这里我们将介绍一款超牛逼的系统监视程序 —— Glances。她可以自动高亮利用最高系统资源的程序，并为 Linux/Unix 服务器提供尽可能多的信息。

什么是 Glances？

Glances 是一个由 Python 编写，使用 psutil 库来从系统抓取信息的基于 curses 开发的跨平台命令行系统监视工具。通过 Glances，我们可以监视 CPU，平均负载，内存，网络流量，磁盘 I/O，其他处理器 和 文件系统 空间的利用情况。

Glances 是一个用来监视 GNU/Linux 和 FreeBSD 操作系统的 GPL 授权的自由软件。

Glances 同时也提供了很多实用的选项。其中我们能够在配置文件见到的一项主要的功能就是设置关键值及相应的标签（careful[小心], warning[警告] 和 critical[严重]），然后她会自动帮我们用不同颜色标出系统达到某个瓶颈的信息。

Glances 主要功能

CPU 信息（用户的相关应用, 系统核心程序和空闲程序）
总内存信息，包括了物理内存，交换空间和空闲内存等等
之前的 1 分钟、5 分钟和 15 分钟平均的 CPU 负载
网络链接的下行和上行速度
处理器总数，以及其活动状态
硬盘 I/O 相关（读写）速度详情
当前挂载设备的磁盘使用情况
高 CPU 和内存使用的进程名，和相关应用的位置
在底部显示当前日期和时间
将消耗最高系统资源的进程用红色标出

下面是一个 Glances 的使用截图：

Glances View

在 Linux/Unix 系统中安装 Glances

虽然这个工具的发布比较晚，但你仍然可以在 Red Hat 系的系统中通过 EPEL 软件源安装。在终端用下面的命令安装：

对于 RHEL/CentOS/Fedora 发行版

# yum install -y glances

对于 Debian/Ubuntu/Linux Mint 发行版

$ sudo apt-add-repository ppa:arnaud-hartmann/glances-stable
$ sudo apt-get update
$ sudo apt-get install glances

如何使用 Glances

首先，你需要在终端中输入以下命令

# glances

Glances Preview – Ubuntu 13.10

按下 ‘q‘ （‘ESC‘ 和 ‘Ctrl-C‘ 也可以）退出 Glances 终端。这里是从 CentOS 6.5 截取的另一张截图：

Glances Preview – CentOS 6.5

Glances 的默认刷新频率是 1 （秒），但是你可以通过在终端指定参数来手动定义其刷新频率

# glances -t 2

Glances 中颜色的含义

Glances 会用一下几种颜色来代表状态：

绿色：OK（一切正常）
蓝色：CAREFUL（需要注意）
紫色：WARNING（警告）
红色：CRITICAL（严重）

阀值可以在配置文件中设置，一般阀值被默认设置为（careful=50、warning=70、critical=90）。

我们可以按照自己的需求在配置文件（默认在 /etc/glances/glances.conf）中自定义。

Glances 的选项

除了很多命令行选项之外，Glances 还提供了更多的可在其运行时开关输出信息选项的快捷键，下面是一些例子：

a – 对进程自动排序
c – 按 CPU 百分比对进程排序
m – 按内存百分比对进程排序
p – 按进程名字母顺序对进程排序
i – 按读写频率（I/O）对进程排序
d – 显示/隐藏磁盘 I/O 统计信息
f – 显示/隐藏文件系统统计信息
n – 显示/隐藏网络接口统计信息
s – 显示/隐藏传感器统计信息
y – 显示/隐藏硬盘温度统计信息
l – 显示/隐藏日志（log）
b – 切换网络 I/O 单位（Bytes/bits）
w – 删除警告日志
x – 删除警告和严重日志
1 – 切换全局 CPU 使用情况和每个 CPU 的使用情况
h – 显示/隐藏这个帮助画面
t – 以组合形式浏览网络 I/O
u – 以累计形式浏览网络 I/O
q – 退出（‘ESC‘ 和 ‘Ctrl&C‘ 也可以）

远程使用 Glances

你甚至也可以通过 Glances 来监视远程系统。要在远程系统使用 ‘glances’，需要在服务器运行 ‘glances -s’（-s 启动服务器/客户端模式）命令。

# glances -s

Define the password for the Glances server
Password: 
Password (confirm): 
Glances server is running on 0.0.0.0:61209

注意：当你执行了‘glances’命令后，她会让你为 Glances 服务器设置密码。

当你设置完毕，你将看到 “Glances server is running on 0.0.0.0:61209” （Glances 服务器正在 0.0.0.0 的 61209 端口运行）的消息。

当 Glances 服务器启动后，到本地执行下面的命令来指定服务器IP地址或主机名以链接。

注：这里的 ‘172.16.27.56’ 是我 Glances 服务器的 IP 地址。

# glances -c -P 172.16.27.56

下面是一些在使用服务器/客户端模式时必须知道的事情：

* 在服务器模式，你可以通过 `-B 地址` 来设置绑定地址，也可以通过 `-p 端口` 来绑定监听的 TCP 端口
* 在客户端模式，你可以通过同样的 `-p 端口` 来指定服务器端口
* 默认的绑定地址是 0.0.0.0，但这么做会监听所有网络接口的指定端口
* 在服务器/客户端模式下，限制的阀值将由服务器的设置决定
* 你也可以在命令行下用过 `-P 密码` 的方式来为服务器端设置一个密码

总结

Glances 对于大多用户而言是个在系统资源上提供过多信息的工具。但是如果你是一个想要仅从命令行就能快速获取系统整体状况的系统管理员，那这个工具绝对是你的必备利器。

译者注

请不要将 glances（本文中的工具）和 glance（一个 OpenStack 的工具）这两个包搞混了
Ubuntu 官方 Extra 源中的 glances 因为 python 库移动的问题导致无法正常使用但可以通过建立软链接的方式临时修复：sudo ln -s /usr/lib/python2.7/dist-packages/glances /usr/share/pyshared/glances

via: http://www.tecmint.com/glances-an-advanced-real-time-system-monitoring-tool-for-linux/

译者：VizV 校对：wxy

本文由 LCTT 原创翻译，Linux中国荣誉推出