标签过滤下的文章

今天，我喜欢的 meetup 网站上有一篇我超爱的文章！Suchakra Sharma（@tuxology 在 twitter/github）的一篇非常棒的关于传统 BPF 和在 Linux 中最新加入的 eBPF 的讨论文章，正是它促使我想去写一个 eBPF 的程序！

这篇文章就是 —— BSD 包过滤器：一个新的用户级包捕获架构

我想在讨论的基础上去写一些笔记，因为，我觉得它超级棒！

开始前，这里有个幻灯片和一个 pdf。这个 pdf 非常好，结束的位置有一些链接，在 PDF 中你可以直接点击这个链接。

什么是 BPF？

在 BPF 出现之前，如果你想去做包过滤，你必须拷贝所有的包到用户空间，然后才能去过滤它们（使用 “tap”）。

这样做存在两个问题：

如果你在用户空间中过滤，意味着你将拷贝所有的包到用户空间，拷贝数据的代价是很昂贵的。
使用的过滤算法很低效。

问题 #1 的解决方法似乎很明显，就是将过滤逻辑移到内核中。（虽然具体实现的细节并没有明确，我们将在稍后讨论）

但是，为什么过滤算法会很低效？

如果你运行 tcpdump host foo，它实际上运行了一个相当复杂的查询，用下图的这个树来描述它：

评估这个树有点复杂。因此，可以用一种更简单的方式来表示这个树，像这样：

然后，如果你设置 ether.type = IP 和 ip.src = foo，你必然明白匹配的包是 host foo，你也不用去检查任何其它的东西了。因此，这个数据结构（它们称为“控制流图” ，或者 “CFG”）是表示你真实希望去执行匹配检查的程序的最佳方法，而不是用前面的树。

为什么 BPF 要工作在内核中

这里的关键点是，包仅仅是个字节的数组。BPF 程序是运行在这些字节的数组之上。它们不允许有循环（loop），但是，它们可以有聪明的办法知道 IP 包头（IPv6 和 IPv4 长度是不同的）以及基于它们的长度来找到 TCP 端口：

x = ip_header_length
port = *(packet_start + x + port_offset)

（看起来不一样，其实它们基本上都相同）。在这个论文/幻灯片上有一个非常详细的虚拟机的描述，因此，我不打算解释它。

当你运行 tcpdump host foo 后，这时发生了什么？就我的理解，应该是如下的过程。

转换 host foo 为一个高效的 DAG 规则
转换那个 DAG 规则为 BPF 虚拟机的一个 BPF 程序（BPF 字节码）
发送 BPF 字节码到 Linux 内核，由 Linux 内核验证它
编译这个 BPF 字节码程序为一个原生 native 代码。例如，这是个ARM 上的 JIT 代码以及 x86 的机器码
当包进入时，Linux 运行原生代码去决定是否过滤这个包。对于每个需要去处理的包，它通常仅需运行 100 - 200 个 CPU 指令就可以完成，这个速度是非常快的！

现状：eBPF

毕竟 BPF 出现已经有很长的时间了！现在，我们可以拥有一个更加令人激动的东西，它就是 eBPF。我以前听说过 eBPF，但是，我觉得像这样把这些片断拼在一起更好（我在 4 月份的 netdev 上我写了这篇 XDP & eBPF 的文章回复）

关于 eBPF 的一些事实是：

eBPF 程序有它们自己的字节码语言，并且从那个字节码语言编译成内核原生代码，就像 BPF 程序一样
eBPF 运行在内核中
eBPF 程序不能随心所欲的访问内核内存。而是通过内核提供的函数去取得一些受严格限制的所需要的内容的子集
它们可以与用户空间的程序通过 BPF 映射进行通讯
这是 Linux 3.18 的 bpf 系统调用

kprobes 和 eBPF

你可以在 Linux 内核中挑选一个函数（任意函数），然后运行一个你写的每次该函数被调用时都运行的程序。这样看起来是不是很神奇。

例如：这里有一个名为 disksnoop 的 BPF 程序，它的功能是当你开始/完成写入一个块到磁盘时，触发它执行跟踪。下图是它的代码片断：

BPF_HASH(start, struct request *);
void trace_start(struct pt_regs *ctx, struct request *req) {
    // stash start timestamp by request ptr
    u64 ts = bpf_ktime_get_ns();
    start.update(&req, &ts);
}
...
b.attach_kprobe(event="blk_start_request", fn_name="trace_start")
b.attach_kprobe(event="blk_mq_start_request", fn_name="trace_start")

本质上它声明一个 BPF 哈希（它的作用是当请求开始/完成时，这个程序去触发跟踪），一个名为 trace_start 的函数将被编译进 BPF 字节码，然后附加 trace_start 到内核函数 blk_start_request 上。

这里使用的是 bcc 框架，它可以让你写 Python 式的程序去生成 BPF 代码。你可以在 https://github.com/iovisor/bcc 找到它（那里有非常多的示例程序）。

uprobes 和 eBPF

因为我知道可以附加 eBPF 程序到内核函数上，但是，我不知道能否将 eBPF 程序附加到用户空间函数上！那会有更多令人激动的事情。这是在 Python 中使用一个 eBPF 程序去计数 malloc 调用的示例。

附加 eBPF 程序时应该考虑的事情

带 XDP 的网卡（我之前写过关于这方面的文章）
tc egress/ingress （在网络栈上）
kprobes（任意内核函数）
uprobes（很明显，任意用户空间函数？？像带调试符号的任意 C 程序）
probes 是为 dtrace 构建的名为 “USDT probes” 的探针（像这些 mysql 探针)。这是一个使用 dtrace 探针的示例程序
JVM
跟踪点
seccomp / landlock 安全相关的事情
等等

这个讨论超级棒

在幻灯片里有很多非常好的链接，并且在 iovisor 仓库里有个 LINKS.md。虽然现在已经很晚了，但是我马上要去写我的第一个 eBPF 程序了！

via: https://jvns.ca/blog/2017/06/28/notes-on-bpf---ebpf/

作者：Julia Evans 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

在这篇文章中，我们将会看一些 Linux 中的过滤器命令行工具。过滤器是一个程序，它从标准输入读取数据，在数据上执行操作，然后把结果写到标准输出。

因此，它可以用来以强大的方式处理信息，例如重新结构化输出以生成有用的报告，修改文件里面的文本，以及其他很多系统管理任务。

下面是 Linux 上的一些有用的文件或者文本过滤器。

1、 awk 命令

awk 是一个卓越的模式扫描和处理语言，它可被用于在 Linux 下构造有用的过滤器。你可以通过阅读我们的 awk 系列 1 到 13 部分来开始使用它。

另外，也可以通过阅读 awk 的 man 手册来获取更多的信息和使用选项。

$ man awk

2、 sed 命令

sed 是一款过滤和转换文本的强大的流编辑器。我们已经写了两篇关于 sed 的有用的文章，你可以通过这儿来了解：

sed 的 man 手册已经添加控制选项和说明：

$ man sed

3、 grep、 egrep、 fgrep、 rgrep 命令行

这些过滤器输出匹配指定模式的行。它们从一个文件或者标准输入读取行，并且输出所有匹配的行，默认输出到标准输出。

注意：主程序是 grep，这些变体与使用特定的选项的 grep 相同，如下所示（为了向后兼容性，它们依旧在使用）：

$ egrep = grep -E
$ fgrep = grep -F
$ rgrep = grep -r

下面是一些基本的 grep 命令：

tecmint@TecMint ~ $ grep "aaronkilik" /etc/passwd
aaronkilik:x:1001:1001::/home/aaronkilik:
tecmint@TecMint ~ $ cat /etc/passwd | grep "aronkilik"
aaronkilik:x:1001:1001::/home/aaronkilik:

在 Linux 下的 grep、 egrep 和 fgrep 的差异？中，你可以了解更多。

4、 head 命令

head 用于显示文件前面的部分，默认情况下它输出前 10 行。你可以使用 -n 标志来指定显示的行数：

tecmint@TecMint ~ $ head /var/log/auth.log  
Jan  2 10:45:01 TecMint CRON[3383]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan  2 10:45:01 TecMint CRON[3383]: pam_unix(cron:session): session closed for user root
Jan  2 10:51:34 TecMint sudo:  tecmint : TTY=unknown ; PWD=/home/tecmint ; USER=root ; COMMAND=/usr/lib/linuxmint/mintUpdate/checkAPT.py
Jan  2 10:51:34 TecMint sudo: pam_unix(sudo:session): session opened for user root by (uid=0)
Jan  2 10:51:39 TecMint sudo: pam_unix(sudo:session): session closed for user root
Jan  2 10:55:01 TecMint CRON[4099]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan  2 10:55:01 TecMint CRON[4099]: pam_unix(cron:session): session closed for user root
Jan  2 11:05:01 TecMint CRON[4138]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan  2 11:05:01 TecMint CRON[4138]: pam_unix(cron:session): session closed for user root
Jan  2 11:09:01 TecMint CRON[4146]: pam_unix(cron:session): session opened for user root by (uid=0)
tecmint@TecMint ~ $ head  -n 5 /var/log/auth.log  
Jan  2 10:45:01 TecMint CRON[3383]: pam_unix(cron:session): session opened for user root by (uid=0)
Jan  2 10:45:01 TecMint CRON[3383]: pam_unix(cron:session): session closed for user root
Jan  2 10:51:34 TecMint sudo:  tecmint : TTY=unknown ; PWD=/home/tecmint ; USER=root ; COMMAND=/usr/lib/linuxmint/mintUpdate/checkAPT.py
Jan  2 10:51:34 TecMint sudo: pam_unix(sudo:session): session opened for user root by (uid=0)
Jan  2 10:51:39 TecMint sudo: pam_unix(sudo:session): session closed for user root

学习如何使用带有 tail 和 cat 命令的 head 命令，以便在 Linux 下更有效的使用。

5、 tail 命令

tail 输出一个文件的后面的部分（默认 10 行）。使用 -n 选项来指定显示的行数。

下面的命令将会输出指定文件的最后 5 行：

tecmint@TecMint ~ $ tail -n 5 /var/log/auth.log
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on :: port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Received SIGHUP; restarting.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on :: port 22.

另外，tail 有一个特殊的选项 -f ，可以实时查看一个文件的变化（尤其是日志文件）。

下面的命令将会使你能够监控指定文件的变化：

tecmint@TecMint ~ $ tail -f /var/log/auth.log
Jan  6 12:58:01 TecMint sshd[1269]: Server listening on :: port 22.
Jan  6 12:58:11 TecMint sshd[1269]: Received SIGHUP; restarting.
Jan  6 12:58:12 TecMint sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan  6 12:58:12 TecMint sshd[1269]: Server listening on :: port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Received SIGHUP; restarting.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on :: port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Received SIGHUP; restarting.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on 0.0.0.0 port 22.
Jan  6 13:01:27 TecMint sshd[1269]: Server listening on :: port 22.

阅读 tail 的 man 手册，获取使用选项和说明的完整内容：

$ man tail

6、 sort 命令

sort 用于将文本文件或标准输入的行进行排序。

下面是一个名为 domain.list 的文件的内容：

tecmint@TecMint ~ $ cat domains.list
tecmint.com
tecmint.com
news.tecmint.com
news.tecmint.com
linuxsay.com
linuxsay.com
windowsmint.com
windowsmint.com

你可以像这样运行一个简单的 sort 命令来排序文件内容：

tecmint@TecMint ~ $ sort domains.list
linuxsay.com
linuxsay.com
news.tecmint.com
news.tecmint.com
tecmint.com
tecmint.com
windowsmint.com
windowsmint.com

你可以有多种方式来使用 sort 命令，请参阅以下一些关于 sort 命令的有用的文章。

7、 uniq 命令

uniq 命令用于报告或者忽略重复行，它从标准输入过滤行，并且把结果写到标准输出。

在对一个输入流运行 sort 之后，你可以使用 uniq 删除重复行，如下例所示。

为了显示行出现的数目，使用 -c 选项，要在对比时忽略大小写的差异，使用 -i 选项：

tecmint@TecMint ~ $ cat domains.list
tecmint.com
tecmint.com
news.tecmint.com
news.tecmint.com
linuxsay.com
linuxsay.com
windowsmint.com
tecmint@TecMint ~ $ sort domains.list | uniq -c 
2 linuxsay.com
2 news.tecmint.com
2 tecmint.com
1 windowsmint.com

通过阅读 uniq 的 man 手册来获取进一步的使用信息和选项：

$ man uniq

8、 fmt 命令行

fmt 是一款简单的优化的文本格式化器，它重新格式化指定文件的段落，并且打印结果到标准输出。

以下是从文件 domain-list.txt 提取的内容：

1.tecmint.com 2.news.tecmint.com 3.linuxsay.com 4.windowsmint.com

为了把上面的内容重新格式化成一个标准的清单，运行下面的命令，使用 -w 选项定义最大行宽度：

tecmint@TecMint ~ $ cat domain-list.txt 
1.tecmint.com 2.news.tecmint.com 3.linuxsay.com 4.windowsmint.com
tecmint@TecMint ~ $ fmt -w 1 domain-list.txt
1.tecmint.com 
2.news.tecmint.com 
3.linuxsay.com 
4.windowsmint.com

9、 pr 命令

pr 命令转换文本文件或者标准输入之后打印出来。例如在 Debian 系统上，你可以像下面这样显示所有的安装包：

$ dpkg -l

为了将要打印的列表在页面和列中组织好，使用以下命令。

tecmint@TecMint ~ $ dpkg -l | pr --columns 3 -l 20  
2017-01-06 13:19                                                  Page 1
Desired=Unknown/Install ii  adduser             ii  apg
| Status=Not/Inst/Conf- ii  adwaita-icon-theme  ii  app-install-data
|/ Err?=(none)/Reinst-r ii  adwaita-icon-theme- ii  apparmor
||/ Name                ii  alsa-base               ii  apt
+++-=================== ii  alsa-utils            ii  apt-clone
ii  accountsservice     ii  anacron               ii  apt-transport-https
ii  acl                 ii  apache2               ii  apt-utils
ii  acpi-support        ii  apache2-bin           ii  apt-xapian-index
ii  acpid               ii  apache2-data          ii  aptdaemon
ii  add-apt-key         ii  apache2-utils         ii  aptdaemon-data
2017-01-06 13:19                                                  Page 2
ii  aptitude            ii  avahi-daemon          ii  bind9-host
ii  aptitude-common     ii  avahi-utils           ii  binfmt-support
ii  apturl              ii  aview                   ii  binutils
ii  apturl-common       ii  banshee               ii  bison
ii  archdetect-deb      ii  baobab                ii  blt
ii  aspell              ii  base-files            ii  blueberry
ii  aspell-en           ii  base-passwd           ii  bluetooth
ii  at-spi2-core        ii  bash                    ii  bluez
ii  attr                ii  bash-completion     ii  bluez-cups
ii  avahi-autoipd       ii  bc                      ii  bluez-obexd
.....

其中，使用的标志如下：

--column 定义在输出中创建的列数。
-l 指定页面的长度（默认是 66 行）。

10、 tr 命令行

这个命令从标准输入转换或者删除字符，然后输出结果到标准输出。

使用 tr 的语法如下：

$ tr options set1 set2

看一下下面的例子，在第一个命令，set1( [:upper:] ) 代表指定输入字符的大小写（都是大写字符）。 set2([:lower:]) 代表期望结果字符的大小写。第二个例子意思相似，转义字符 \n 表示在新的一行打印输出：

tecmint@TecMint ~ $ echo "WWW.TECMINT.COM" | tr [:upper:] [:lower:]
www.tecmint.com
tecmint@TecMint ~ $ echo "news.tecmint.com" | tr [:lower:] [:upper:]
NEWS.TECMINT.COM

11、 more 命令

more 命令是一个有用的文件过滤器，最初为查看证书而建。它一页页显示文件内容，用户可以通过按回车来显示更多的信息。

你可以像这样使用它来显示大文件：

tecmint@TecMint ~ $ dmesg | more
[    0.000000] Initializing cgroup subsys cpuset
[    0.000000] Initializing cgroup subsys cpu
[    0.000000] Initializing cgroup subsys cpuacct
[    0.000000] Linux version 4.4.0-21-generic (buildd@lgw01-21) (gcc version 5.3.1 20160413 (Ubuntu 5.3.1-14ubuntu2) ) #37-Ubuntu SMP Mon Apr 18 18:33:37 UTC 2016 (Ubuntu 4.4.0-21.37-generic
4.4.6)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-21-generic root=UUID=bb29dda3-bdaa-4b39-86cf-4a6dc9634a1b ro quiet splash vt.handoff=7
[    0.000000] KERNEL supported cpus:
[    0.000000]   Intel GenuineIntel
[    0.000000]   AMD AuthenticAMD
[    0.000000]   Centaur CentaurHauls
[    0.000000] x86/fpu: xstate_offset[2]:  576, xstate_sizes[2]:  256
[    0.000000] x86/fpu: Supporting XSAVE feature 0x01: 'x87 floating point registers'
[    0.000000] x86/fpu: Supporting XSAVE feature 0x02: 'SSE registers'
[    0.000000] x86/fpu: Supporting XSAVE feature 0x04: 'AVX registers'
[    0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'standard' format.
[    0.000000] x86/fpu: Using 'eager' FPU context switches.
[    0.000000] e820: BIOS-provided physical RAM map:
[    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d3ff] usable
[    0.000000] BIOS-e820: [mem 0x000000000009d400-0x000000000009ffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000000e0000-0x00000000000fffff] reserved
[    0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000a56affff] usable
[    0.000000] BIOS-e820: [mem 0x00000000a56b0000-0x00000000a5eaffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000a5eb0000-0x00000000aaabefff] usable
--More--

12、 less 命令

less 是和上面的 more 命令相反的一个命令，但是它提供了额外的特性，而且对于大文件，它会更快些。

按照 more 命令相同的方式使用它：

tecmint@TecMint ~ $ dmesg | less
[    0.000000] Initializing cgroup subsys cpuset
[    0.000000] Initializing cgroup subsys cpu
[    0.000000] Initializing cgroup subsys cpuacct
[    0.000000] Linux version 4.4.0-21-generic (buildd@lgw01-21) (gcc version 5.3.1 20160413 (Ubuntu 5.3.1-14ubuntu2) ) #37-Ubuntu SMP Mon Apr 18 18:33:37 UTC 2016 (Ubuntu 4.4.0-21.37-generic
4.4.6)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-21-generic root=UUID=bb29dda3-bdaa-4b39-86cf-4a6dc9634a1b ro quiet splash vt.handoff=7
[    0.000000] KERNEL supported cpus:
[    0.000000]   Intel GenuineIntel
[    0.000000]   AMD AuthenticAMD
[    0.000000]   Centaur CentaurHauls
[    0.000000] x86/fpu: xstate_offset[2]:  576, xstate_sizes[2]:  256
[    0.000000] x86/fpu: Supporting XSAVE feature 0x01: 'x87 floating point registers'
[    0.000000] x86/fpu: Supporting XSAVE feature 0x02: 'SSE registers'
[    0.000000] x86/fpu: Supporting XSAVE feature 0x04: 'AVX registers'
[    0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'standard' format.
[    0.000000] x86/fpu: Using 'eager' FPU context switches.
[    0.000000] e820: BIOS-provided physical RAM map:
[    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d3ff] usable
[    0.000000] BIOS-e820: [mem 0x000000000009d400-0x000000000009ffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000000e0000-0x00000000000fffff] reserved
[    0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000a56affff] usable
[    0.000000] BIOS-e820: [mem 0x00000000a56b0000-0x00000000a5eaffff] reserved
[    0.000000] BIOS-e820: [mem 0x00000000a5eb0000-0x00000000aaabefff] usable
:

学习为什么 Linux 下进行有效的文件浏览， ‘less’ 比 ‘more’ 命令更快。

基本上就这些了，如果你还知道其他本文没有提供的 Linux 下有用的文本过滤命令行工具，可以在下面的评论部分通知我们。

作者简介：Aaron Kili 是一名 Linux 和 F.O.S.S 爱好者、一名未来的 Linux 系统管理员、web 开发者，并且目前是一名 TecMint 上的内容创造者，他喜欢计算机相关的工作，并且坚信知识的分享。

via: http://www.tecmint.com/linux-file-operations-commands/

作者：Aaron Kili 译者：yangmingming 校对：jasminepeng

本文由 LCTT 原创编译，Linux中国荣誉推出