分类 技术 下的文章

超越单行的 awk 脚本,学习如何做邮件合并和字数统计。

awk 是 Unix 和 Linux 用户工具箱中最古老的工具之一。awk 由 Alfred Aho、Peter Weinberger 和 Brian Kernighan(即工具名称中的 A、W 和 K)在 20 世纪 70 年代创建,用于复杂的文本流处理。它是流编辑器 sed 的配套工具,后者是为逐行处理文本文件而设计的。awk 支持更复杂的结构化程序,是一门完整的编程语言。

本文将介绍如何使用 awk 完成更多结构化的复杂任务,包括一个简单的邮件合并程序。

awk 的程序结构

awk 脚本是由 {}(大括号)包围的功能块组成,其中有两个特殊的功能块,BEGINEND,它们在处理第一行输入流之前和最后一行处理之后执行。在这两者之间,块的格式为:

模式 { 动作语句 }

当输入缓冲区中的行与模式匹配时,每个块都会执行。如果没有包含模式,则函数块在输入流的每一行都会执行。

另外,以下语法可以用于在 awk 中定义可以从任何块中调用的函数。

function 函数名(参数列表) { 语句 }

这种模式匹配块和函数的组合允许开发者结构化的 awk 程序,以便重用和提高可读性。

awk 如何处理文本流

awk 每次从输入文件或流中一行一行地读取文本,并使用字段分隔符将其解析成若干字段。在 awk 的术语中,当前的缓冲区是一个记录。有一些特殊的变量会影响 awk 读取和处理文件的方式:

  • FS 字段分隔符 field separator )。默认情况下,这是任何空格字符(空格或制表符)。
  • RS 记录分隔符 record separator )。默认情况下是一个新行(n)。
  • NF 字段数 number of fields )。当 awk 解析一行时,这个变量被设置为被解析出字段数。
  • $0: 当前记录。
  • $1$2$3 等:当前记录的第一、第二、第三等字段。
  • NR 记录数 number of records )。迄今已被 awk 脚本解析的记录数。

影响 awk 行为的变量还有很多,但知道这些已经足够开始了。

单行 awk 脚本

对于一个如此强大的工具来说,有趣的是,awk 的大部分用法都是基本的单行脚本。也许最常见的 awk 程序是打印 CSV 文件、日志文件等输入行中的选定字段。例如,下面的单行脚本从 /etc/passwd 中打印出一个用户名列表:

awk -F":" '{print $1 }' /etc/passwd

如上所述,$1 是当前记录中的第一个字段。-F 选项将 FS 变量设置为字符 :

字段分隔符也可以在 BEGIN 函数块中设置:

awk 'BEGIN { FS=":" } {print $1 }' /etc/passwd

在下面的例子中,每一个 shell 不是 /sbin/nologin 的用户都可以通过在该块前面加上匹配模式来打印出来:

awk 'BEGIN { FS=":" } ! /\/sbin\/nologin/ {print $1 }' /etc/passwd

awk 进阶:邮件合并

现在你已经掌握了一些基础知识,尝试用一个更具有结构化的例子来深入了解 awk:创建邮件合并。

邮件合并使用两个文件,其中一个文件(在本例中称为 email_template.txt)包含了你要发送的电子邮件的模板:

From: Program committee <[email protected]>
To: {firstname} {lastname} <{email}>
Subject: Your presentation proposal

Dear {firstname},

Thank you for your presentation proposal:
  {title}

We are pleased to inform you that your proposal has been successful! We
will contact you shortly with further information about the event
schedule.

Thank you,
The Program Committee

而另一个则是一个 CSV 文件(名为 proposals.csv),里面有你要发送邮件的人:

firstname,lastname,email,title
Harry,Potter,[email protected],"Defeating your nemesis in 3 easy steps"
Jack,Reacher,[email protected],"Hand-to-hand combat for beginners"
Mickey,Mouse,[email protected],"Surviving public speaking with a squeaky voice"
Santa,Claus,[email protected],"Efficient list-making"

你要读取 CSV 文件,替换第一个文件中的相关字段(跳过第一行),然后把结果写到一个叫 acceptanceN.txt 的文件中,每解析一行就递增文件名中的 N

awk 程序写在一个叫 mail_merge.awk 的文件中。在 awk 脚本中的语句用 ; 分隔。第一个任务是设置字段分隔符变量和其他几个脚本需要的变量。你还需要读取并丢弃 CSV 中的第一行,否则会创建一个以 Dear firstname 开头的文件。要做到这一点,请使用特殊函数 getline,并在读取后将记录计数器重置为 0。

BEGIN {
  FS=",";
  template="email_template.txt";
  output="acceptance";
  getline;
  NR=0;
}

主要功能非常简单:每处理一行,就为各种字段设置一个变量 —— firstnamelastnameemailtitle。模板文件被逐行读取,并使用函数 sub 将任何出现的特殊字符序列替换为相关变量的值。然后将该行以及所做的任何替换输出到输出文件中。

由于每行都要处理模板文件和不同的输出文件,所以在处理下一条记录之前,需要清理和关闭这些文件的文件句柄。

{
        # 从输入文件中读取关联字段
        firstname=$1;
        lastname=$2;
        email=$3;
        title=$4;

        # 设置输出文件名
        outfile=(output NR ".txt");

        # 从模板中读取一行,替换特定字段,
        # 并打印结果到输出文件。
        while ( (getline ln &lt; template) &gt; 0 )
        {
                sub(/{firstname}/,firstname,ln);
                sub(/{lastname}/,lastname,ln);
                sub(/{email}/,email,ln);
                sub(/{title}/,title,ln);
                print(ln) &gt; outfile;
        }

        # 关闭模板和输出文件,继续下一条记录
        close(outfile);
        close(template);
}

你已经完成了! 在命令行上运行该脚本:

awk -f mail_merge.awk proposals.csv

awk -f mail_merge.awk < proposals.csv

你会在当前目录下发现生成的文本文件。

awk 进阶:字频计数

awk 中最强大的功能之一是关联数组,在大多数编程语言中,数组条目通常由数字索引,但在 awk 中,数组由一个键字符串进行引用。你可以从上一节的文件 proposals.txt 中存储一个条目。例如,在一个单一的关联数组中,像这样:

        proposer["firstname"]=$1;
        proposer["lastname"]=$2;
        proposer["email"]=$3;
        proposer["title"]=$4;

这使得文本处理变得非常容易。一个使用了这个概念的简单的程序就是词频计数器。你可以解析一个文件,在每一行中分解出单词(忽略标点符号),对行中的每个单词进行递增计数器,然后输出文本中出现的前 20 个单词。

首先,在一个名为 wordcount.awk 的文件中,将字段分隔符设置为包含空格和标点符号的正则表达式:

BEGIN {
        # ignore 1 or more consecutive occurrences of the characters
        # in the character group below
        FS="[ .,:;()<>{}@!\"'\t]+";
}

接下来,主循环函数将遍历每个字段,忽略任何空字段(如果行末有标点符号,则会出现这种情况),并递增行中单词数:

{
        for (i = 1; i &lt;= NF; i++) {
                if ($i != "") {
                        words[$i]++;
                }
        }
}

最后,处理完文本后,使用 END 函数打印数组的内容,然后利用 awk 的能力,将输出的内容用管道输入 shell 命令,进行数字排序,并打印出 20 个最常出现的单词。

END {
        sort_head = "sort -k2 -nr | head -n 20";
        for (word in words) {
                printf "%s\t%d\n", word, words[word] | sort_head;
        }
        close (sort_head);
}

在这篇文章的早期草稿上运行这个脚本,会产生这样的输出:

[[email protected]]$ awk -f wordcount.awk < awk_article.txt
the     79
awk     41
a       39
and     33
of      32
in      27
to      26
is      25
line    23
for     23
will    22
file    21
we      16
We      15
with    12
which   12
by      12
this    11
output  11
function        11

下一步是什么?

如果你想了解更多关于 awk 编程的知识,我强烈推荐 Dale Dougherty 和 Arnold Robbins 所著的《Sed 和 awk》这本书。

awk 编程进阶的关键之一是掌握“扩展正则表达式”。awk 为你可能已经熟悉的 sed 正则表达式语法提供了几个强大的补充。

另一个学习 awk 的好资源是 GNU awk 用户指南。它有一个完整的 awk 内置函数库的参考资料,以及很多简单和复杂的 awk 脚本的例子。


via: https://opensource.com/article/19/10/advanced-awk

作者:Dave Neary 选题:lujun9972 译者:wxy 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

Nextcloud 是开源软件,我们不提供托管服务,但我们却能从根本上简化注册体验。

我们一直有个列表,上面有几十个 Nextcloud 提供商,然而我听到的最常见的问题,即使是我的技术方面的朋友,也是:

”嗨,Jan,你推荐哪个 Nextcloud 提供商?”

当然,这也是可以理解的。如果你有一长串的供应商,你怎么选择?托管商在附近?名字可爱?标志最大?

每一个使用服务器的去中心化开源解决方案都在努力解决这些:

  • Mastodon 有 joinmastodon.org 来选择社区,但很明显主实例是 mastodon.social。
  • Diaspora 有joindiaspora.com,它也是主实例。
  • Matrix 有 matrix.to,还有一个在 Element.io 的应用(多平台)。
  • WordPress 有 wordpress.com。我不确定是否有提供商能接近它的知名度。
  • PeerTube 有一堆实例,都有不同的技术细节。
  • Pixelfed 在beta.joinpixelfed.org 有一个早期版本的实例选择器,以及在 pixelfed.social 有一个大型实例。
  • 还有更多的去中心化开源应用的例子,这里列出了如何通过终端访问它、设置 Rust 实现、或使其在网络打印机上运行。

这就导致了一些问题:

  • ? 人们不知道该选哪个,有 错失恐惧症 Fear Of Missing Out (FOMO),然后根本不选。这就是选择的悖论!
  • ? 网络并不是真正的去中心化,因为大多数人都在少数服务器上,或者主要是只有一台服务器。

Nextcloud 不存在这些问题。

我们的解决方案:简单注册

这是它是如何工作的:

当你下载我们的手机或桌面应用时,你首先看到的是“登录”或“使用供应商注册”的选择。这是任何专有应用都会做的事情:

 title=

选择“注册”可打开应用中的简易注册页面

 title=

你输入你的电子邮件地址,然后点击“注册”。

输入密码,就可以了! ?

”等一下,这怎么这么简单?“

我知道,对吧?✨

事实上,它甚至比很多集中式的应用更简单,在那里你需要输入你的全名和电话号码,然后点击谷歌的验证码。

这基本上可以归结为:

我们为你选择

而不是面对一个无法判断什么适合你供应商的名单,我们只向你展示一个选择。就好像我是你的朋友一样,我回答了那个关于我推荐哪家供应商的问题。

很好!?

澄清一下:你可以修改供应商,但默认的应该很适合你。目前,它只是地理位置上离你最近的提供商。

除此之外,我们对通过简单注册列出的提供商有一些要求,以确保无论你选择哪一个提供商都能获得良好的用户体验:

  • ? 2 GB 的免费存储空间,而且不仅仅是试用期。
  • ? 一套核心应用。文件、日历、联系人、邮件、通话、任务、笔记。有些供应商甚至提供更多。
  • ? 最新版本,让你始终保持最新的功能、修复和安全更新。

除此之外,我们还提出了一个尊重隐私的流程。当你点击“注册”时,你的邮件不会发送给我们,而是直接发送给你选择的供应商,这将无缝过渡到他们的设置步骤,在那里你选择一个密码。这意味着在 Nextcloud 不会有任何数据泄露给我们,我们甚至不知道你选择的是哪家提供商!

因此,虽然我们提供这项服务,而且它超级容易使用,但我们只做绝对最低限度的数据处理,以连接你与你的理想供应商。

去中心化项目需要简单的注册方式

很多开源软件项目可以从简单注册这样的体验中受益。我们在最初发布的时候写过有关它的文章,我们希望这篇文章能澄清使它成功的设计决策,以便它能被更多项目采用。

去中心化是赋能,但只有当人们即使不知道服务器是什么也能简单注册时,才是真正的革命。

当然,现在也还不完美。比如,如果你已经在 Nextcloud 实例上有了账户,任何一个应用的登录过程都会要求你输入一个服务器地址,而很多人根本不知道那是什么。比如在很多邮件应用中,在这一步会有一个最受欢迎的供应商列表,底部有一个“自定义服务器”的条目。这也可能是一种可能性,但同样带来了系统过于集中的风险,或者让人们对选择什么感到困惑。

所以,我们不断尝试为所有 Nextcloud 桌面和移动应用改进这一点,比如 Nextcloud Talk 或者所有优秀的社区开发的应用。在 Android 上,我们与 DAVx5(Android 上的日历和联系人同步)紧密集成,而且,对于其他 Android 应用,还有一个单点登录库。不幸的是,在 iOS 上,就没有那么容易了,因为应用必须来自同一个开发者才能共享凭证。

如果你想合作解决类似这些有趣的挑战,来加入我们的 Nextcloud 设计团队吧


via: https://opensource.com/article/20/9/decentralization-signup

作者:Jan C. Borchardt 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

eDEX-UI 是一个很酷的科幻电影式的终端仿真器,看起来很酷,有大量包括系统监控在内的选项。让我们来快速看看它提供了什么。

你可能已经知道了大量有趣的 Linux 命令。但你知道当谈到 Linux 命令行时,还有什么有趣的东西吗?那就是终端本身。

是的,终端仿真器(俗称终端)也可以很有趣。还记得 80 年代和 90 年代初的酷炫复古的终端,给你一个复古的终端吗?

那一款深受 《 创:战纪 TRON Legacy 》 电影特效启发的养眼终端感觉怎么样?

在本文中,让我们来看看一款神奇的跨平台终端模拟器,注意口水!

eDEX-UI: 一个很酷的终端仿真器

eDEX-UI 是一款开源的跨平台终端仿真器,它为你呈现了一个科幻风格的外观和一些有用的功能。

它最初的灵感来自于 DEX UI 项目,但该项目已经不再维护。

尽管 eDEX-UI 的重点是外观和未来主义主题的终端,但它也可以作为一个 Linux 系统监控工具。怎么说呢?因为当你在终端中工作时,它可以在侧边栏中显示系统的统计信息。事实上,其开发者提到,他的目标是将其改进为一个可用的系统管理工具。

让我们来看看它还提供了什么,以及如何让它安装到你的电脑上。

eDEX-UI 的特点

eDEX-UI 本质上是一个终端仿真器。你可以像普通终端一样使用它来运行命令和其他任何你可以在终端中做的事情。

它以全屏方式运行,侧边栏和底部面板可以监控系统和网络的统计信息。此外,还有一个用于触摸设备的虚拟键盘。

我做了一个简短的视频,我建议你观看这个视频,看看这个很酷的终端模拟器运行起来是什么样子。播放视频时要打开声音(相信我)。

eDEX-UI 的特点:

  • 多标签
  • 对 curses 的支持
  • 目录查看器,显示当前工作目录的内容
  • 显示系统信息,包括主板信息、网络状态、IP、网络带宽使用情况、CPU 使用情况、CPU 温度、RAM 使用情况等
  • 自定义选项,以改变主题、键盘布局、CSS 注入
  • 可选的声音效果,让你有一种黑客的感觉
  • 跨平台支持(Windows、macOS 和 Linux)

在 Linux 上安装 eDEX

如前所述,它支持所有主要平台,包括 Windows、macOS,当然还有 Linux。

要在 Linux 发行版上安装它,你可以从它的 GitHub 发布部分中抓取 AppImage 文件,或者在包括 AUR 在内的可用资源库中找到它。如果你不知道,我建议你去看一下我们关于在 Linux 中使用 AppImage 的指南。

你可以访问它的 GitHub 页面,如果你喜欢它,可以随时星标他们的仓库。

我对 eDEX-UI 的体验

因为它的科幻风格的外观,我喜欢这个终端仿真器。但是,我发现它对系统资源的消耗相当大。我没有检查我的 Linux 系统的 CPU 温度,但 CPU 消耗肯定很高。

所以,如果你需要它运行在后台或单独的工作空间中(像我这样),你可能要注意这一点。除此以外,它是一个令人印象深刻的工具,拥有目录查看器和系统资源监控等有用的选项。

顺便说一句,如果你想模拟黑客来娱乐一下客人和孩子们,那么可以试试好莱坞工具

你觉得 eDEX-UI 怎么样?你是想试一试,还是觉得太幼稚/过于复杂?


via: https://itsfoss.com/edex-ui-sci-fi-terminal/

作者:Ankush Das 选题:lujun9972 译者:wxy 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

Mu 让你轻松学会如何编写 Python 代码。

在学校里,教孩子们编程是非常流行的。很多年前,在 Apple II 和 Logo) 编程的年代,我学会了创建 乌龟 turtle 绘图。我很喜欢学习如何对虚拟乌龟进行编程,后来也帮助学生进行编程。

大约五年前,我了解了 Python 的 turtle 模块,这是我 Python 之旅的转折点。很快,我开始使用 turtle 模块来教学生 Python 编程基础,包括使用它来创建有趣的图形。

开始使用 Python 的 turtle 模块

在 Linux 或 macOS 电脑上,你只需打开一个终端,输入 python,你就会看到 Python shell。

如果你使用的是 Windows 电脑,则需要先安装 Python,到 Python 网站上下载最新的稳定版。

接下来,用 import turtleimport turtle as tturtle 模块导入 Python 中。然后你就可以开始享受创建乌龟绘图的乐趣了。

认识一下 Mu

在我的 Python 冒险的早期,我使用了 IDLE,它是 Python 的集成开发环境。它比在 Python shell 中输入命令要容易得多,而且我可以编写和保存程序供以后使用。我参加了一些在线课程,阅读了许多关于 Python 编程的优秀书籍。我教老师和学生如何使用 IDLE 创建乌龟绘图。

IDLE 是一个很大的改进,但在克利夫兰的 PyConUS 2019 上,我看到了 Nicholas Tollervey的演讲,这改变了我学习和教授 Python 的方式。Nick 是一位教育家,他创建了 Mu,一个专门为年轻程序员(甚至像我这样的老程序员)设计的 Python 编辑器。Mu 可以安装在 Linux、macOS 和 Windows 上。它很容易使用,并且附带了优秀的文档教程

在 Linux 上,你可以通过命令行安装 Mu。

在 Ubuntu 或 Debian 上:

$ sudo apt install mu-editor

在 Fedora 或类似的地方:

$ sudo dnf install mu

或者,你可以使用 Python 来进行安装。首先,确保你已经安装了 Python 3:

$ python --version

如果失败了,就试试:

$ python3 --version

假设你有 Python 3 或更高版本,使用 Python 包管理器 pip 安装 Mu。

$ python -m pip install mu-editor --user

然后你可以从命令行运行 Mu,或者创建一个快捷方式:

$ python -m pip install shortcut mu-editor --user

树莓派上默认安装了 Mu,这是一个很大的优点。在过去的几年里,我已经向学生介绍了使用树莓派和 Mu 编辑器的 Python 编程。

如何用 Mu 教授 Python

Mu 是向学生展示 Python 入门的好方法。下面是我如何教学生开始使用它。

  1. 打开 Mu 编辑器。

 title=

  1. 输入 import turtle 导入 turtle 模块,就可以让乌龟动起来了。我的第一课是用 Python 代码画一个简单的正方形。

 title=

  1. 保存这个程序,确保文件名以 .py 结尾。

 title=

  1. 运行程序。哪怕是运行这样一个简单的程序都会让人兴奋,看到你写的程序的图形输出是很有趣的。

 title=

超越基础知识

在上完这节简单的课后,我讲解了有一些方法可以简化和扩展学生所学的基础知识。一是创建一个更简单的 turtle 对象,import turtle as t。然后我介绍了一个 for 循环,用另外一种 turtle 方法画一个正方形。

 title=

接下来,我将展示如何创建一个 my_square 函数,作为另一种绘制正方形的方法。

 title=

后来,我通过介绍其他 turtle 模块方法,包括 penuppendownpencolor 来扩展这个概念。很快,我的学生们就开始开发更复杂的程序,并对其进行迭代。

 title=

我一直渴望学习,我很想知道你在学校或家里是如何教授 Python 的。请在评论中分享你的经验。


via: https://opensource.com/article/20/9/teach-python-mu

作者:Don Watkins 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

快照 snapshot 是 Btrfs 的一个有趣的功能。快照是一个子卷的副本。生成快照是立即的。然而,生成快照与执行 rsynccp 不同,快照并不是一创建就会占用空间。

编者注:来自 BTRFS Wiki:快照简单的来说就是一个子卷,它使用 Btrfs 的 COW 功能与其他子卷共享其数据(和元数据)。

占用的空间将随着原始子卷或快照本身(如果它是可写的)的数据变化而增加。子卷中已添加/修改的文件和已删除的文件仍然存在于快照中。这是一种方便的备份方式。

使用快照进行备份

快照驻留在子卷所在的同一磁盘上。你可以像浏览普通目录一样浏览它,并按照生成快照时的状态恢复文件的副本。顺便说一下,在快照子卷的同一磁盘上生成快照并不是一个理想的备份策略:如果硬盘坏了,快照也会丢失。快照的一个有趣的功能是可以将快照发送到另一个位置。快照可以被发送到外部硬盘或通过 SSH 发送到远程系统(目标文件系统也需要格式化为 Btrfs)。要实现这个,需要使用命令 btrfs sendbtrfs receive

生成快照

要使用 btrfs sendbtrfs receive 命令,重要的是要将快照创建为只读,而快照默认是可写的。

下面的命令将对 /home 子卷进行快照。请注意 -r 标志代表只读。

sudo btrfs subvolume snapshot -r /home /.snapshots/home-day1

快照的名称可以是当前日期,而不是 day1,比如 home-$(date +%Y%m%d)。快照看起来像普通的子目录。你可以把它们放在任何你喜欢的地方。目录 /.snapshots 可能是一个不错的选择,以保持它们的整洁和避免混淆。

编者注:快照不会对自己进行递归快照。如果你创建了一个子卷的快照,子卷所包含的每一个子卷或快照都会被映射到快照里面的一个同名的空目录。

使用 btrfs send 进行备份

在本例中,U 盘中的目标 Btrfs 卷被挂载为 /run/media/user/mydisk/bk。发送快照到目标卷的命令是:

sudo btrfs send /.snapshots/home-day1 | sudo btrfs receive /run/media/user/mydisk/bk

这被称为初始启动,它相当于一个完整的备份。这个任务需要一些时间,取决于 /home 目录的大小。显然,后续的增量发送只需要更短的时间。

增量备份

快照的另一个有用的功能是能够以增量的方式执行发送任务。让我们再来生成一个快照。

sudo btrfs subvolume snapshot -r /home /.snapshots/home-day2

为了执行增量发送任务,需要指定上一个快照作为基础,并且这个快照必须存在于源文件和目标文件中。请注意 -p 选项。

sudo btrfs send -p /.snapshot/home-day1 /.snapshot/home-day2 | sudo btrfs receive /run/media/user/mydisk/bk

再来一次(一天之后):

sudo btrfs subvolume snapshot -r /home /.snapshots/home-day3

sudo btrfs send -p /.snapshot/home-day2 /.snapshot/home-day3 | sudo btrfs receive /run/media/user/mydisk/bk

清理

操作完成后,你可以保留快照。但如果你每天都执行这些操作,你可能最终会有很多快照。这可能会导致混乱,并可能会在你的磁盘上使用大量的空间。因此,如果你认为你不再需要一些快照,删除它们是一个很好的建议。

请记住,为了执行增量发送,你至少需要最后一个快照。这个快照必须存在于源文件和目标文件中。

sudo btrfs subvolume delete /.snapshot/home-day1
sudo btrfs subvolume delete /.snapshot/home-day2
sudo btrfs subvolume delete /run/media/user/mydisk/bk/home-day1
sudo btrfs subvolume delete /run/media/user/mydisk/bk/home-day2

注意:第 3 天的快照被保存在源文件和目标文件中。这样,明天(第 4 天),你就可以执行新的增量 btrfs send

最后的建议是,如果 U 盘的空间很大,可以考虑在目标盘中保留多个快照,而在源盘中只保留最后一个快照。


via: https://fedoramagazine.org/btrfs-snapshots-backup-incremental/

作者:Alessio 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

有了 Jupyter、PyHamcrest,用一点测试的代码把它们连在一起,你就可以教任何适用于单元测试的 Python 内容。

关于 Ruby 社区的一些事情一直让我印象深刻,其中两个例子是对测试的承诺和对易于上手的强调。这两方面最好的例子是 Ruby Koans,在这里你可以通过修复测试来学习 Ruby。

要是我们能把这些神奇的工具也用于 Python,我们应该可以做得更好。是的,使用 Jupyter NotebookPyHamcrest,再加上一点类似于胶带的粘合代码,我们可以做出一个包括教学、可工作的代码和需要修复的代码的教程。

首先,需要一些“胶布”。通常,你会使用一些漂亮的命令行测试器来做测试,比如 pytestvirtue。通常,你甚至不会直接运行它。你使用像 toxnox 这样的工具来运行它。然而,对于 Jupyter 来说,你需要写一小段粘合代码,可以直接在其中运行测试。

幸运的是,这个代码又短又简单:

import unittest

def run_test(klass):
    suite = unittest.TestLoader().loadTestsFromTestCase(klass)
    unittest.TextTestRunner(verbosity=2).run(suite)
    return klass

现在,装备已经就绪,可以进行第一次练习了。

在教学中,从一个简单的练习开始,建立信心总是一个好主意。

那么,让我们来修复一个非常简单的测试:

@run_test
class TestNumbers(unittest.TestCase):
   
    def test_equality(self):
        expected_value = 3 # 只改这一行
        self.assertEqual(1+1, expected_value)
    test_equality (__main__.TestNumbers) ... FAIL
   
    ======================================================================
    FAIL: test_equality (__main__.TestNumbers)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-7-5ebe25bc00f3>", line 6, in test_equality
        self.assertEqual(1+1, expected_value)
    AssertionError: 2 != 3
   
    ----------------------------------------------------------------------
    Ran 1 test in 0.002s
   
    FAILED (failures=1)

“只改这一行” 对学生来说是一个有用的标记。它准确地表明了需要修改的内容。否则,学生可以通过将第一行改为 return 来修复测试。

在这种情况下,修复很容易:

@run_test
class TestNumbers(unittest.TestCase):
   
    def test_equality(self):
        expected_value = 2 # 修复后的代码行
        self.assertEqual(1+1, expected_value)
    test_equality (__main__.TestNumbers) ... ok
   
    ----------------------------------------------------------------------
    Ran 1 test in 0.002s
   
    OK

然而,很快,unittest 库的原生断言将被证明是不够的。在 pytest 中,通过重写 assert 中的字节码来解决这个问题,使其具有神奇的属性和各种启发式方法。但这在 Jupyter notebook 中就不容易实现了。是时候挖出一个好的断言库了:PyHamcrest。

from hamcrest import *
@run_test
class TestList(unittest.TestCase):
   
    def test_equality(self):
        things = [1,
                  5, # 只改这一行
                  3]
        assert_that(things, has_items(1, 2, 3))
    test_equality (__main__.TestList) ... FAIL
   
    ======================================================================
    FAIL: test_equality (__main__.TestList)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-11-96c91225ee7d>", line 8, in test_equality
        assert_that(things, has_items(1, 2, 3))
    AssertionError:
    Expected: (a sequence containing <1> and a sequence containing <2> and a sequence containing <3>)
         but: a sequence containing <2> was <[1, 5, 3]>
   
   
    ----------------------------------------------------------------------
    Ran 1 test in 0.004s
   
    FAILED (failures=1)

PyHamcrest 不仅擅长灵活的断言,它还擅长清晰的错误信息。正因为如此,问题就显而易见了。[1, 5, 3] 不包含 2,而且看起来很丑:

@run_test
class TestList(unittest.TestCase):
   
    def test_equality(self):
        things = [1,
                  2, # 改完的行
                  3]
        assert_that(things, has_items(1, 2, 3))
    test_equality (__main__.TestList) ... ok
   
    ----------------------------------------------------------------------
    Ran 1 test in 0.001s
   
    OK

使用 Jupyter、PyHamcrest 和一点测试的粘合代码,你可以教授任何适用于单元测试的 Python 主题。

例如,下面可以帮助展示 Python 从字符串中去掉空白的不同方法之间的差异。

source_string = "  hello world  "

@run_test
class TestList(unittest.TestCase):
   
    # 这是个赠品:它可以工作!
    def test_complete_strip(self):
        result = source_string.strip()
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world")))

    def test_start_strip(self):
        result = source_string # 只改这一行
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world  ")))

    def test_end_strip(self):
        result = source_string # 只改这一行
        assert_that(result,
                   all_of(starts_with("  hello"), ends_with("world")))
    test_complete_strip (__main__.TestList) ... ok
    test_end_strip (__main__.TestList) ... FAIL
    test_start_strip (__main__.TestList) ... FAIL
   
    ======================================================================
    FAIL: test_end_strip (__main__.TestList)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-16-3db7465bd5bf>", line 19, in test_end_strip
        assert_that(result,
    AssertionError:
    Expected: (a string starting with '  hello' and a string ending with 'world')
         but: a string ending with 'world' was '  hello world  '
   
   
    ======================================================================
    FAIL: test_start_strip (__main__.TestList)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-16-3db7465bd5bf>", line 14, in test_start_strip
        assert_that(result,
    AssertionError:
    Expected: (a string starting with 'hello' and a string ending with 'world  ')
         but: a string starting with 'hello' was '  hello world  '
   
   
    ----------------------------------------------------------------------
    Ran 3 tests in 0.006s
   
    FAILED (failures=2)

理想情况下,学生们会意识到 .lstrip().rstrip() 这两个方法可以满足他们的需要。但如果他们不这样做,而是试图到处使用 .strip() 的话:

source_string = "  hello world  "

@run_test
class TestList(unittest.TestCase):
   
    # 这是个赠品:它可以工作!
    def test_complete_strip(self):
        result = source_string.strip()
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world")))

    def test_start_strip(self):
        result = source_string.strip() # 改完的行
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world  ")))

    def test_end_strip(self):
        result = source_string.strip() # 改完的行
        assert_that(result,
                   all_of(starts_with("  hello"), ends_with("world")))
    test_complete_strip (__main__.TestList) ... ok
    test_end_strip (__main__.TestList) ... FAIL
    test_start_strip (__main__.TestList) ... FAIL
   
    ======================================================================
    FAIL: test_end_strip (__main__.TestList)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-17-6f9cfa1a997f>", line 19, in test_end_strip
        assert_that(result,
    AssertionError:
    Expected: (a string starting with '  hello' and a string ending with 'world')
         but: a string starting with '  hello' was 'hello world'
   
   
    ======================================================================
    FAIL: test_start_strip (__main__.TestList)
    ----------------------------------------------------------------------
    Traceback (most recent call last):
      File "<ipython-input-17-6f9cfa1a997f>", line 14, in test_start_strip
        assert_that(result,
    AssertionError:
    Expected: (a string starting with 'hello' and a string ending with 'world  ')
         but: a string ending with 'world  ' was 'hello world'
   
   
    ----------------------------------------------------------------------
    Ran 3 tests in 0.007s
   
    FAILED (failures=2)

他们会得到一个不同的错误信息,显示去除了过多的空白:

source_string = "  hello world  "

@run_test
class TestList(unittest.TestCase):
   
    # 这是个赠品:它可以工作!
    def test_complete_strip(self):
        result = source_string.strip()
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world")))

    def test_start_strip(self):
        result = source_string.lstrip() # Fixed this line
        assert_that(result,
                   all_of(starts_with("hello"), ends_with("world  ")))

    def test_end_strip(self):
        result = source_string.rstrip() # Fixed this line
        assert_that(result,
                   all_of(starts_with("  hello"), ends_with("world")))
    test_complete_strip (__main__.TestList) ... ok
    test_end_strip (__main__.TestList) ... ok
    test_start_strip (__main__.TestList) ... ok
   
    ----------------------------------------------------------------------
    Ran 3 tests in 0.005s
   
    OK

在一个比较真实的教程中,会有更多的例子和更多的解释。这种使用 Jupyter Notebook 的技巧,有的例子可以用,有的例子需要修正,可以用于实时教学,可以用于视频课,甚至,可以用更多的其它零散用途,让学生自己完成一个教程。

现在就去分享你的知识吧!


via: https://opensource.com/article/20/9/teach-python-jupyter

作者:Moshe Zadka 选题:lujun9972 译者:wxy 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出