分类技术下的文章

用一个开源工具实现多线程 Python 程序的可视化

Tian Gao 发布于 2021-03-31
另请参阅: 软件开发,python, 可视化
评论

VizTracer 可以跟踪并发的 Python 程序，以帮助记录、调试和剖析。

title=

并发是现代编程中必不可少的一部分，因为我们有多个核心，有许多需要协作的任务。然而，当并发程序不按顺序运行时，就很难理解它们。对于工程师来说，在这些程序中发现 bug 和性能问题不像在单线程、单任务程序中那么容易。

在 Python 中，你有多种并发的选择。最常见的可能是用 threading 模块的多线程，用subprocess 和 multiprocessing 模块的多进程，以及最近用 asyncio 模块提供的 async 语法。在 VizTracer 之前，缺乏分析使用了这些技术程序的工具。

VizTracer 是一个追踪和可视化 Python 程序的工具，对日志、调试和剖析很有帮助。尽管它对单线程、单任务程序很好用，但它在并发程序中的实用性是它的独特之处。

尝试一个简单的任务

从一个简单的练习任务开始：计算出一个数组中的整数是否是质数并返回一个布尔数组。下面是一个简单的解决方案：

def is_prime(n):
    for i in range(2, n):
        if n % i == 0:
            return False
    return True

def get_prime_arr(arr):
    return [is_prime(elem) for elem in arr]

试着用 VizTracer 以单线程方式正常运行它：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for _ in range(6000)]
    get_prime_arr(num_arr)

viztracer my_program.py

title=

调用堆栈报告显示，耗时约 140ms，大部分时间花在 get_prime_arr 上。

title=

这只是在数组中的元素上一遍又一遍地执行 is_prime 函数。

这是你所期望的，而且它并不有趣（如果你了解 VizTracer 的话）。

试试多线程程序

试着用多线程程序来做：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for i in range(2000)]
    thread1 = Thread(target=get_prime_arr, args=(num_arr,))
    thread2 = Thread(target=get_prime_arr, args=(num_arr,))
    thread3 = Thread(target=get_prime_arr, args=(num_arr,))

    thread1.start()
    thread2.start()
    thread3.start()

    thread1.join()
    thread2.join()
    thread3.join()

为了配合单线程程序的工作负载，这就为三个线程使用了一个 2000 元素的数组，模拟了三个线程共享任务的情况。

title=

如果你熟悉 Python 的全局解释器锁（GIL），就会想到，它不会再快了。由于开销太大，花了 140ms 多一点的时间。不过，你可以观察到多线程的并发性：

title=

当一个线程在工作（执行多个 is_prime 函数）时，另一个线程被冻结了（一个 is_prime 函数）；后来，它们进行了切换。这是由于 GIL 的原因，这也是 Python 没有真正的多线程的原因。它可以实现并发，但不能实现并行。

用多进程试试

要想实现并行，办法就是 multiprocessing 库。下面是另一个使用 multiprocessing 的版本：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for _ in range(2000)]
   
    p1 = Process(target=get_prime_arr, args=(num_arr,))
    p2 = Process(target=get_prime_arr, args=(num_arr,))
    p3 = Process(target=get_prime_arr, args=(num_arr,))

    p1.start()
    p2.start()
    p3.start()

    p1.join()
    p2.join()
    p3.join()

要使用 VizTracer 运行它，你需要一个额外的参数：

viztracer --log_multiprocess my_program.py

title=

整个程序在 50ms 多一点的时间内完成，实际任务在 50ms 之前完成。程序的速度大概提高了三倍。

为了和多线程版本进行比较，这里是多进程版本：

title=

在没有 GIL 的情况下，多个进程可以实现并行，也就是多个 is_prime 函数可以并行执行。

不过，Python 的多线程也不是一无是处。例如，对于计算密集型和 I/O 密集型程序，你可以用睡眠来伪造一个 I/O 绑定的任务：

def io_task():
    time.sleep(0.01)

在单线程、单任务程序中试试：

if __name__ == "__main__":
    for _ in range(3):
        io_task()

title=

整个程序用了 30ms 左右，没什么特别的。

现在使用多线程：

if __name__ == "__main__":
    thread1 = Thread(target=io_task)
    thread2 = Thread(target=io_task)
    thread3 = Thread(target=io_task)

    thread1.start()
    thread2.start()
    thread3.start()

    thread1.join()
    thread2.join()
    thread3.join()

title=

程序耗时 10ms，很明显三个线程是并发工作的，这提高了整体性能。

用 asyncio 试试

Python 正在尝试引入另一个有趣的功能，叫做异步编程。你可以制作一个异步版的任务：

import asyncio

async def io_task():
    await asyncio.sleep(0.01)

async def main():
    t1 = asyncio.create_task(io_task())
    t2 = asyncio.create_task(io_task())
    t3 = asyncio.create_task(io_task())

    await t1
    await t2
    await t3

if __name__ == "__main__":
    asyncio.run(main())

由于 asyncio 从字面上看是一个带有任务的单线程调度器，你可以直接在它上使用 VizTracer：

title=

依然花了 10ms，但显示的大部分函数都是底层结构，这可能不是用户感兴趣的。为了解决这个问题，可以使用 --log_async 来分离真正的任务：

viztracer --log_async my_program.py

title=

现在，用户任务更加清晰了。在大部分时间里，没有任务在运行（因为它唯一做的事情就是睡觉）。有趣的部分是这里：

title=

这显示了任务的创建和执行时间。Task-1 是 main() 协程，创建了其他任务。Task-2、Task-3、Task-4 执行 io_task 和 sleep 然后等待唤醒。如图所示，因为是单线程程序，所以任务之间没有重叠，VizTracer 这样可视化是为了让它更容易理解。

为了让它更有趣，可以在任务中添加一个 time.sleep 的调用来阻止异步循环：

async def io_task():
    time.sleep(0.01)
    await asyncio.sleep(0.01)

title=

程序耗时更长（40ms），任务填补了异步调度器中的空白。

这个功能对于诊断异步程序的行为和性能问题非常有帮助。

看看 VizTracer 发生了什么？

通过 VizTracer，你可以在时间轴上查看程序的进展情况，而不是从复杂的日志中想象。这有助于你更好地理解你的并发程序。

VizTracer 是开源的，在 Apache 2.0 许可证下发布，支持所有常见的操作系统（Linux、macOS 和 Windows）。你可以在 VizTracer 的 GitHub 仓库中了解更多关于它的功能和访问它的源代码。

via: https://opensource.com/article/21/3/python-viztracer

作者：Tian Gao 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

学习如何用 C 语言来进行文件输入输出操作

Jim Hall 发布于 2021-03-31
另请参阅: 软件开发,C语言, I/O, 读写
评论

理解 I/O 有助于提升你的效率。

title=

如果你打算学习 C 语言的输入、输出，可以从 stdio.h 包含文件开始。正如你从其名字中猜到的，该文件定义了所有的标准（“std”）的输入和输出（“io”）函数。

大多数人学习的第一个 stdio.h 的函数是打印格式化输出的 printf 函数。或者是用来打印一个字符串的 puts 函数。这些函数非常有用，可以将信息打印给用户，但是如果你想做更多的事情，则需要了解其他函数。

你可以通过编写一个常见 Linux 命令的副本来了解其中一些功能和方法。cp 命令主要用于复制文件。如果你查看 cp 的帮助手册，可以看到 cp 命令支持非常多的参数和选项。但最简单的功能，就是复制文件：

cp infile outfile

你只需使用一些读写文件的基本函数，就可以用 C 语言来自己实现 cp 命令。

一次读写一个字符

你可以使用 fgetc 和 fputc 函数轻松地进行输入输出。这些函数一次只读写一个字符。该用法被定义在 stdio.h，并且这也很浅显易懂：fgetc 是从文件中读取一个字符，fputc 是将一个字符保存到文件中。

int fgetc(FILE *stream);
int fputc(int c, FILE *stream);

编写 cp 命令需要访问文件。在 C 语言中，你使用 fopen 函数打开一个文件，该函数需要两个参数：文件名和打开文件的模式。模式通常是从文件读取（r）或向文件写入（w）。打开文件的方式也有其他选项，但是对于本教程而言，仅关注于读写操作。

因此，将一个文件复制到另一个文件就变成了打开源文件和目标文件，接着，不断从第一个文件读取字符，然后将该字符写入第二个文件。fgetc 函数返回从输入文件中读取的单个字符，或者当文件完成后返回文件结束标记（EOF）。一旦读取到 EOF，你就完成了复制操作，就可以关闭两个文件。该代码如下所示：

  do {
    ch = fgetc(infile);
    if (ch != EOF) {
      fputc(ch, outfile);
    }
  } while (ch != EOF);

你可以使用此循环编写自己的 cp 程序，以使用 fgetc 和 fputc 函数一次读写一个字符。cp.c 源代码如下所示：

#include <stdio.h>

int
main(int argc, char **argv)
{
  FILE *infile;
  FILE *outfile;
  int ch;

  /* parse the command line */

  /* usage: cp infile outfile */

  if (argc != 3) {
    fprintf(stderr, "Incorrect usage\n");
    fprintf(stderr, "Usage: cp infile outfile\n");
    return 1;
  }

  /* open the input file */

  infile = fopen(argv[1], "r");
  if (infile == NULL) {
    fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);
    return 2;
  }

  /* open the output file */

  outfile = fopen(argv[2], "w");
  if (outfile == NULL) {
    fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);
    fclose(infile);
    return 3;
  }

  /* copy one file to the other */

  /* use fgetc and fputc */

  do {
    ch = fgetc(infile);
    if (ch != EOF) {
      fputc(ch, outfile);
    }
  } while (ch != EOF);

  /* done */

  fclose(infile);
  fclose(outfile);

  return 0;
}

你可以使用 gcc 来将 cp.c 文件编译成一个可执行文件：

$ gcc -Wall -o cp cp.c

-o cp 选项告诉编译器将编译后的程序保存到 cp 文件中。-Wall 选项告诉编译器提示所有可能的警告，如果你没有看到任何警告，则表示一切正常。

读写数据块

通过每次读写一个字符来实现自己的 cp 命令可以完成这项工作，但这并不是很快。在复制“日常”文件（例如文档和文本文件）时，你可能不会注意到，但是在复制大型文件或通过网络复制文件时，你才会注意到差异。每次处理一个字符需要大量的开销。

实现此 cp 命令的一种更好的方法是，读取一块的输入数据到内存中（称为缓存），然后将该数据集合写入到第二个文件。这样做的速度要快得多，因为程序可以一次读取更多的数据，这就就减少了从文件中“读取”的次数。

你可以使用 fread 函数将文件读入一个变量中。这个函数有几个参数：将数据读入的数组或内存缓冲区的指针（ptr），要读取的最小对象的大小（size），要读取对象的个数（nmemb），以及要读取的文件（stream）：

size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream);

不同的选项为更高级的文件输入和输出（例如，读取和写入具有特定数据结构的文件）提供了很大的灵活性。但是，在从一个文件读取数据并将数据写入另一个文件的简单情况下，可以使用一个由字符数组组成的缓冲区。

你可以使用 fwrite 函数将缓冲区中的数据写入到另一个文件。这使用了与 fread 函数有相似的一组选项：要从中读取数据的数组或内存缓冲区的指针，要读取的最小对象的大小，要读取对象的个数以及要写入的文件。

size_t fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream);

如果程序将文件读入缓冲区，然后将该缓冲区写入另一个文件，则数组（ptr）可以是固定大小的数组。例如，你可以使用长度为 200 个字符的字符数组作为缓冲区。

在该假设下，你需要更改 cp 程序中的循环，以将数据从文件读取到缓冲区中，然后将该缓冲区写入另一个文件中：

  while (!feof(infile)) {
    buffer_length = fread(buffer, sizeof(char), 200, infile);
    fwrite(buffer, sizeof(char), buffer_length, outfile);
  }

这是更新后的 cp 程序的完整源代码，该程序现在使用缓冲区读取和写入数据：

#include <stdio.h>

int
main(int argc, char **argv)
{
  FILE *infile;
  FILE *outfile;
  char buffer[200];
  size_t buffer_length;

  /* parse the command line */

  /* usage: cp infile outfile */

  if (argc != 3) {
    fprintf(stderr, "Incorrect usage\n");
    fprintf(stderr, "Usage: cp infile outfile\n");
    return 1;
  }

  /* open the input file */

  infile = fopen(argv[1], "r");
  if (infile == NULL) {
    fprintf(stderr, "Cannot open file for reading: %s\n", argv[1]);
    return 2;
  }

  /* open the output file */

  outfile = fopen(argv[2], "w");
  if (outfile == NULL) {
    fprintf(stderr, "Cannot open file for writing: %s\n", argv[2]);
    fclose(infile);
    return 3;
  }

  /* copy one file to the other */

  /* use fread and fwrite */

  while (!feof(infile)) {
    buffer_length = fread(buffer, sizeof(char), 200, infile);
    fwrite(buffer, sizeof(char), buffer_length, outfile);
  }

  /* done */

  fclose(infile);
  fclose(outfile);

  return 0;
}

由于你想将此程序与其他程序进行比较，因此请将此源代码另存为 cp2.c。你可以使用 gcc 编译程序：

$ gcc -Wall -o cp2 cp2.c

和之前一样，-o cp2 选项告诉编译器将编译后的程序保存到 cp2 程序文件中。-Wall 选项告诉编译器打开所有警告。如果你没有看到任何警告，则表示一切正常。

是的，这真的更快了

使用缓冲区读取和写入数据是实现此版本 cp 程序更好的方法。由于它可以一次将文件的多个数据读取到内存中，因此该程序不需要频繁读取数据。在小文件中，你可能没有注意到使用这两种方案的区别，但是如果你需要复制大文件，或者在较慢的介质（例如通过网络连接）上复制数据时，会发现明显的差距。

我使用 Linux time 命令进行了比较。此命令可以运行另一个程序，然后告诉你该程序花费了多长时间。对于我的测试，我希望了解所花费时间的差距，因此我复制了系统上的 628 MB CD-ROM 镜像文件。

我首先使用标准的 Linux 的 cp 命令复制了映像文件，以查看所需多长时间。一开始通过运行 Linux 的 cp 命令，同时我还避免使用 Linux 内置的文件缓存系统，使其不会给程序带来误导性能提升的可能性。使用 Linux cp 进行的测试，总计花费不到一秒钟的时间：

$ time cp FD13LIVE.iso tmpfile

real    0m0.040s
user    0m0.001s
sys     0m0.003s

运行我自己实现的 cp 命令版本，复制同一文件要花费更长的时间。每次读写一个字符则花了将近五秒钟来复制文件：

$ time ./cp FD13LIVE.iso tmpfile

real    0m4.823s
user    0m4.100s
sys     0m0.571s

从输入读取数据到缓冲区，然后将该缓冲区写入输出文件则要快得多。使用此方法复制文件花不到一秒钟：

$ time ./cp2 FD13LIVE.iso tmpfile

real    0m0.944s
user    0m0.224s
sys     0m0.608s

我演示的 cp 程序使用了 200 个字符大小的缓冲区。我确信如果一次将更多文件数据读入内存，该程序将运行得更快。但是，通过这种比较，即使只有 200 个字符的缓冲区，你也已经看到了性能上的巨大差异。

via: https://opensource.com/article/21/3/file-io-c

作者：Jim Hall 选题：lujun9972 译者：wyxplus 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

如何在 WebAssembly 中写 “Hello World”？

Stephan Avenwedde 发布于 2021-03-30
另请参阅: 软件开发,WebAssembly
评论

通过这个分步教程，开始用人类可读的文本编写 WebAssembly。

title=

WebAssembly 是一种字节码格式，几乎所有的浏览器都可以将它编译成其宿主操作系统的机器代码。除了 JavaScript 和 WebGL 之外，WebAssembly 还满足了将应用移植到浏览器中以实现平台独立的需求。作为 C++ 和 Rust 的编译目标，WebAssembly 使 Web 浏览器能够以接近原生的速度执行代码。

当谈论 WebAssembly 应用时，你必须区分三种状态：

源码（如 C++ 或 Rust）： 你有一个用兼容语言编写的应用，你想把它在浏览器中执行。
WebAssembly 字节码： 你选择 WebAssembly 字节码作为编译目标。最后，你得到一个 .wasm 文件。
机器码（opcode）： 浏览器加载 .wasm 文件，并将其编译成主机系统的相应机器码。

WebAssembly 还有一种文本格式，用人类可读的文本表示二进制格式。为了简单起见，我将其称为 WASM-text。WASM-text 可以比作高级汇编语言。当然，你不会基于 WASM-text 来编写一个完整的应用，但了解它的底层工作原理是很好的（特别是对于调试和性能优化）。

本文将指导你在 WASM-text 中创建经典的 “Hello World” 程序。

创建 .wat 文件

WASM-text 文件通常以 .wat 结尾。第一步创建一个名为 helloworld.wat 的空文本文件，用你最喜欢的文本编辑器打开它，然后粘贴进去：

(module
    ;; 从 JavaScript 命名空间导入
    (import  "console"  "log" (func  $log (param  i32  i32))) ;; 导入 log 函数
    (import  "js"  "mem" (memory  1)) ;; 导入 1 页 内存（64kb）
   
    ;; 我们的模块的数据段
    (data (i32.const 0) "Hello World from WebAssembly!")
   
    ;; 函数声明：导出 helloWorld()，无参数
    (func (export  "helloWorld")
        i32.const 0  ;; 传递偏移 0 到 log
        i32.const 29  ;; 传递长度 29 到 log（示例文本的字符串长度）
        call  $log
        )
)

WASM-text 格式是基于 S 表达式的。为了实现交互，JavaScript 函数用 import 语句导入，WebAssembly 函数用 export 语句导出。在这个例子中，从 console 模块中导入 log 函数，它需要两个类型为 i32 的参数作为输入，以及一页内存（64KB）来存储字符串。

字符串将被写入偏移量为 0 的数据段。数据段是你的内存的叠加投影 overlay ，内存是在 JavaScript 部分分配的。

函数用关键字 func 标记。当进入函数时，栈是空的。在调用另一个函数之前，函数参数会被压入栈中（这里是偏移量和长度）（见 call $log）。当一个函数返回一个 f32 类型时（例如），当离开函数时，一个 f32 变量必须保留在栈中（但在本例中不是这样）。

创建 .wasm 文件

WASM-text 和 WebAssembly 字节码是 1:1 对应的，这意味着你可以将 WASM-text 转换成字节码（反之亦然）。你已经有了 WASM-text，现在将创建字节码。

转换可以通过 WebAssembly Binary Toolkit（WABT）来完成。从该链接克隆仓库，并按照安装说明进行安装。

建立工具链后，打开控制台并输入以下内容，将 WASM-text 转换为字节码：

wat2wasm helloworld.wat -o helloworld.wasm

你也可以用以下方法将字节码转换为 WASM-text：

wasm2wat helloworld.wasm -o helloworld_reverse.wat

一个从 .wasm 文件创建的 .wat 文件不包括任何函数或参数名称。默认情况下，WebAssembly 用它们的索引来识别函数和参数。

编译 .wasm 文件

目前，WebAssembly 只与 JavaScript 共存，所以你必须编写一个简短的脚本来加载和编译 .wasm 文件并进行函数调用。你还需要在 WebAssembly 模块中定义你要导入的函数。

创建一个空的文本文件，并将其命名为 helloworld.html，然后打开你喜欢的文本编辑器并粘贴进去：

<!DOCTYPE  html>
<html>
  <head>
    <meta  charset="utf-8">
    <title>Simple template</title>
  </head>
  <body>
    <script>
   
      var memory = new  WebAssembly.Memory({initial:1});

      function  consoleLogString(offset, length) {
        var  bytes = new  Uint8Array(memory.buffer, offset, length);
        var  string = new  TextDecoder('utf8').decode(bytes);
        console.log(string);
      };

      var  importObject = {
        console: {
          log:  consoleLogString
        },
        js : {
          mem:  memory
        }
      };
     
      WebAssembly.instantiateStreaming(fetch('helloworld.wasm'), importObject)
      .then(obj  => {
        obj.instance.exports.helloWorld();
      });
     
    </script>
  </body>
</html>

WebAssembly.Memory(...) 方法返回一个大小为 64KB 的内存页。函数 consoleLogString 根据长度和偏移量从该内存页读取一个字符串。这两个对象作为 importObject 的一部分传递给你的 WebAssembly 模块。

在你运行这个例子之前，你可能必须允许 Firefox 从这个目录中访问文件，在地址栏输入 about:config，并将 privacy.file_unique_origin 设置为 true：

title=

注意： 这样做会使你容易受到 CVE-2019-11730 安全问题的影响。

现在，在 Firefox 中打开 helloworld.html，按下 Ctrl+K 打开开发者控制台。

title=

了解更多

这个 Hello World 的例子只是 MDN 的了解 WebAssembly 文本格式文档中的教程之一。如果你想了解更多关于 WebAssembly 的知识以及它的工作原理，可以看看这些文档。

via: https://opensource.com/article/21/3/hello-world-webassembly

作者：Stephan Avenwedde 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

2021 年要尝试的 3 个新的 Java 工具

Daniel Oh 发布于 2021-03-30
另请参阅: 软件开发,容器, Java, 微服务
评论

通过这三个工具和框架，为你的企业级 Java 应用和你的职业生涯提供助力。

title=

尽管在 Kubernetes 上广泛使用 Python、Go 和 Node.js 实现人工智能和机器学习应用以及无服务函数，但 Java 技术仍然在开发企业应用中发挥着关键作用。根据开发者经济学的数据，在 2020 年第三季度，全球有 800 万名企业 Java 开发者。

虽然这门语言已经存在了超过 25 年，但 Java 世界中总是有新的趋势、工具和框架，可以为你的应用和你的职业生涯赋能。

绝大多数 Java 框架都是为具有动态行为的长时间运行的进程而设计的，这些动态行为用于运行可变的应用服务器，例如物理服务器和虚拟机。自从 Kubernetes 容器在 2014 年发布以来，情况已经发生了变化。在 Kubernetes 上使用 Java 应用的最大问题是通过减少内存占用、加快启动和响应时间以及减少文件大小来优化应用性能。

3 个值得考虑的新 Java 框架和工具

Java 开发人员也一直在寻找更简便的方法，将闪亮的新开源工具和项目集成到他们的 Java 应用和日常工作中。这极大地提高了开发效率，并激励更多的企业和个人开发者继续使用 Java 栈。

当试图满足上述企业 Java 生态系统的期望时，这三个新的 Java 框架和工具值得你关注。

1、Quarkus

Quarkus 旨在以惊人的快速启动时间、超低的常驻内存集（RSS）和高密度内存利用率，在 Kubernetes 等容器编排平台中开发云原生的微服务和无服务。根据 JRebel 的第九届全球 Java 开发者生产力年度报告，Java 开发者对 Quarkus 的使用率从不到 1% 上升到 6%，Micronaut 和 Vert.x 均从去年的 1% 左右分别增长到 4% 和 2%。

2、Eclipse JKube

Eclipse JKube 使 Java 开发者能够使用 Docker、Jib 或 Source-To-Image 构建策略，基于云原生 Java 应用构建容器镜像。它还能在编译时生成 Kubernetes 和 OpenShift 清单，并改善开发人员对调试、观察和日志工具的体验。

3、MicroProfile

MicroProfile 解决了与优化企业 Java 的微服务架构有关的最大问题，而无需采用新的框架或重构整个应用。此外，MicroProfile 规范（即 Health、Open Tracing、Open API、Fault Tolerance、Metrics、Config）继续与 Jakarta EE 的实现保持一致。

总结

很难说哪个 Java 框架或工具是企业 Java 开发人员实现的最佳选择。只要 Java 栈还有改进的空间，并能加速企业业务的发展，我们就可以期待新的框架、工具和平台的出现，比如上面的三个。花点时间看看它们是否能在 2021 年改善你的企业 Java 应用。

via: https://opensource.com/article/21/3/enterprise-java-tools

作者：Daniel Oh 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

练习使用 Linux 的 grep 命令

Seth Kenlon 发布于 2021-03-29
另请参阅: 技术,grep, 搜索, 正则表达式
评论

来学习下搜索文件中内容的基本操作，然后下载我们的备忘录作为 grep 和正则表达式的快速参考指南。

title=

grep（全局正则表达式打印 Global Regular Expression Print ）是由 Ken Thompson 早在 1974 年开发的基本 Unix 命令之一。在计算领域，它无处不在，通常被用作为动词（“搜索一个文件中的内容”）。如果你的谈话对象有极客精神，那么它也能在真实生活场景中使用。（例如，“我会 grep 我的内存条来回想起那些信息。”）简而言之，grep 是一种用特定的字符模式来搜索文件中内容的方式。如果你感觉这听起来像是文字处理器或文本编辑器的现代 Find 功能，那么你就已经在计算行业感受到了 grep 的影响。

grep 绝不是被现代技术抛弃的远古命令，它的强大体现在两个方面：

grep 可以在终端操作数据流，因此你可以把它嵌入到复杂的处理中。你不仅可以在一个文本文件中查找文字，还可以提取文字后把它发给另一个命令。
grep 使用正则表达式来提供灵活的搜索能力。

虽然需要一些练习，但学习 grep 命令还是很容易的。本文会介绍一些我认为 grep 最有用的功能。

下载我们免费的 grep 备忘录

安装 grep

Linux 默认安装了 grep。

MacOS 默认安装了 BSD 版的 grep。BSD 版的 grep 跟 GNU 版有一点不一样，因此如果你想完全参照本文，那么请使用 Homebrew 或 MacPorts 安装 GNU 版的 grep。

基础的 grep

所有版本的 grep 基础语法都一样。入参是匹配模式和你需要搜索的文件。它会把匹配到的每一行输出到你的终端。

$ grep gnu gpl-3.0.txt
    along with this program.  If not, see <http://www.gnu.org/licenses/>.
<http://www.gnu.org/licenses/>.
<http://www.gnu.org/philosophy/why-not-lgpl.html>.

grep 命令默认大小写敏感，因此 “gnu”、“GNU”、“Gnu” 是三个不同的值。你可以使用 --ignore-case 选项来忽略大小写。

$ grep --ignore-case gnu gpl-3.0.txt
                    GNU GENERAL PUBLIC LICENSE
  The GNU General Public License is a free, copyleft license for
the GNU General Public License is intended to guarantee your freedom to
GNU General Public License for most of our software; it applies also to
[...16 more results...]
<http://www.gnu.org/licenses/>.
<http://www.gnu.org/philosophy/why-not-lgpl.html>.

你也可以通过 --invert-match 选项来输出所有没有匹配到的行：

$ grep --invert-match \
--ignore-case gnu gpl-3.0.txt
                      Version 3, 29 June 2007

 Copyright (C) 2007 Free Software Foundation, Inc. <http://fsf.org/>
[...648 lines...]
Public License instead of this License.  But first, please read

管道

能搜索文件中的文本内容是很有用的，但是 POSIX 的真正强大之处是可以通过“管道”来连接多条命令。我发现我使用 grep 最好的方式是把它与其他工具如 cut、tr 或 curl 联合使用。

假如现在有一个文件，文件中每一行是我想要下载的技术论文。我可以打开文件手动点击每一个链接，然后点击火狐浏览器的选项把每一个文件保存到我的硬盘，但是需要点击多次且耗费很长时间。而我还可以搜索文件中的链接，用 --only-matching 选项只打印出匹配到的字符串。

$ grep --only-matching http\:\/\/.*pdf example.html
http://example.com/linux_whitepaper.pdf
http://example.com/bsd_whitepaper.pdf
http://example.com/important_security_topic.pdf

输出是一系列的 URL，每行一个。而这与 Bash 处理数据的方式完美契合，因此我不再把 URL 打印到终端，而是把它们通过管道传给 curl：

$ grep --only-matching http\:\/\/.*pdf \
example.html | curl --remote-name

这条命令可以下载每一个文件，然后以各自的远程文件名命名保存在我的硬盘上。

这个例子中我的搜索模式可能很晦涩。那是因为它用的是正则表达式，一种在大量文本中进行模糊搜索时非常有用的”通配符“语言。

正则表达式

没有人会觉得正则表达式 regular expression （简称 “regex”）很简单。然而，我发现它的名声往往比它应得的要差。诚然，很多人在使用正则表达式时“过于炫耀聪明”，直到它变得难以阅读，大而全，以至于复杂得换行才好理解，但是你不必过度使用正则。这里简单介绍一下我使用正则表达式的方式。

首先，创建一个名为 example.txt 的文件，输入以下内容：

Albania
Algeria
Canada
0
1
3
11

最基础的元素是不起眼的 . 字符。它表示一个字符。

$ grep Can.da example.txt
Canada

模式 Can.da 能成功匹配到 Canada 是因为 . 字符表示任意一个字符。

可以使用下面这些符号来使 . 通配符表示多个字符：

? 匹配前面的模式零次或一次
* 匹配前面的模式零次或多次
+ 匹配前面的模式一次或多次
{4} 匹配前面的模式 4 次（或是你在括号中写的其他次数）

了解了这些知识后，你可以用你认为有意思的所有模式来在 example.txt 中做练习。可能有些会成功，有些不会成功。重要的是你要去分析结果，这样你才会知道原因。

例如，下面的命令匹配不到任何国家：

$ grep A.a example.txt

因为 . 字符只能匹配一个字符，除非你增加匹配次数。使用 * 字符，告诉 grep 匹配一个字符零次或者必要的任意多次直到单词末尾。因为你知道你要处理的内容，因此在本例中零次是没有必要的。在这个列表中一定没有单个字母的国家。因此，你可以用 + 来匹配一个字符至少一次且任意多次直到单词末尾：

$ grep A.+a example.txt
Albania
Algeria

你可以使用方括号来提供一系列的字母：

$ grep [A,C].+a example.txt
Albania
Algeria
Canada

也可以用来匹配数字。结果可能会震惊你：

$ grep [1-9] example.txt
1
3
11

看到 11 出现在搜索数字 1 到 9 的结果中，你惊讶吗？

如果把 13 加到搜索列表中，会出现什么结果呢？

这些数字之所以会被匹配到，是因为它们包含 1，而 1 在要匹配的数字中。

你可以发现，正则表达式有时会令人费解，但是通过体验和练习，你可以熟练掌握它，用它来提高你搜索数据的能力。

下载备忘录

grep 命令还有很多文章中没有列出的选项。有用来更好地展示匹配结果、列出文件、列出匹配到的行号、通过打印匹配到的行周围的内容来显示上下文的选项，等等。如果你在学习 grep，或者你经常使用它并且通过查阅它的帮助页面来查看选项，那么你可以下载我们的备忘录。这个备忘录使用短选项（例如，使用 -v，而不是 --invert-matching）来帮助你更好地熟悉 grep。它还有一部分正则表达式可以帮你记住用途最广的正则表达式代码。现在就下载 grep 备忘录！

via: https://opensource.com/article/21/3/grep-cheat-sheet

作者：Seth Kenlon 选题：lujun9972 译者：lxbwolf 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

如何使用 Python 来自动交易加密货币

Stephan Avenwedde 发布于 2021-03-28
另请参阅: 软件开发,python, 加密货币, 自动交易
评论

在本教程中，教你如何设置和使用 Pythonic 来编程。它是一个图形化编程工具，用户可以很容易地使用现成的函数模块创建 Python 程序。

title=

然而，不像纽约证券交易所这样的传统证券交易所一样，有一段固定的交易时间。对于加密货币而言，则是 7×24 小时交易，这使得任何人都无法独自盯着市场。

在以前，我经常思考与加密货币交易相关的问题：

一夜之间发生了什么？
为什么没有日志记录？
为什么下单？
为什么不下单？

通常的解决手段是使用加密交易机器人，当在你做其他事情时，例如睡觉、与家人在一起或享受空闲时光，代替你下单。虽然有很多商业解决方案可用，但是我选择开源的解决方案，因此我编写了加密交易机器人 Pythonic。正如去年我写过的文章一样，“Pythonic 是一种图形化编程工具，它让用户可以轻松使用现成的函数模块来创建 Python 应用程序。” 最初它是作为加密货币机器人使用，并具有可扩展的日志记录引擎以及经过精心测试的可重用部件，例如调度器和计时器。

开始

本教程将教你如何开始使用 Pythonic 进行自动交易。我选择币安 Binance 交易所的波场 Tron 与比特币 Bitcoin 交易对为例。我之所以选择这个加密货币对，是因为它们彼此之间的波动性大，而不是出于个人喜好。

机器人将根据指数移动平均 exponential moving averages （EMA）来做出决策。

title=

TRX/BTC 1 小时 K 线图

EMA 指标通常是一个加权的移动平均线，可以对近期价格数据赋予更多权重。尽管移动平均线可能只是一个简单的指标，但我对它很有经验。

上图中的紫色线显示了 EMA-25 指标（这表示要考虑最近的 25 个值）。

机器人监视当前的 EMA-25 值（t0）和前一个 EMA-25 值（t-1）之间的差距。如果差值超过某个值，则表示价格上涨，机器人将下达购买订单。如果差值低于某个值，则机器人将下达卖单。

差值将是做出交易决策的主要指标。在本教程中，它称为交易参数。

工具链

将在本教程使用如下工具：

币安专业交易视图（已经有其他人做了数据可视化，所以不需要重复造轮子）
Jupyter 笔记本：用于数据科学任务
Pythonic：作为整体框架
PythonicDaemon ：作为终端运行（仅适用于控制台和 Linux）

数据挖掘

为了使加密货币交易机器人尽可能做出正确的决定，以可靠的方式获取资产的美国线 open-high-low-close chart （OHLC）数据是至关重要。你可以使用 Pythonic 的内置元素，还可以根据自己逻辑来对其进行扩展。

一般的工作流程：

与币安时间同步
下载 OHLC 数据
从文件中把 OHLC 数据加载到内存
比较数据集并扩展更新数据集

这个工作流程可能有点夸张，但是它能使得程序更加健壮，甚至在停机和断开连接时，也能平稳运行。

一开始，你需要 币安 OHLC 查询 Binance OHLC Query 元素和一个 基础操作 Basic Operation 元素来执行你的代码。

title=

数据挖掘工作流程

OHLC 查询设置为每隔一小时查询一次 TRXBTC 资产对（波场/比特币）。

title=

配置 OHLC 查询元素

其中输出的元素是 Pandas DataFrame。你可以在 基础操作 元素中使用输入 input 变量来访问 DataFrame。其中，将 Vim 设置为 基础操作 元素的默认代码编辑器。

title=

使用 Vim 编辑基础操作元素

具体代码如下：

import pickle, pathlib, os
import pandas as pd

outout = None

if isinstance(input, pd.DataFrame):
    file_name = 'TRXBTC_1h.bin'
    home_path = str(pathlib.Path.home())
    data_path = os.path.join(home_path, file_name)

    try:
        df = pickle.load(open(data_path, 'rb'))
        n_row_cnt = df.shape[0]
        df = pd.concat([df,input], ignore_index=True).drop_duplicates(['close_time'])
        df.reset_index(drop=True, inplace=True)
        n_new_rows = df.shape[0] - n_row_cnt
        log_txt = '{}: {} new rows written'.format(file_name, n_new_rows)
    except:
        log_txt = 'File error - writing new one: {}'.format(e)
        df = input

    pickle.dump(df, open(data_path, "wb" ))
    output = df

首先，检查输入是否为 DataFrame 元素。然后在用户的家目录（~/）中查找名为 TRXBTC_1h.bin 的文件。如果存在，则将其打开，执行新代码段（try 部分中的代码），并删除重复项。如果文件不存在，则触发异常并执行 except 部分中的代码，创建一个新文件。

只要启用了复选框 日志输出 log output ，你就可以使用命令行工具 tail 查看日志记录：

$ tail -f ~/Pythonic_2020/Feb/log_2020_02_19.txt

出于开发目的，现在跳过与币安时间的同步和计划执行，这将在下面实现。

准备数据

下一步是在单独的网格 Grid 中处理评估逻辑。因此，你必须借助 返回元素 Return element 将 DataFrame 从网格 1 传递到网格 2 的第一个元素。

在网格 2 中，通过使 DataFrame 通过 基础技术分析 Basic Technical Analysis 元素，将 DataFrame 扩展包含 EMA 值的一列。

title=

在网格 2 中技术分析工作流程

配置技术分析元素以计算 25 个值的 EMA。

title=

配置技术分析元素

当你运行整个程序并开启 技术分析 Technical Analysis 元素的调试输出时，你将发现 EMA-25 列的值似乎都相同。

title=

输出中精度不够

这是因为调试输出中的 EMA-25 值仅包含六位小数，即使输出保留了 8 个字节完整精度的浮点值。

为了能进行进一步处理，请添加 基础操作 元素：

title=

网格 2 中的工作流程

使用 基础操作 元素，将 DataFrame 与添加的 EMA-25 列一起转储，以便可以将其加载到 Jupyter 笔记本中；

title=

将扩展后的 DataFrame 存储到文件中

评估策略

在 Juypter 笔记本中开发评估策略，让你可以更直接地访问代码。要加载 DataFrame，你需要使用如下代码：

title=

用全部小数位表示

你可以使用 iloc 和列名来访问最新的 EMA-25 值，并且会保留所有小数位。

你已经知道如何来获得最新的数据。上面示例的最后一行仅显示该值。为了能将该值拷贝到不同的变量中，你必须使用如下图所示的 .at 方法方能成功。

你也可以直接计算出你下一步所需的交易参数。

title=

买卖决策

确定交易参数

如上面代码所示，我选择 0.009 作为交易参数。但是我怎么知道 0.009 是决定交易的一个好参数呢？实际上，这个参数确实很糟糕，因此，你可以直接计算出表现最佳的交易参数。

假设你将根据收盘价进行买卖。

title=

回测功能

在此示例中，buy_factor 和 sell_factor 是预先定义好的。因此，发散思维用直接计算出表现最佳的参数。

title=

嵌套的 for 循环，用于确定购买和出售的参数

这要跑 81 个循环（9x9），在我的机器（Core i7 267QM）上花费了几分钟。

title=

在暴力运算时系统的利用率

在每个循环之后，它将 buy_factor、sell_factor 元组和生成的 profit 元组追加到 trading_factors 列表中。按利润降序对列表进行排序。

title=

将利润与相关的交易参数按降序排序

当你打印出列表时，你会看到 0.002 是最好的参数。

title=

交易要素和收益的有序列表

当我在 2020 年 3 月写下这篇文章时，价格的波动还不足以呈现出更理想的结果。我在 2 月份得到了更好的结果，但即使在那个时候，表现最好的交易参数也在 0.002 左右。

分割执行路径

现在开始新建一个网格以保持逻辑清晰。使用返回元素将带有 EMA-25 列的 DataFrame 从网格 2 传递到网格 3 的 0A 元素。

在网格 3 中，添加 基础操作 元素以执行评估逻辑。这是该元素中的代码：

title=

实现评估策略

如果输出 1 表示你应该购买，如果输出 2 则表示你应该卖出。输出 0 表示现在无需操作。使用分支 Branch 元素来控制执行路径。

title=

分支元素：网格 3，2A 位置

因为 0 和 -1 的处理流程一样，所以你需要在最右边添加一个分支元素来判断你是否应该卖出。

title=

分支元素：网格 3，3B 位置

网格 3 应该现在如下图所示：

title=

网格 3 的工作流程

下单

由于无需在一个周期中购买两次，因此必须在周期之间保留一个持久变量，以指示你是否已经购买。

你可以利用栈 Stack 元素来实现。顾名思义，栈元素表示可以用任何 Python 数据类型来放入的基于文件的栈。

你需要定义栈仅包含一个布尔类型，该布尔类型决定是否购买了（True）或（False）。因此，你必须使用 False 来初始化栈。例如，你可以在网格 4 中简单地通过将 False 传递给栈来进行设置。

title=

将 False 变量传输到后续的栈元素中

在分支树后的栈实例可以进行如下配置：

title=

设置栈元素

在栈元素设置中，将对输入的操作 Do this with input 设置成无 Nothing 。否则，布尔值将被 1 或 0 覆盖。

该设置确保仅将一个值保存于栈中（True 或 False），并且只能读取一个值（为了清楚起见）。

在栈元素之后，你需要另外一个分支元素来判断栈的值，然后再放置币安订单 Binance Order 元素。

title=

判断栈中的变量

将币安订单元素添加到分支元素的 True 路径。网格 3 上的工作流现在应如下所示：

title=

网格 3 的工作流程

币安订单元素应如下配置：

title=

编辑币安订单元素

你可以在币安网站上的帐户设置中生成 API 和密钥。

title=

在币安账户设置中创建一个 API 密钥

在本文中，每笔交易都是作为市价交易执行的，交易量为 10,000 TRX（2020 年 3 月约为 150 美元）（出于教学的目的，我通过使用市价下单来演示整个过程。因此，我建议至少使用限价下单。）

如果未正确执行下单（例如，网络问题、资金不足或货币对不正确），则不会触发后续元素。因此，你可以假定如果触发了后续元素，则表示该订单已下达。

这是一个成功的 XMRBTC 卖单的输出示例：

title=

成功卖单的输出

该行为使后续步骤更加简单：你可以始终假设只要成功输出，就表示订单成功。因此，你可以添加一个 基础操作 元素，该元素将简单地输出 True 并将此值放入栈中以表示是否下单。

如果出现错误的话，你可以在日志信息中查看具体细节（如果启用日志功能）。

title=

币安订单元素中的输出日志信息

调度和同步

对于日程调度和同步，请在网格 1 中将整个工作流程置于币安调度器 Binance Scheduler 元素的前面。

title=

在网格 1，1A 位置的币安调度器

由于币安调度器元素只执行一次，因此请在网格 1 的末尾拆分执行路径，并通过将输出传递回币安调度器来强制让其重新同步。

title=

网格 1：拆分执行路径

5A 元素指向网格 2 的 1A 元素，并且 5B 元素指向网格 1 的 1A 元素（币安调度器）。

部署

你可以在本地计算机上全天候 7×24 小时运行整个程序，也可以将其完全托管在廉价的云系统上。例如，你可以使用 Linux/FreeBSD 云系统，每月约 5 美元，但通常不提供图形化界面。如果你想利用这些低成本的云，可以使用 PythonicDaemon，它能在终端中完全运行。

title=

PythonicDaemon 控制台

PythonicDaemon 是基础程序的一部分。要使用它，请保存完整的工作流程，将其传输到远程运行的系统中（例如，通过安全拷贝协议 Secure Copy SCP），然后把工作流程文件作为参数来启动 PythonicDaemon：

$ PythonicDaemon trading_bot_one

为了能在系统启动时自启 PythonicDaemon，可以将一个条目添加到 crontab 中：

# crontab -e

title=

在 Ubuntu 服务器上的 Crontab

下一步

正如我在一开始时所说的，本教程只是自动交易的入门。对交易机器人进行编程大约需要 10％的编程和 90％的测试。当涉及到让你的机器人用金钱交易时，你肯定会对编写的代码再三思考。因此，我建议你编码时要尽可能简单和易于理解。

如果你想自己继续开发交易机器人，接下来所需要做的事：

收益自动计算（希望你有正收益！）
计算你想买的价格
比较你的预订单（例如，订单是否填写完整？）

你可以从 GitHub 上获取完整代码。

via: https://opensource.com/article/20/4/python-crypto-trading-bot

作者：Stephan Avenwedde 选题：lujun9972 译者：wyxplus 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出