Tian Gao 发布的文章

使用这个开源工具来监控 Python 中的变量

Tian Gao 发布于 2021-04-09
另请参阅: 软件开发,python, 变量
评论

Watchpoints 是一个简单但功能强大的工具，可以帮助你在调试 Python 时监控变量。

title=

在调试代码时，你经常面临着要弄清楚一个变量何时发生变化。如果没有任何高级工具，那么可以选择使用打印语句在期望它们更改时输出变量。然而，这是一种非常低效的方法，因为变量可能在很多地方发生变化，并且不断地将其打印到终端上会产生很大的干扰，而将它们打印到日志文件中则变得很麻烦。

这是一个常见的问题，但现在有一个简单而强大的工具可以帮助你监控变量：watchpoints。

“监视点”的概念在 C 和 C++ 调试器中很常见，用于监控内存，但在 Python 中缺乏相应的工具。watchpoints 填补了这个空白。

安装

要使用它，你必须先用 pip 安装它：

$ python3 -m pip install watchpoints

在Python中使用 watchpoints

对于任何一个你想监控的变量，使用 watch 函数对其进行监控。

from watchpoints import watch

a = 0
watch(a)
a = 1

当变量发生变化时，它的值就会被打印到标准输出：

====== Watchpoints Triggered ======

Call Stack (most recent call last):
  <module> (my_script.py:5):
> a = 1
a:
0
->
1

信息包括：

变量被改变的行。
调用栈。
变量的先前值/当前值。

它不仅适用于变量本身，也适用于对象的变化：

from watchpoints import watch

a = []
watch(a)
a = {} # 触发
a["a"] = 2 # 触发

当变量 a 被重新分配时，回调会被触发，同时当分配给 a 的对象发生变化时也会被触发。

更有趣的是，监控不受作用域的限制。你可以在任何地方观察变量/对象，而且无论程序在执行什么函数，回调都会被触发。

from watchpoints import watch

def func(var):
    var["a"] = 1

a = {}
watch(a)
func(a)

例如，这段代码打印出：

====== Watchpoints Triggered ======

Call Stack (most recent call last):

  <module> (my_script.py:8):
> func(a)
  func (my_script.py:4):
> var["a"] = 1
a:
{}
->
{'a': 1}

watch 函数不仅可以监视一个变量，它也可以监视一个字典或列表的属性和元素。

from watchpoints import watch

class MyObj:
    def __init__(self):
        self.a = 0

obj = MyObj()
d = {"a": 0}
watch(obj.a, d["a"]) # 是的，你可以这样做
obj.a = 1 # 触发
d["a"] = 1 # 触发

这可以帮助你缩小到一些你感兴趣的特定对象。

如果你对输出格式不满意，你可以自定义它。只需定义你自己的回调函数：

watch(a, callback=my_callback)

# 或者全局设置

watch.config(callback=my_callback)

当触发时，你甚至可以使用 pdb：

watch.config(pdb=True)

这与 breakpoint() 的行为类似，会给你带来类似调试器的体验。

如果你不想在每个文件中都导入这个函数，你可以通过 install 函数使其成为全局：

watch.install() # 或 watch.install("func_name") ，然后以 func_name() 方式使用

我个人认为，watchpoints 最酷的地方就是使用直观。你对一些数据感兴趣吗？只要“观察”它，你就会知道你的变量何时发生变化。

尝试 watchpoints

我在 GitHub 上开发维护了 watchpoints，并在 Apache 2.0 许可下发布了它。安装并使用它，当然也欢迎大家做出贡献。

via: https://opensource.com/article/21/4/monitor-debug-python

作者：Tian Gao 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

用一个开源工具实现多线程 Python 程序的可视化

Tian Gao 发布于 2021-03-31
另请参阅: 软件开发,python, 可视化
评论

VizTracer 可以跟踪并发的 Python 程序，以帮助记录、调试和剖析。

title=

并发是现代编程中必不可少的一部分，因为我们有多个核心，有许多需要协作的任务。然而，当并发程序不按顺序运行时，就很难理解它们。对于工程师来说，在这些程序中发现 bug 和性能问题不像在单线程、单任务程序中那么容易。

在 Python 中，你有多种并发的选择。最常见的可能是用 threading 模块的多线程，用subprocess 和 multiprocessing 模块的多进程，以及最近用 asyncio 模块提供的 async 语法。在 VizTracer 之前，缺乏分析使用了这些技术程序的工具。

VizTracer 是一个追踪和可视化 Python 程序的工具，对日志、调试和剖析很有帮助。尽管它对单线程、单任务程序很好用，但它在并发程序中的实用性是它的独特之处。

尝试一个简单的任务

从一个简单的练习任务开始：计算出一个数组中的整数是否是质数并返回一个布尔数组。下面是一个简单的解决方案：

def is_prime(n):
    for i in range(2, n):
        if n % i == 0:
            return False
    return True

def get_prime_arr(arr):
    return [is_prime(elem) for elem in arr]

试着用 VizTracer 以单线程方式正常运行它：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for _ in range(6000)]
    get_prime_arr(num_arr)

viztracer my_program.py

title=

调用堆栈报告显示，耗时约 140ms，大部分时间花在 get_prime_arr 上。

title=

这只是在数组中的元素上一遍又一遍地执行 is_prime 函数。

这是你所期望的，而且它并不有趣（如果你了解 VizTracer 的话）。

试试多线程程序

试着用多线程程序来做：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for i in range(2000)]
    thread1 = Thread(target=get_prime_arr, args=(num_arr,))
    thread2 = Thread(target=get_prime_arr, args=(num_arr,))
    thread3 = Thread(target=get_prime_arr, args=(num_arr,))

    thread1.start()
    thread2.start()
    thread3.start()

    thread1.join()
    thread2.join()
    thread3.join()

为了配合单线程程序的工作负载，这就为三个线程使用了一个 2000 元素的数组，模拟了三个线程共享任务的情况。

title=

如果你熟悉 Python 的全局解释器锁（GIL），就会想到，它不会再快了。由于开销太大，花了 140ms 多一点的时间。不过，你可以观察到多线程的并发性：

title=

当一个线程在工作（执行多个 is_prime 函数）时，另一个线程被冻结了（一个 is_prime 函数）；后来，它们进行了切换。这是由于 GIL 的原因，这也是 Python 没有真正的多线程的原因。它可以实现并发，但不能实现并行。

用多进程试试

要想实现并行，办法就是 multiprocessing 库。下面是另一个使用 multiprocessing 的版本：

if __name__ == "__main__":
    num_arr = [random.randint(100, 10000) for _ in range(2000)]
   
    p1 = Process(target=get_prime_arr, args=(num_arr,))
    p2 = Process(target=get_prime_arr, args=(num_arr,))
    p3 = Process(target=get_prime_arr, args=(num_arr,))

    p1.start()
    p2.start()
    p3.start()

    p1.join()
    p2.join()
    p3.join()

要使用 VizTracer 运行它，你需要一个额外的参数：

viztracer --log_multiprocess my_program.py

title=

整个程序在 50ms 多一点的时间内完成，实际任务在 50ms 之前完成。程序的速度大概提高了三倍。

为了和多线程版本进行比较，这里是多进程版本：

title=

在没有 GIL 的情况下，多个进程可以实现并行，也就是多个 is_prime 函数可以并行执行。

不过，Python 的多线程也不是一无是处。例如，对于计算密集型和 I/O 密集型程序，你可以用睡眠来伪造一个 I/O 绑定的任务：

def io_task():
    time.sleep(0.01)

在单线程、单任务程序中试试：

if __name__ == "__main__":
    for _ in range(3):
        io_task()

title=

整个程序用了 30ms 左右，没什么特别的。

现在使用多线程：

if __name__ == "__main__":
    thread1 = Thread(target=io_task)
    thread2 = Thread(target=io_task)
    thread3 = Thread(target=io_task)

    thread1.start()
    thread2.start()
    thread3.start()

    thread1.join()
    thread2.join()
    thread3.join()

title=

程序耗时 10ms，很明显三个线程是并发工作的，这提高了整体性能。

用 asyncio 试试

Python 正在尝试引入另一个有趣的功能，叫做异步编程。你可以制作一个异步版的任务：

import asyncio

async def io_task():
    await asyncio.sleep(0.01)

async def main():
    t1 = asyncio.create_task(io_task())
    t2 = asyncio.create_task(io_task())
    t3 = asyncio.create_task(io_task())

    await t1
    await t2
    await t3

if __name__ == "__main__":
    asyncio.run(main())

由于 asyncio 从字面上看是一个带有任务的单线程调度器，你可以直接在它上使用 VizTracer：

title=

依然花了 10ms，但显示的大部分函数都是底层结构，这可能不是用户感兴趣的。为了解决这个问题，可以使用 --log_async 来分离真正的任务：

viztracer --log_async my_program.py

title=

现在，用户任务更加清晰了。在大部分时间里，没有任务在运行（因为它唯一做的事情就是睡觉）。有趣的部分是这里：

title=

这显示了任务的创建和执行时间。Task-1 是 main() 协程，创建了其他任务。Task-2、Task-3、Task-4 执行 io_task 和 sleep 然后等待唤醒。如图所示，因为是单线程程序，所以任务之间没有重叠，VizTracer 这样可视化是为了让它更容易理解。

为了让它更有趣，可以在任务中添加一个 time.sleep 的调用来阻止异步循环：

async def io_task():
    time.sleep(0.01)
    await asyncio.sleep(0.01)

title=

程序耗时更长（40ms），任务填补了异步调度器中的空白。

这个功能对于诊断异步程序的行为和性能问题非常有帮助。

看看 VizTracer 发生了什么？

通过 VizTracer，你可以在时间轴上查看程序的进展情况，而不是从复杂的日志中想象。这有助于你更好地理解你的并发程序。

VizTracer 是开源的，在 Apache 2.0 许可证下发布，支持所有常见的操作系统（Linux、macOS 和 Windows）。你可以在 VizTracer 的 GitHub 仓库中了解更多关于它的功能和访问它的源代码。

via: https://opensource.com/article/21/3/python-viztracer

作者：Tian Gao 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用开源可视化工具来理解你的 Python 代码

Tian Gao 发布于 2020-11-14
另请参阅: 软件开发,python, 可视化
评论

VizTracer 工具可以可视化并跟踪 Python 代码，让你可以更深入地了解其工作原理。

随着 Python 项目变得越来越大、越复杂，理解起它来就变得充满挑战性。即使是你自己独自编写了整个项目，也不可能完全知道项目是如何工作的。为了能更好的理解你的代码，调试和分析代码变得至关重要。

VizTracer 是一个这样的工具，它通过跟踪和可视化 Python 代码的执行过程，来帮助你对代码的理解。无需对源代码进行任何更改，VizTracer 即可记录函数的入口 / 出口，函数参数 / 返回值以及任意变量，然后通过 Trace-Viewer 使用直观的谷歌前端界面来显示数据。

下面是一个运行蒙特卡洛树搜索的例子：

title=

每个函数都在时间线上以堆栈的形式记录和可视化，这样你就可以看到在运行程序时发生了什么。你可以放大查看任意特定点的详细信息：

title=

VizTracer 还可以自动记录函数参数和返回值。你可以单击函数条目并查看详细信息：

title=

或者你可以创建一个全新的信号，并用它来记录变量。例如，这显示了执行梯度下降时的成本值：

title=

与其他设置复杂的工具相比，VizTracer 使用起来非常简单，并且没有任何依赖关系。你可以从 pip 安装它：

pip install viztracer

你也可以通过输入来跟踪你的程序（<your_script.py> 是你脚本的名称）:

viztracer <your_script.py>

VizTracer 将在你的工作目录中生成一个 HTML 报告，你可以在 Chrome 浏览器中打开它。

VizTracer 还提供了其他高级功能，比如过滤器功能，你可以使用它过滤掉不想跟踪的函数，获得更清晰的报告。例如，要仅包含文件中的函数，你需要：

viztracer include_files ./ --run <your_script.py>

记录函数参数和返回值:

viztracer --log_function_args --log_return_value <your_script.py>

记录与某个正则表达式匹配的任意变量：

# log variables starts with a
viztracer --log_var a.* --run &lt;your_script.py&gt;

你可以通过对源代码进行较小的修改来获得其他功能，例如自定义事件来记录数值和对象。

VizTracer 还包括一个虚拟调试器（vdb），它可以调试 VizTracer 的日志文件。可以用 vdb 调试你运行中的代码（与 pdb 非常相似）以便你了解代码流。有用的是，它还支持时间回溯，因为它知道发生的一切。

与一些原型不同，VizTracer 使用纯 C 语言实现其核心，这将极大地减少开销，使其达到类似于 cProfile 的水平。

VizTracer 是开源的，在 Apache 2.0 许可下发布，支持所有常见的操作系统平台（Linux、macOS 和 Windows）。你可以在 GitHub 上了解关于它的更多特性并访问源代码。

via: https://opensource.com/article/20/11/python-code-viztracer

作者：Tian Gao 选题：lujun9972 译者：xiao-song-123 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出