2022年6月

Apache Kafka 是最流行的开源消息代理之一。它已经成为了大数据操作的重要组成部分,你能够在几乎所有的微服务环境中找到它。本文对 Apache Kafka 进行了简要介绍,并提供了一个案例来展示它的使用方式。

你有没有想过,电子商务平台是如何在处理巨大的流量时,做到不会卡顿的呢?有没有想过,OTT 平台是如何在同时向数百万用户交付内容时,做到平稳运行的呢?其实,关键就在于它们的分布式架构。

采用分布式架构设计的系统由多个功能组件组成。这些功能组件通常分布在多个机器上,它们通过网络,异步地交换消息,从而实现相互协作。正是由于异步消息的存在,组件之间才能实现可伸缩、无阻塞的通信,整个系统才能够平稳运行。

异步消息

异步消息的常见特性有:

  • 消息的 生产者 producer 消费者 consumer 都不知道彼此的存在。它们在不知道对方的情况下,加入和离开系统。
  • 消息 代理 broker 充当了生产者和消费者之间的中介。
  • 生产者把每条消息,都与一个“ 主题 topic ”相关联。主题是一个简单的字符串。
  • 生产者可以在多个主题上发送消息,不同的生产者也可以在同一主题上发送消息。
  • 消费者向代理订阅一个或多个主题的消息。
  • 生产者只将消息发送给代理,而不发送给消费者。
  • 代理会把消息发送给订阅该主题的所有消费者。
  • 代理将消息传递给针对该主题注册的所有消费者。
  • 生产者并不期望得到消费者的任何回应。换句话说,生产者和消费者不会相互阻塞。

市场上的消息代理有很多,而 Apache Kafka 是其中最受欢迎的之一。

Apache Kafka

Apache Kafka 是一个支持流式处理的、开源的分布式消息系统,它由 Apache 软件基金会开发。在架构上,它是多个代理组成的集群,这些代理间通过 Apache ZooKeeper 服务来协调。在接收、持久化和发送消息时,这些代理分担集群上的负载。

分区

Kafka 将消息写入称为“ 分区 partition ”的桶中。一个特定分区只保存一个主题上的消息。例如,Kafka 会把 heartbeats 主题上的消息写入名为 heartbeats-0 的分区(假设它是个单分区主题),这个过程和生产者无关。

图 1:异步消息

不过,为了利用 Kafka 集群所提供的并行处理能力,管理员通常会为指定主题创建多个分区。举个例子,假设管理员为 heartbeats 主题创建了三个分区,Kafka 会将它们分别命名为 heartbeats-0heartbeats-1heartbeats-2。Kafka 会以某种方式,把消息分配到这三个分区中,并使它们均匀分布。

还有另一种可能的情况,生产者将每条消息与一个 消息键 key 相关联。例如,同样都是在 heartbeats 主题上发送消息,有个组件使用 C1 作为消息键,另一个则使用 C2。在这种情况下,Kafka 会确保,在一个主题中,带有相同消息键的消息,总是会被写入到同一个分区。不过,在一个分区中,消息的消息键却不一定相同。下面的图 2 显示了消息在不同分区中的一种可能分布。

图 2:消息在不同分区中的分布

领导者和同步副本

Kafka 在(由多个代理组成的)集群中维护了多个分区。其中,负责维护分区的那个代理被称为“ 领导者 leader ”。只有领导者能够在它的分区上接收和发送消息。

可是,万一分区的领导者发生故障了,又该怎么办呢?为了确保业务连续性,每个领导者(代理)都会把它的分区复制到其他代理上。此时,这些其他代理就称为该分区的 同步副本 in-sync-replicas (ISR)。一旦分区的领导者发生故障,ZooKeeper 就会发起一次选举,把选中的那个同步副本任命为新的领导者。此后,这个新的领导者将承担该分区的消息接受和发送任务。管理员可以指定分区需要维护的同步副本的大小。

图 3:生产者命令行工具

消息持久化

代理会将每个分区都映射到一个指定的磁盘文件,从而实现持久化。默认情况下,消息会在磁盘上保留一个星期。当消息写入分区后,它们的内容和顺序就不能更改了。管理员可以配置一些策略,如消息的保留时长、压缩算法等。

图 4:消费者命令行工具

消费消息

与大多数其他消息系统不同,Kafka 不会主动将消息发送给消费者。相反,消费者应该监听主题,并主动读取消息。一个消费者可以从某个主题的多个分区中读取消息。多个消费者也可以读取来自同一个分区的消息。Kafka 保证了同一条消息不会被同一个消费者重复读取。

Kafka 中的每个消费者都有一个组 ID。那些组 ID 相同的消费者们共同组成了一个消费者组。通常,为了从 N 个主题分区读取消息,管理员会创建一个包含 N 个消费者的消费者组。这样一来,组内的每个消费者都可以从它的指定分区中读取消息。如果组内的消费者比可用分区还要多,那么多出来的消费者就会处于闲置状态。

在任何情况下,Kafka 都保证:不管组内有多少个消费者,同一条消息只会被该消费者组读取一次。这个架构提供了一致性、高性能、高可扩展性、准实时交付和消息持久性,以及零消息丢失。

安装、运行 Kafka

尽管在理论上,Kafka 集群可以由任意数量的代理组成,但在生产环境中,大多数集群通常由三个或五个代理组成。

在这里,我们将搭建一个单代理集群,对于生产环境来说,它已经够用了。

在浏览器中访问 https://kafka.apache.org/downloads,下载 Kafka 的最新版本。在 Linux 终端中,我们也可以使用下面的命令来下载它:

wget https://www.apache.org/dyn/closer.cgi?path=/kafka/2.8.0/kafka_2.12-2.8.0.tgz

如果需要的话,我们也可以把下载来的档案文件 kafka_2.12-2.8.0.tgz 移动到另一个目录下。解压这个档案,你会得到一个名为 kafka_2.12-2.8.0 的目录,它就是之后我们要设置的 KAFKA_HOME

打开 KAFKA_HOME/config 目录下的 server.properties 文件,取消注释下面这一行配置:

listeners=PLAINTEXT://:9092

这行配置的作用是让 Kafka 在本机的 9092 端口接收普通文本消息。我们也可以配置 Kafka 通过 安全通道 secure channel 接收消息,在生产环境中,我们也推荐这么做。

无论集群中有多少个代理,Kafka 都需要 ZooKeeper 来管理和协调它们。即使是单代理集群,也是如此。Kafka 在安装时,会附带安装 ZooKeeper,因此,我们可以在 KAFKA_HOME 目录下,在命令行中使用下面的命令来启动它:

./bin/zookeeper-server-start.sh ./config/zookeeper.properties

当 ZooKeeper 运行起来后,我们就可以在另一个终端中启动 Kafka 了,命令如下:

./bin/kafka-server-start.sh ./config/server.properties

到这里,一个单代理的 Kafka 集群就运行起来了。

验证 Kafka

让我们在 topic-1 主题上尝试下发送和接收消息吧!我们可以使用下面的命令,在创建主题时为它指定分区的个数:

./bin/kafka-topics.sh --create --topic topic-1 --zookeeper localhost:2181 --partitions 3 --replication-factor 1

上述命令还同时指定了 复制因子 replication factor ,它的值不能大于集群中代理的数量。我们使用的是单代理集群,因此,复制因子只能设置为 1。

当主题创建完成后,生产者和消费者就可以在上面交换消息了。Kafka 的发行版内附带了生产者和消费者的命令行工具,供测试时用。

打开第三个终端,运行下面的命令,启动生产者:

./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic topic-1

上述命令显示了一个提示符,我们可以在后面输入简单文本消息。由于我们指定的命令选项,生产者会把 topic-1 上的消息,发送到运行在本机的 9092 端口的 Kafka 中。

打开第四个终端,运行下面的命令,启动消费者:

./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic topic-1 –-from-beginning

上述命令启动了一个消费者,并指定它连接到本机 9092 端口的 Kafka。它订阅了 topic-1 主题,以读取其中的消息。由于命令行的最后一个选项,这个消费者会从最开头的位置,开始读取该主题的所有消息。

我们注意到,生产者和消费者连接的是同一个代理,访问的是同一个主题,因此,消费者在收到消息后会把消息打印到终端上。

下面,让我们在实际应用场景中,尝试使用 Kafka 吧!

案例

假设有一家叫做 ABC 的公共汽车运输公司,它拥有一支客运车队,往返于全国不同城市之间。由于 ABC 希望实时跟踪每辆客车,以提高其运营质量,因此,它提出了一个基于 Apache Kafka 的解决方案。

首先,ABC 公司为所有公交车都配备了位置追踪设备。然后,它使用 Kafka 建立了一个操作中心,以接收来自数百辆客车的位置更新。它还开发了一个 仪表盘 dashboard ,以显示任一时间点所有客车的当前位置。图 5 展示了上述架构:

图 5:基于 Kafka 的架构

在这种架构下,客车上的设备扮演了消息生产者的角色。它们会周期性地把当前位置发送到 Kafka 的 abc-bus-location 主题上。ABC 公司选择以客车的 行程编号 trip code 作为消息键,以处理来自不同客车的消息。例如,对于从 Bengaluru 到 Hubballi 的客车,它的行程编号就会是 BLRHL003,那么在这段旅程中,对于所有来自该客车的消息,它们的消息键都会是 BLRHL003

仪表盘应用扮演了消息消费者的角色。它在代理上注册了同一个主题 abc-bus-location。如此,这个主题就成为了生产者(客车)和消费者(仪表盘)之间的虚拟通道。

客车上的设备不会期待得到来自仪表盘应用的任何回复。事实上,它们相互之间都不知道对方的存在。得益于这种架构,数百辆客车和操作中心之间实现了非阻塞通信。

实现

假设 ABC 公司想要创建三个分区来维护位置更新。由于我们的开发环境只有一个代理,因此复制因子应设置为 1。

相应地,以下命令创建了符合需求的主题:

./bin/kafka-topics.sh --create --topic abc-bus-location --zookeeper localhost:2181 --partitions 3 --replication-factor 1

生产者和消费者应用可以用多种语言编写,如 Java、Scala、Python 和 JavaScript 等。下面几节中的代码展示了它们在 Java 中的编写方式,好让我们有一个初步了解。

Java 生产者

下面的 Fleet 类模拟了在 ABC 公司的 6 辆客车上运行的 Kafka 生产者应用。它会把位置更新发送到指定代理的 abc-bus-location 主题上。请注意,简单起见,主题名称、消息键、消息内容和代理地址等,都在代码里硬编码的。

public class Fleet {
    public static void main(String[] args) throws Exception {
        String broker = “localhost:9092”;
        Properties props = new Properties();
        props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, broker);
        props.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
            StringSerializer.class.getName());
        props.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
            StringSerializer.class.getName());

        Producer<String, String> producer = new KafkaProducer<String, String>(props);
        String topic = “abc-bus-location”;
        Map<String, String> locations = new HashMap<>();
        locations.put(“BLRHBL001”, “13.071362, 77.461906”);
        locations.put(“BLRHBL002”, “14.399654, 76.045834”);
        locations.put(“BLRHBL003”, “15.183959, 75.137622”);
        locations.put(“BLRHBL004”, “13.659576, 76.944675”);
        locations.put(“BLRHBL005”, “12.981337, 77.596181”);
        locations.put(“BLRHBL006”, “13.024843, 77.546983”);

        IntStream.range(0, 10).forEach(i -> {
            for (String trip : locations.keySet()) {
                ProducerRecord<String, String> record
                    = new ProducerRecord<String, String>(
                        topic, trip, locations.get(trip));
                producer.send(record);
            }
        });
        producer.flush();
        producer.close();
    }
}
Java 消费者

下面的 Dashboard 类实现了一个 Kafka 消费者应用,运行在 ABC 公司的操作中心。它会监听 abc-bus-location 主题,并且它的消费者组 ID 是 abc-dashboard。当收到消息后,它会立即显示来自客车的详细位置信息。我们本该配置这些详细位置信息,但简单起见,它们也是在代码里硬编码的:

public static void main(String[] args) {
    String broker = “127.0.0.1:9092”;
    String groupId = “abc-dashboard”;
    Properties props = new Properties();
    props.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, broker);
    props.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG,
        StringDeserializer.class.getName());
    props.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,
        StringDeserializer.class.getName());
    props.setProperty(ConsumerConfig.GROUP_ID_CONFIG, groupId);

    @SuppressWarnings(“resource”)
    Consumer<String, String> consumer = new KafkaConsumer<String, String>(props);
    consumer.subscribe(Arrays.asList(“abc-bus-location”));
    while (true) {
        ConsumerRecords<String, String> records
            = consumer.poll(Duration.ofMillis(1000));

        for (ConsumerRecord<String, String> record : records) {
            String topic = record.topic();
            int partition = record.partition();
            String key = record.key();
            String value = record.value();
            System.out.println(String.format(
                “Topic=%s, Partition=%d, Key=%s, Value=%s”,
                topic, partition, key, value));
        }
    }
}
依赖

为了编译和运行这些代码,我们需要 JDK 8 及以上版本。看到下面的 pom.xml 文件中的 Maven 依赖了吗?它们会把所需的 Kafka 客户端库下载并添加到类路径中:

<dependency>
  <groupId>org.apache.kafka</groupId>
  <artifactId>kafka-clients</artifactId>
  <version>2.8.0</version>
</dependency>
<dependency>
  <groupId>org.slf4j</groupId>
  <artifactId>slf4j-simple</artifactId>
  <version>1.7.25</version>
</dependency>

部署

由于 abc-bus-location 主题在创建时指定了 3 个分区,我们自然就会想要运行 3 个消费者,来让读取位置更新的过程更快一些。为此,我们需要同时在 3 个不同的终端中运行仪表盘。因为所有这 3 个仪表盘都注册在同一个组 ID 下,它们自然就构成了一个消费者组。Kafka 会为每个仪表盘都分配一个特定的分区(来消费)。

当所有仪表盘实例都运行起来后,在另一个终端中启动 Fleet 类。图 6、7、8 展示了仪表盘终端中的控制台示例输出。

图 6:仪表盘终端之一

仔细看看控制台消息,我们会发现第一个、第二个和第三个终端中的消费者,正在分别从 partition-2partition-1partition-0 中读取消息。另外,我们还能发现,消息键为 BLRHBL002BLRHBL004BLRHBL006 的消息写入了 partition-2,消息键为 BLRHBL005 的消息写入了 partition-1,剩下的消息写入了 partition-0

图 7:仪表盘终端之二

使用 Kafka 的好处在于,只要集群设计得当,它就可以水平扩展,从而支持大量客车和数百万条消息。

图 8:仪表盘终端之三

不止是消息

根据 Kafka 官网上的数据,在《财富》100 强企业中,超过 80% 都在使用 Kafka。它部署在许多垂直行业,如金融服务、娱乐等。虽然 Kafka 起初只是一种简单的消息服务,但它已凭借行业级的流处理能力,成为了大数据生态系统的一环。对于那些喜欢托管解决方案的企业,Confluent 提供了基于云的 Kafka 服务,只需支付订阅费即可。(LCTT 译注:Confluent 是一个基于 Kafka 的商业公司,它提供的 Confluent Kafka 在 Apache Kafka 的基础上,增加了许多企业级特性,被认为是“更完整的 Kafka”。)


via: https://www.opensourceforu.com/2021/11/apache-kafka-asynchronous-messaging-for-seamless-systems/

作者:Krishna Mohan Koyya 选题:lkxed 译者:lkxed 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

首颗树莓派卫星完成了创纪录的飞行

第一颗使用树莓派 Zero W 作为飞行计算机的迷你卫星于 5 月重新进入地球大气层,在太空中完成了创纪录的 117 天。这颗卫星于 2022 年 1 月从国际空间站部署,是由美国犹他州立大学的大学生们开发的。它是一个立方体模块,尺寸只有 10 厘米见方,使用现成的组件建造。这颗卫星 80% 以上的软件是用 Python 编写的,并且有个装置检查其“心跳”,如果出现问题就重启解决,事实证明“重启试试”在太空同样有效。其主要目的是测试一个实验性的充气稳定系统,成功地证明了小型航天器可以在轨道上自我稳定。

消息来源:ZDNet
老王点评:看来放个卫星也没什么难的,希望以后我们自己的空间站上也可以让同学们制造卫星放出去。

微软的内部 Linux 发行版支持内核实时补丁

上个月,微软发布了 CBL-Mariner 2.0 的第一个生产版本,这个微软内部的 Linux 发行版,用于支持从微软 Azure 到 WSL 用例等服务。CBL-Mariner 2.0 上周末进行了一次相当大的月度更新,增加了 Kpatch 以支持内核补丁,以及为内核启用实时补丁。

消息来源:Phoronix
老王点评:我感觉微软的这个内部发行版不声不响的也发展的挺快,真有一天抢了后 CentOS 市场,我觉得也不会太吃惊。

刚刚发布的 OpenSSL 3.0.4 可能存在一个比心脏流血更严重的漏洞

6 月 21 日发布的 OpenSSL 3.0.4 是为了解决一个命令注入漏洞,该漏洞在之前的补丁中没有完全解决。但这个版本本身需要进一步修复,安全研究人员称,它“容易受到远程内存损坏的影响,攻击者可以轻而易举地触发它”,可以被利用来在其中一台设备上运行任意的恶意代码。如果这个缺陷可以被远程利用(现在还不确定),它可能比心脏流血漏洞更严重。好消息是这个漏洞只影响英特尔 2016 年至 2022 年初发布的带有 AVX512 的某些 x64 芯片。

消息来源:The Register
老王点评:虽然可能影响面有限,但是一旦发布新的版本就赶快升级吧。

Zeek 是一个开源的网络安全监控工具。本文讨论了如何将 Zeek 与 ELK 集成。

在本杂志 2022 年 3 月版发表的题为“用 Zeek 轻松实现网络安全监控”的文章中,我们研究了 Zeek 的功能,并学习了如何开始使用它。现在我们将把我们的学习经验再进一步,看看如何将其与 ELK(即 Elasticsearch、Kibana、Beats 和 Logstash)整合。

为此,我们将使用一个叫做 Filebeat 的工具,它可以监控、收集并转发日志到 Elasticsearch。我们将把 Filebeat 和 Zeek 配置在一起,这样后者收集的数据将被转发并集中到我们的 Kibana 仪表盘上。

安装 Filebeat

让我们首先将 Filebeat 与 Zeek 安装在一起。使用 apt 来安装 Filebeat,使用以下命令:

sudo apt install filebeat

接下来,我们需要配置 .yml 文件,它位于 /etc/filebeat/ 文件夹中:

sudo nano /etc/filebeat/filebeat.yml

我们只需要在这里配置两件事。在 Filebeat 输入部分,将类型改为 log,并取消对 enabled:false 的注释,将其改为 true。我们还需要指定存储日志的路径,也就是说,我们需要指定 /opt/zeek/logs/current/*.log

完成这些后,设置的第一部分应该类似于图 1 所示的内容。

Figure 1: Filebeat config (a)

第二件要修改的事情是在输出下的 Elasticsearch 输出部分,取消对 output.elasticsearchhosts 的注释。确保主机的 URL 和端口号与你安装 ELK 时配置的相似。我们把它保持为 localhost,端口号为 9200

在同一部分中,取消底部的用户名和密码的注释,输入安装后配置 ELK 时生成的 Elasticsearch 用户的用户名和密码。完成这些后,参考图 2,检查设置。

Figure 2: Filebeat config (b)

现在我们已经完成了安装和配置,我们需要配置 Zeek,使其以 JSON 格式存储日志。为此,确保你的 Zeek 实例已经停止。如果没有,执行下面的命令来停止它:

cd /opt/zeek/bin
./zeekctl stop

现在我们需要在 local.zeek 中添加一小行,它存在于 opt/zeek/share/zeek/site/ 目录中。

以 root 身份打开该文件,添加以下行:

@load policy/tuning/json-logs.zeek

参考图 3,确保设置正确。

Figure 3: local.zeek file

由于我们改变了 Zeek 的一些配置,我们需要重新部署它,这可以通过执行以下命令来完成:

cd /opt/zeek/bin
./zeekctl deploy

现在我们需要在 Filebeat 中启用 Zeek 模块,以便它转发 Zeek 的日志。执行下面的命令:

sudo filebeat modules enable zeek

我们几乎要好了。在最后一步,配置 zeek.yml 文件要记录什么类型的数据。这可以通过修改 /etc/filebeat/modules.d/zeek.yml 文件完成。

在这个 .yml 文件中,我们必须提到这些指定的日志存放在哪个目录下。我们知道,这些日志存储在当前文件夹中,其中有几个文件,如 dns.logconn.logdhcp.log 等等。我们需要在每个部分提到每个路径。如果而且只有在你不需要该文件/程序的日志时,你可以通过把启用值改为 false 来舍弃不需要的文件。

例如,对于 dns,确保启用值为 true,并且路径被配置:

var.paths: [ “/opt/zeek/logs/current/dns.log”, “/opt/zeek/logs/*.dns.json” ]

对其余的文件重复这样做。我们对一些我们需要的文件做了这个处理。我们添加了所有主要需要的文件。你也可以这样做。请参考图 4。

Figure 4: zeek.yml configuration

现在是启动 Filebeat 的时候了。执行以下命令:

sudo filebeat setup
sudo service filebeat start

现在一切都完成了,让我们移动到 Kibana 仪表板,检查我们是否通过 Filebeat 接收到来自 Zeek 的数据。

Figure 5: Dashboard of Kibana (Destination Geo)

进入仪表板。你可以看到它所捕获的数据的清晰统计分析(图 5 和图 6)。

Figure 6: Dashboard of Kibana (Network)

现在让我们进入发现选项卡,通过使用查询进行过滤来检查结果:

event.module: "zeek"

这个查询将过滤它在一定时间内收到的所有数据,只向我们显示名为 Zeek 的模块的数据(图 7)。

Figure 7: Filtered data by event.module query

鸣谢

作者感谢 VIT-AP 计算机科学与工程学院的 Sibi Chakkaravarthy Sethuraman、Sudhakar Ilango、Nandha Kumar R.和Anupama Namburu 的不断指导和支持。特别感谢人工智能和机器人技术卓越中心(AIR)。


via: https://www.opensourceforu.com/2022/06/integrating-zeek-with-elk-stack/

作者:Tridev Reddy 选题:lkxed 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

学习这个 Python 教程,轻松提取网页的有关信息。

浏览网页可能占了你一天中的大部分时间。然而,你总是需要手动浏览,这很讨厌,不是吗?你必须打开浏览器,然后访问一个网站,单击按钮,移动鼠标……相当费时费力。如果能够通过代码与互联网交互,岂不是更好吗?

在 Python 的 requests 模块的帮助下,你可以使用 Python 从互联网中获取数据:

import requests

DATA = "https://opensource.com/article/22/5/document-source-code-doxygen-linux"
PAGE = requests.get(DATA)

print(PAGE.text)

在以上代码示例中,你首先导入了 requests 模块。接着,你创建了两个变量:其中一个叫做 DATA,它用来保存你要下载的 URL。在之后的代码中,你将能够在每次运行应用程序时提供不同的 URL。不过,就目前而言,最简单的方法是“硬编码”一个测试 URL,以达到演示目的。

另一个变量是 PAGE。代码读取了存储在 DATA 中的 URL,然后把它作为参数传入 requests.get 函数,最后用变量 PAGE 来接收函数的返回值。requests 模块及其 .get 函数的功能是:“读取”一个互联网地址(一个 URL)、访问互联网,并下载位于该地址的任何内容。

当然,其中涉及到很多步骤。幸运的是,你不必自己弄清楚,这也正是 Python 模块存在的原因。最后,你告诉 Python 打印 requests.get 存储在 PAGE 变量的 .text 字段中的所有内容。

Beautiful Soup

如果你运行上面的示例代码,你会得到示例 URL 的所有内容,并且,它们会不加选择地输出到你的终端里。这是因为在代码中,你对 requests 收集到的数据所做的唯一事情,就是打印它。然而,解析文本才是更加有趣的。

Python 可以通过其最基本的功能来“读取”文本,但解析文本允许你搜索模式、特定单词、HTML 标签等。你可以自己解析 requests 返回的文本,不过,使用专门的模块会容易得多。针对 HTML 和 XML 文本,我们有 Beautiful Soup 库。

下面这段代码完成了同样的事情,只不过,它使用了 Beautiful Soup 来解析下载的文本。因为 Beautiful Soup 可以识别 HTML 元素,所以你可以使用它的一些内置功能,让输出对人眼更友好。

例如,在程序的末尾,你可以使用 Beautiful Soup 的 .prettify 函数来处理文本(使其更美观),而不是直接打印原始文本:

from bs4 import BeautifulSoup
import requests

PAGE = requests.get("https://opensource.com/article/22/5/document-source-code-doxygen-linux")
SOUP = BeautifulSoup(PAGE.text, 'html.parser')

# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    # do a thing here
    print(SOUP.prettify())

通过以上代码,我们确保了每个打开的 HTML 标签都输出在单独的一行,并带有适当的缩进,以帮助说明标签的继承关系。实际上,Beautiful Soup 能够通过更多方式来理解 HTML 标签,而不仅仅是将它打印出来。

你可以选择打印某个特定标签,而不是打印整个页面。例如,尝试将打印的选择器从 print(SOUP.prettify()) 更改为:

print(SOUP.p)

这只会打印一个 <p> 标签。具体来说,它只打印遇到的第一个 <p> 标签。要打印所有的 <p> 标签,你需要使用一个循环。

循环

使用 Beautiful Soup 的 find_all 函数,你可以创建一个 for 循环,从而遍历 SOUP 变量中包含的整个网页。除了 <p> 标签之外,你可能也会对其他标签感兴趣,因此最好将其构建为自定义函数,由 Python 中的 def 关键字(意思是 “定义” define )指定。

def loopit():
    for TAG in SOUP.find_all('p'):
        print(TAG)

你可以随意更改临时变量 TAG 的名字,例如 ITEMi 或任何你喜欢的。每次循环运行时,TAG 中都会包含 find_all 函数的搜索结果。在此代码中,它搜索的是 <p> 标签。

函数不会自动执行,除非你显式地调用它。你可以在代码的末尾调用这个函数:

# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    # do a thing here
    loopit()

运行代码以查看所有的 <p> 标签和它们的内容。

只获取内容

你可以通过指定只需要 “ 字符串 string ”(它是 “ 单词 words ” 的编程术语)来排除打印标签。

def loopit():
    for TAG in SOUP.find_all('p'):
        print(TAG.string)

当然,一旦你有了网页的文本,你就可以用标准的 Python 字符串库进一步解析它。例如,你可以使用 lensplit 函数获得单词个数:

def loopit():
    for TAG in SOUP.find_all('p'):
        if TAG.string is not None:
            print(len(TAG.string.split()))

这将打印每个段落元素中的字符串个数,省略那些没有任何字符串的段落。要获得字符串总数,你需要用到变量和一些基本数学知识:

def loopit():
    NUM = 0
    for TAG in SOUP.find_all('p'):
        if TAG.string is not None:
            NUM = NUM + len(TAG.string.split())
    print("Grand total is ", NUM)

Python 作业

你可以使用 Beautiful Soup 和 Python 提取更多信息。以下是有关如何改进你的应用程序的一些想法:

  • 接受输入,这样你就可以在启动应用程序时,指定要下载和分析的 URL。
  • 统计页面上图片(<img> 标签)的数量。
  • 统计另一个标签中的图片(<img> 标签)的数量(例如,仅出现在 <main> div 中的图片,或仅出现在 </p> 标签之后的图片)。

via: https://opensource.com/article/22/6/analyze-web-pages-python-requests-beautiful-soup

作者:Seth Kenlon 选题:lkxed 译者:lkxed 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

这会成为放弃基于 Chromium 的浏览器并开始使用 Firefox 的一个理由吗?也许吧,决定权在你。

Chrome 扩展追踪器

即使你有了所有的隐私扩展和各种保护功能,别人仍然有方法可以识别你或跟踪你。

请注意,并非所有浏览器都是如此,本文中,我们主要关注基于 Chromium 的浏览器,并将谷歌 Chrome 作为“主要嫌疑人”。

以前,在 Chromium 浏览器上,尽管别人已经能够检测到你已安装的扩展程序,但许多扩展程序都实施了某些保护措施来防止这种检测。

然而,一位名为 “z0ccc” 的安全研究人员发现了一种检测已安装 Chrome 浏览器扩展程序的新方法,该方法可进一步用于通过“浏览器指纹识别”来跟踪你

如果你还不知道的话: 浏览器指纹识别 Browser Fingerprinting 是指收集有关你的设备/浏览器的各种信息,以创建唯一的指纹 ID(哈希),从而在互联网上识别你的一种跟踪方法。“各种信息”包括:浏览器名称、版本、操作系统、已安装的扩展程序、屏幕分辨率和类似的技术数据。

这听起来像是一种无害的数据收集技术,但可以使用这种跟踪方法在线跟踪你。

检测谷歌 Chrome 扩展

研究人员发布了一个开源项目 “Extension Fingerprints”,你可以使用它来测试你安装的 Chrome 扩展是否能被检测到。

新技术涉及一种“时间差”方法,该工具比较了扩展程序获取资源的时间。与浏览器上未安装的其他扩展相比,受保护的扩展需要更多时间来获取资源。因此,这有助于从 1000 多个扩展列表中识别出一些扩展。

关键是:即使有了各种新的进步和技术来防止跟踪,Chrome 网上应用店的扩展也可以被检测到。

并且,在检测到已安装的扩展程序后,别人可以就使用浏览器指纹识别,对你进行在线跟踪。

令人惊讶的是,即使你安装有 uBlocker、AdBlocker、或 Privacy Badger(一些流行的以隐私为重点的扩展程序)之类的扩展程序,使用了这种方法,它们也都可以被检测到。

你可以在它的 GitHub 页面 上查看所有技术细节。如果你想自己测试它,请前往它的 扩展指纹识别网站 自行检查。

拯救 Firefox?

嗯,似乎是的,毕竟我出于各种原因,不断回到 Firefox

这个新发现的(跟踪)方法应该适用于所有基于 Chromium 的浏览器。我在 Brave 和谷歌 Chrome 上都测试了这个方法。研究人员还提到,该工具不能在使用微软应用商店中的扩展的微软 Edge 上工作。但是,相同的跟踪方法仍然有效。

正如研究人员指出,Mozilla Firefox 可以避免这种情况,因为每个浏览器实例的扩展 ID 都是唯一的。


via: https://news.itsfoss.com/chrome-extension-tracking/

作者:Ankush Das 选题:lkxed 译者:lkxed 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

Qt Creator 就是丰富的 Qt 库和程序员之间的粘合剂。

 title=

Qt Creator 是 Qt 框架的默认集成开发环境(IDE),同时也是丰富的 Qt 库和用户之前的粘合剂。除了如智能代码补全、调试、项目管理等基础功能外,Qt Creator 还提供了很多让软件开发变得更简单的特性。

在这篇文章中,我会重点介绍一些我最喜欢的 Qt Creator 特性。

深色模式

当我使用一个新的应用时,我的第一个问题是:它有深色模式吗? Qt Creator 的回答是:你更喜欢哪一种深色模式呢?

你可以在“ 选项 Options ”菜单中激活深色模式。在顶部的菜单栏中,点击“ 工具 Tools ”,选择“ 选项 Options ”,然后转到“ 环境 Environment ”部分。下面是你能选择的常用外观:

 title=

定制外观

像每一个 Qt 应用一样,借助样式表,Qt Creator 的外观是高度可定制化的。下面,你可以按照我的做法给 Qt Creator一个想要的外观。

将下面这些内容写入 mycustomstylesheet.css 文件中:

QMenuBar { background-color: olive }
QMenuBar::item { background-color: olive }
QMenu { background-color : beige; color : black }
QLabel { color: green }

然后使用命令行开启 Qt Creator,将样式表作为参数传入:

qtcreator -stylesheet=mycustomstylesheet.css

IDE 现在看上去应该会变成这样:

 title=

在这份 文档 中可以查阅更多的样式表。

命令行参数

Qt Creator 可接受很多命令行选项。例如,如果想在启动时自动加载当前项目,那么你可以将它的路径传入:

qtcreator ~/MyProject/MyQtProject.pro

你甚至可以将默认应该打开的文件和行数作为参数传递。下面这个命令打开 main.cpp 20 行处:

qtcreator ~/MyProject/main.cpp:20

在这份 文档 中可以查阅更多 Qt 特有的命令行选项。

Qt Creator 和一般的 Qt 应用无二,所以,除了自己的命令行参数以外,它也接收 QApplicationQGuiApplication 的一般参数。

交叉编译

Qt Creator 允许你定义一些被称为“ 配套 Kit ”的工具链。 “配套” 定义了构建和运行应用所需要的二进制库和 SDK。

 title=

这使得你通过两次点击,就在完全不同的工具链之间切换。

 title=

在这份 手册 中可以查阅更多关于配套的内容。

分析工具

Qt Creator 集成了一些最流行的性能分析工具,例如:

 title=

调试器

在调试方面,Qt Creator 为 GNU Debugger(GDB)配备了一个很好的界面。我喜欢它检查容器类型和创建条件断点的方式,很简单。

 title=

FakeVim

如果你喜欢 Vim,你可以在设置中开启 FakeVim,来像 Vim 一样控制 Qt Creator。点击“ 工具 Tools ”,选择“ 选项 Options ”。在 “FakeVim” 选项中,你可以找到许多开关来定制 FakeVim。除了编辑器的功能外,你可以将自己设置的功能和命令关联起来,定制 Vim 命令。

举个例子,你可以将“ 构建项目 Build Project ”的功能和 build 命令关联到一起:

 title=

回到编辑器中,当你按下冒号(:)并输入 build,Qt Creator 利用配置的工具链,开始进行构建:

 title=

你可以在这份 文档 中找到 FakeVim 的更多信息。

类检测器

当使用 C++ 开发时,点击 Qt Creator 右下角的按钮可打开右边的窗口。然后在窗口顶部拉下的菜单中选择“ 大纲 Outline ”。如果你在左侧窗体中有头文件打开,你可以很好地纵览定义的类和类型。如果你切换到源文件中(*.cpp),右侧窗体会列出所有定义的方法,双击其中一个,你可以跳转到这个方法:

 title=

项目配置

Qt Creator 的项目建立在项目目录里的 *.pro-file 之上。你可以为你的项目在 *.pro-file 中添加定制的配置。我向 *.pro-file 中添加了 my_special_config,它向编译器的定义添加 MY_SPECIAL_CONFIG

QT -= gui

CONFIG += c++11 console
CONFIG -= app_bundle

CONFIG += my_special_config

my_special_config {
DEFINES += MY_SPECIAL_CONFIG
}

Qt Creator 自动根据当前配置设置代码高亮:

 title=

*.pro-file 使用 qmake 语言 进行编写。

总结

这些特性仅仅是 Qt Creators 所提供的特性的冰山一角。初学者们应该不会感到被其众多的功能所淹没,Qt Creator 是一款对初学者很友好的 IDE。它甚至可能是入门 C++ 开发最简单的方式。如果要获得 QT Creator 特性的全面概述,请参考它的 官方文档

(插图来自 Stephan Avenwedde, CC BY-SA 4.0


via: https://opensource.com/article/21/6/qtcreator

作者:Stephan Avenwedde 选题:lujun9972 译者:hadisi1993 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出