标签数据下的文章

硬核观察 #587 苹果准备推出硬件订阅方案

硬核老王发布于 2022-03-27
另请参阅: 硬核观察,数据, 苹果, DDoS
评论

苹果准备推出硬件订阅方案

类似数字订阅服务，苹果准备推出硬件订阅方案，硬件订阅与分期付款不同，消费者将允许在新产品推出之后更换到新产品。苹果通常每年更新一次产品线。硬件订阅有可能在 2022 年底或 2023 年推出，但也可能会被取消。这有助于产生更多收入，让消费者更容易采用新设备。iPhone 是苹果最大的收入来源，去年销售收入 1920 亿美元，占总收入的一半以上。

老王点评：我觉得和苹果已有的换机计划差不多，也许以后会成为流行模式，但是目前看起来不大会得到接受。

DDoS 攻击的规模和复杂性都在增加

根据一份新报告，到去年最后一个季度，记录的平均攻击规模超过 21Gbps，是 2020 年初水平的 4 倍多。去年一年还多次打破有史以来最大的攻击记录，其中一次网络攻击的量级为 1.4Tbps，比前一年的纪录大五倍以上。带宽攻击占所有监测到的攻击的 59%，比前一年的 66% 略有下降。金融业是 2021 年最受 DDoS 攻击的行业，占总量的四分之一以上。它和电信、教育分别名列前三，而 2020 年最受攻击的技术行业已经下降到了第四。

老王点评：随着互联网的发展，DDoS 规模一直在不断升级，而业界也并没有能根本解决它的方法。

美国和欧盟就数据隐私达成初步协议

美国和欧盟达成了一项初步协议，允许将欧洲人的数据储存在美国本土，从而避免对数千家公司的跨大西洋业务造成日益严重的威胁。它也缓解了包括 Meta 和谷歌等公司的担忧，这些公司在数据传输方面面临着越来越多的法律挑战，而数据传输是它们在欧洲的一些业务的基础。之前，我们报道过有欧洲公司因使用谷歌字体和谷歌分析而被法院裁决向用户赔付。如果达成了这项协议，就能解决这种问题。

老王点评：虽然欧盟和美国向来穿一条裤子，不过这个协议也没那么好达成。

4 个用来擦除数据的 Linux 工具

Don Watkins 发布于 2021-10-23
另请参阅: 技术,删除, 数据, 擦除
评论

用这些开源工具从你的硬盘驱动器中擦除数据。

title=

保持数据安全的最好方法之一是只向加密的硬盘驱动器写入数据。在一个标准的硬盘上，只要把硬盘挂载就可以查看数据，就像 U 盘一样，甚至可以用 Scalpel 和 Testdisk 等工具显示和恢复已删除的数据。但是在一个加密的驱动器上，如果没有解密密钥（通常是你在挂载驱动器时输入的密码），数据是无法被读取的。

加密可以在你安装操作系统时建立，有些操作系统甚至可以在安装后的任何时候激活加密功能。

但是，当你卖掉一台电脑或更换一个一开始就没有被加密的驱动器时，你该怎么办呢？

与从一开始就加密你的数据相比，最好的办法是在你用完硬盘后删除数据。

负责任的看管者

我经常被要求帮助客户升级一台旧电脑。无一例外，他们更愿意帮助我回收它们，使它们能被别人使用。我很乐意翻新这些旧电脑，用较新的固态驱动器来改装它们，极大地提高性能。

然而，把一个旧驱动器扔进垃圾桶并不是一个好主意。它需要被擦除，然后被妥善处理。我没有把硬盘留在原来的电脑里，而是把它们取出来，放在一个硬盘盒里，然后把它们连接到我的 Linux 电脑上。有几个 Linux 工具可以很容易地完成这个任务。其中一个是 Gnu Shred。

GNU Shred

$ sudo shred -vfz /dev/sdX

Shred 有许多选项：

-n - 覆盖的次数。默认是三次。
-u - 覆盖并删除。
-s - 要粉碎的字节数。
-v - 显示扩展信息。
-f - 必要时强制改变权限以允许写入。
-z - 最后用 0 覆盖来隐藏粉碎。

使用 shred --help 获取更多信息

ShredOS

ShredOS 是一个即用 Live Linux 发行版，它的唯一目的是清除驱动器的全部内容。它是在一个名为 DBAN 的类似发行版停止维护后开发的。它使用 nwipe 应用，它是 DBAN 的 dwipe 的一个分叉。你可以通过下载 32 位或 64 位镜像，并在 Linux 和 macOS 上使用 dd 命令将其写入驱动器来制作一个可启动的 USB 驱动器：

$ sudo dd if=shredos.img of=/dev/sdX bs=4M status=progress

另外，你可以在 Linux、macOS 和 Windows 上使用 Etcher 工具烧录。

dd 命令

清除驱动器的一个常见方法是使用 Linux 的 dd 命令。几乎所有的 Linux 安装都安装了 dd 工具。确保该驱动器没有被挂载。

$ sudo umount /dev/sdXY -l

如果你想在整个目标磁盘上写零，执行以下命令。这可能需要一个整个通宵。

$ sudo dd if=/dev/urandom of=/dev/sdX bs=10M

警告：请确保你知道你在系统中的位置，并以正确的驱动器为目标，这样你就不会意外地删除自己的数据。

Nvme-cli

如果你的计算机包含一个较新的 NVMe 驱动器，你可以安装 nvme-cli 程序，并使用 sanitize 选项来清除你的驱动器。

nvme sanitize help 命令提供了选项列表：

--no-dealloc、-d - 净化后不解除分配。
--oipbp、-i - 每次覆写后反转模式。
--owpass=、-n - 覆写次数。
--ause、-u - 允许无限制净化退出。
--sanact=、-a - 净化动作。
--ovrpat=、-p - 覆写模式。

下面是我使用的命令：

$ sudo nvme sanitize /dev/nvme0nX

这里的警告与格式化过程相同：首先备份重要的数据，因为这个命令会擦除这些数据！

信息管理

你保存在计算机上的信息是很重要的。它属于你，也属于其他任何人。当你卖掉一台电脑或处理一个硬盘时，确保你已经用这些很棒的工具之一清除了你的数据。

via: https://opensource.com/article/21/10/linux-tools-erase-data

作者：Don Watkins 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

如何使用 Apache 软件处理实时数据

Simon Crosby 发布于 2021-10-17
另请参阅: 观点,数据, Apache
评论

开源以丰富的项目画布引领着处理实时事件的方向。

title=

在“永不下线”的未来，入网设备规模可能会达到数十亿。存储原始数据，日后再进行分析的方案将不再能满足需求，因为用户需要实时且准确的响应。要对故障等对环境敏感的状况进行预测，实时处理数据也必不可少 —— 数据到达数据库后再处理肯定是来不及的。

有人可能会说，“云可扩展性”能够满足实时处理流数据的需求，但一些简单的例子就能表明它永远无法满足对无界数据流进行实时响应的需求。从移动设备到物联网，都需要一种新的范式来满足需求。尽管云计算依赖于对大数据“先存储后分析”的方案，但也迫切需要一种能够处理持续、杂乱和海量数据流的软件框架，并在数据流到达时立即对其进行处理，以保证实时的响应、预测和对数据的洞悉。

例如，在加利福尼亚州的帕洛阿尔托市，每天从基础交通设施产生的流数据比 Twitter Firehose 还要多。这是很大的数据量。为 Uber、Lyft 和 FedEx 等消费者预测城市交通需要实时的分析、学习和预测。云处理不可避免地导致每个事件大约会有半秒的延迟。

我们需要一个简单而强大的编程范式，让应用程序在类似下面的情况时能够动态处理无界数据流：

数据量巨大，或原始数据的移动成本很高。
数据由广泛分布的资产（例如移动设备）生成。
数据具有转瞬即逝的价值，即时分析迫在眉睫。
需要始终洞悉最新数据情况，外推法行不通。

发布和订阅

事件驱动系统领域中有一个关键架构模式：发布/订阅 publish/subscribe 消息传递模式。这是一种异步通信方法，其中消息会从 发布者（数据产生方）传递到 订阅者（处理数据的应用程序）。发布/订阅模式可以将消息发送者与消费者分离开来。

在发布/订阅模式中，消息源会发布针对某个主题 topic 的事件 event 至服务端 broker ，后者按接收顺序存储它们。应用程序可以订阅一个或多个主题，然后 服务端 会转发匹配的事件。 Apache Kafka 和 Pulsar 以及 CNCF NATS 是发布/订阅系统。发布/订阅的云服务包括 Google Pub/Sub、AWS Kinesis、Azure Service Bus、Confluent Cloud 等。（LCTT 译注：本段部分术语英文名称更为泛用，针对这些术语，采用了中英文标注。）

发布/订阅系统不会运行订阅者应用程序，它们只是传递数据给相应主题的订阅者。

流数据通常包含应用程序或基础架构状态更新的事件。在选择架构来处理数据时，发布/订阅框架等数据分发系统的作用是有限的。消费者应用程序的“处理方式”超出了发布/订阅系统的范围。这让开发人员的管理变得极具复杂性。所谓的流处理器是一种特殊的订阅者，可以动态分析数据并将结果返回给同一个服务端。

Apache Spark

Apache Spark 是用于大规模数据处理的统一分析引擎。通常将 Apache Spark Streaming 用作流处理器，例如给机器学习模型提供新数据。Spark Streaming 将数据分成小批量，每个小批量都由 Spark 模型或其他系统独立分析。事件流可以被分组成小批量以进行分析，但流处理器本身必须具有弹性：

流处理器必须能够根据数据速率进行扩展，甚至要能够跨越服务器和云，并且还可以跨实例实现负载均衡，以确保弹性和其他应用层的需求。
它必须能够分析来自不同来源的数据，这些数据源的报告速率可能相差很大。这意味着它必须是有状态的，或者将状态存储在数据库中。当使用 Spark Streaming 作为流处理器时，通常会使用后一种方法，这种方法在需要超低延迟响应时可能会存在性能问题。

相关项目 Apache Samza 也提供了一种处理实时事件流的方法，并使用 Hadoop Yarn 或 Apache Mesos 来管理计算资源，以便进行弹性扩展。

解决数据扩展问题

需要注意的是，即使是 Samza 也不能完全减轻开发人员的数据处理需求。扩展数据规模意味着处理事件的任务需要跨多个实例进行负载均衡，而使用数据库是实例间共享结果应用层状态的唯一方法。然而，当应用程序任务之间的状态协调转移到数据库时，对性能会产生不可避免的连锁反应。此外，数据库的选择也至关重要。随着系统的扩展，数据库的集群管理会成为下一个潜在的瓶颈。

这个问题可以通过有状态、有弹性的替代方案来解决，并且这样的解决方案可以用来代替流处理器。在应用程序级别（容器或实例内），这些解决方案依据流的更新，动态构建并发、互连的“web 代理”的有状态模型。代理是并发的“微服务”，它们消费单一来源的原始数据并维护它们的状态。基于数据中发现的源之间的真实关系（如包含和临近）,代理实现互连以共享状态。代理也因此形成了一个并发服务图，可以分析它们自己的状态和链接到的代理的状态。数据源将原始数据转换为状态，并根据自身及其链接子图的变化进行分析、学习和预测，每个代理都为单个这样的数据源提供微服务。

这些解决方案允许大量的代理（真实数据源的数字类比）分布，甚至还有在应用层使代理互连的分布式图，从而简化了应用架构。这是因为代理之间互连的本质，是映射到解决方案的当前运行时执行实例和代理本身的 URL。通过这种方式，应用程序可以跨实例无缝扩展，而无需担心 DevOps 问题。代理消费数据并维护状态，还会计算自己和其他代理的状态。由于代理是有状态的，因此不需要数据库，并且数据洞察是以内存速度计算的。

使用开源阅读数据世界

我们查看数据的方式正在发生翻天覆地的变化：不再将数据库用作记录系统，取而代之的是现实世界，现实世界事物的数字类比可以不断地传输它们的状态。幸运的是，开源社区在处理实时事件的项目丰富度方面处于领先地位。从发布/订阅模式（其中最活跃的社区是 Apache Kafka、Pulsar 和 CNCF NATS）到持续处理流数据的分析框架，包括 Apache Spark、Flink、Beam、Samza，以及 Apache 许可的 SwimOS 和 Hazelcast，对开发人员来说，可选择项目非常之多。可以说，没有什么地方比开源社区的专有软件框架更多了。试看软件的未来，必是开源的天下。

via: https://opensource.com/article/20/2/real-time-data-processing

作者：Simon Crosby 选题：lujun9972 译者：unigeorge 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

用这个开源工具让你的数据对老板友好起来

Juanjo Ortilles 发布于 2021-04-19
另请参阅: 分享,数据
评论

企业数据分析旨在将数据可视化带给日常商务用户。

title=

企业数据分析 Enterprise Data Analytics （EDA）是一个网页应用，它可以通过一个简单、清晰的界面来获取信息。

在巴塞罗那开源分析公司 Jortilles 工作几年后，我们意识到，现代世界强制性地收集数据，但普通人没有简单的方法来查看或解释这些数据。有一些强大的开源工具可用于此目的，但它们非常复杂。我们找不到一个工具设计成能让没有什么技术能力的普通人轻松使用。

我们之所以开发 EDA，是因为我们认为获取信息是现代组织的要求和义务，并希望为每个人提供获取信息的机会。

title=

可视化你的数据

EDA 使用人们已经理解的商业术语提供了一个数据模型。你可以选择你想要的信息，并可以以你想要的方式查看它。它的目标是对用户友好，同时又功能强大。

EDA 通过元数据模型将数据库中的信息可视化和丰富化。它可以从 BigQuery、Postgres、MariaDB、MySQL 和其他一些数据库中读取数据。这就把技术性的数据库模型转化为熟悉的商业概念。

它还设计为加快信息传播的速度，因为它可以利用已经存储在数据库中的数据。EDA 可以发现数据库的拓扑结构，并提出业务模型。如果你设计了一个好的数据库模型，你就有了一个好的业务模型。EDA 还可以连接到生产服务器，提供实时分析。

这种数据和数据模型的结合意味着你和你组织中的任何人都可以分析其数据。然而，为了保护数据，你可以定义数据安全，可以精确到行，以授予正当的人访问正当的数据。

EDA 的一些功能包括：

自动生成数据模型
一致的数据模型，防止出现不一致的查询
高级用户的 SQL 模式
数据可视化：
- 标准图表（如柱状图、饼状图、线状图、树状图）
- 地图整合（如 geoJSON shapefile、纬度、经度）
- 电子邮件提醒，可通过关键绩效指标（KPI）来定义
私人和公共信息控制，以启用私人和公共仪表板，你可以通过链接分享它。
数据缓存和程序刷新。

如何使用 EDA

用 EDA 实现数据可视化的第一步是创建数据模型。

创建数据模型

首先，在左侧菜单中选择 “New Datasource”。

接下来，选择你的数据存储的数据库系统（如 Postgres、MariaDB、MySQL、Vertica、SqlServer、Oracle、Big Query），并提供连接参数。

EDA 将自动为你生成数据模型。它读取表和列，并为它们定义名称以及表之间的关系。你还可以通过添加虚拟视图或 geoJSON 图来丰富你的数据模型。

制作仪表板

现在你已经准备好制作第一个仪表板了。在 EDA 界面的主页面上，你应该会看到一个 “New dashboard” 按钮。点击它，命名你的仪表板，并选择你创建的数据模型。新的仪表板将出现一个面板供你配置。

要配置面板，请单击右上角的 “Configuration” 按钮，并选择你要做的事情。在 “Edit query” 中，选择你要显示的数据。这将出现一个新的窗口，你的数据模型由实体和实体的属性表示。选择你要查看的实体和你要使用的属性。例如，对于名为 “Customers” 的实体，你可能会显示 “Customer Name”，对于 “Sales” 实体，你可能希望显示 “Total Sales”。

接下来，运行一个查询，并选择你想要的可视化。

title=

你可以添加任意数量的面板、过滤器和文本字段，所有这些都有说明。当你保存仪表板后，你可以查看它，与同事分享，甚至发布到互联网上。

获取 EDA

最快的方法是用公开演示来查看 EDA。但如果你想自己试一试，可以用 Docker 获取最新的 EDA 版本：

$ docker run -p 80:80 jortilles / eda: latest

我们还有一个 SaaS 选项，适用于任何想要使用 EDA 而无需进行安装、配置和持续更新的用户。你可以在我们的网站上查看云选项。

如果你想看看它的实际运行情况，你可以在 YouTube 上观看一些演示。

EDA 正在持续开发中，你可以在 GitHub 上找到它的源代码。

via: https://opensource.com/article/21/4/visualize-data-eda

作者：Juanjo Ortilles 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

13 个开源备份解决方案

Don Watkins 发布于 2019-03-26
另请参阅: 技术,备份, 数据
评论

读者们推荐了超过一打的他们喜欢的数据保护解决方案。

最近，我发起了一个投票，让读者投票选出他们最喜欢的开源备份解决方案。在我们的版主社区上，我们提供了六个推荐的解决方案 —— Cronopete、Deja Dup、Rclone、Rdiff-backup、Restic、和 Rsync，而参与的读者也在评论区分享了一些其它的选择。并且读者提供的这 13 个其它的解决方案，（到目前为止）我们要么是没有想到，要么是没有听说过。

到目前为止，最受欢迎的推荐是 BorgBackup。它是一个带有压缩和加密特性以用具有数据去重功能的备份解决方案。它基于 BSD 许可证，支持 Linux、MacOS 和 BSD。

第二个是 UrBackup，它可以做镜像和文件的完整和增量备份；你可以保存整个分区或单个目录。它有 Windows、Linux、和 MacOS 客户端，并且采用 GNU Affero 公共许可证。

第三个是 LuckyBackup；根据其网站介绍，“它是一个易于使用、快速（只传输变化部分，而不是全部数据）、安全（在做任何数据操作之前，先检查所有需要备份的目录，以确保数据安全）、可靠和完全可定制的备份解决方案。它在 GPL 许可证下发行。

Casync 是一个可寻址内容的同步解决方案 —— 它设计用于备份、同步、存储和检索大文件系统的多个相关版本。它使用 GNU Lesser 公共许可证。

Syncthing 是用于在两台计算机之间同步文件。它基于 Mozilla 公共许可证使用，根据其网站介绍，它是安全和私密的。它可以工作于 MacOS、Windows、Linux、FreeBSD、Solaris 和 OpenBSD。

Duplicati 是一个可工作于 Windows、MacOS 和 Linux 上的、并且支持多种标准协议（比如 FTP、SSH、WebDAV 和云服务）、免费的备份解决方案。它的特性是强大的加密功能，并且它使用 GPL 许可证。

Dirvish 是一个基于磁盘的虚拟镜像备份系统，它使用 OSL-3.0 许可证。它要求必须安装有 Rsync、Perl5、SSH。

Bacula 的网站上介绍说：”它是允许系统管理员去管理备份、恢复、和跨网络的不同种类计算机上的多种数据的一套计算机程序“，它支持在 Linux、FreeBSD、Windows、MacOS、OpenBSD 和 Solaris 上运行，并且它的大部分源代码都是基于 AGPLv3 许可证的。

BackupPC 的网站上介绍说：”它是一个高性能的、企业级的、可以备份 Linux、Windows 和 MacOS 系统的 PC 和笔记本电脑上的数据到服务器磁盘上的备份解决方案“。它是基于 GPLv3 许可证的。

Amanda 是一个使用 C 和 Perl 写的备份系统，它允许系统管理员去备份整个网络中的客户端到一台服务器上的磁带、磁盘或基于云的系统。它是由马里兰大学于 1991 年开发并拥有版权，并且它有一个 BSD 式的许可证。

Back in Time 是一个为 Linux 设计的简单的备份实用程序。它提供了命令行和图形用户界面，它们都是用 Python 写的。去执行一个备份，只需要指定存储快照的位置、需要备份的文件夹，和备份频率即可。它使用的是 GPLv2 许可证。

Timeshift 是一个 Linux 上的备份实用程序，它类似于 Windows 上的系统恢复和 MacOS 上的时间胶囊。它的 GitHub 仓库上介绍说：“Timeshift 通过定期递增的文件系统快照来保护你的系统。这些快照可以在日后用于数据恢复，以撤销某些对文件系统的修改。”

Kup 是一个能够帮助用户备份它们的文件到 USB 驱动器上的备份解决方案，但它也可以用于执行网络备份。它的 GitHub 仓库上介绍说：”当插入你的外部硬盘时，Kup 将自动启动并复制你的最新的修改。“

感谢大家在我们的投票中分享你们喜爱的开源备份解决方案！如果还有其它的、没有提到的开源备份解决方案，请在下面的评论区分享它们。

via: https://opensource.com/article/19/3/backup-solutions

作者：Don Watkins 选题：lujun9972 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

Textricator：让数据提取变得简单

Stephen Byrne 发布于 2018-08-05
另请参阅: 分享,数据, PDF, 提取
评论

这个新的开源工具可以从 PDF 文档中提取复杂的数据，而无需编程技能。

你可能知道这种感觉：你请求得到数据并得到积极的响应，只打开电子邮件并发现一大堆附加的 PDF。数据——中断。

我们理解你的挫败感，并为此做了一些事情：让我们介绍下 Textricator，这是我们的第一个开源产品。

我们是 “Measures for Justice”（MFJ），一个刑事司法研究和透明度组织。我们的使命是为整个司法系统从逮捕到定罪后提供数据透明度。我们通过制定一系列多达 32 项指标来实现这一目标，涵盖每个县的整个刑事司法系统。我们以多种方式获取数据 —— 当然，所有这些都是合法的 —— 虽然许多州和县机构都掌握数据，可以为我们提供 CSV 格式的高质量格式化数据，但这些数据通常捆绑在软件中，没有简单的方法可以提取。PDF 报告是他们能提供的最佳报告。

开发者 Joe Hale 和 Stephen Byrne 在过去两年中一直在开发 Textricator，它用来提取数万页数据供我们内部使用。Textricator 可以处理几乎任何基于文本的 PDF 格式 —— 不仅仅是表格，还包括复杂的报表，其中包含从 Crystal Reports 等工具生成的文本和细节部分。只需告诉 Textricator 你要收集的字段的属性，它就会整理文档，收集并写出你的记录。

不是软件工程师？Textricator 不需要编程技巧。相反，用户描述 PDF 的结构，Textricator 处理其余部分。大多数用户通过命令行运行它。但是，你可以使用基于浏览器的 GUI。

我们评估了其他很好的开源解决方案，如 Tabula，但它们无法处理我们需要抓取的一些 PDF 的结构。技术总监 Andrew Branch 说：“Textricator 既灵活又强大，缩短了我们花费大量时间处理大型数据集的时间。”

在 MFJ，我们致力于透明度和知识共享，其中包括向任何人提供我们的软件，特别是那些试图公开自由共享数据的人。Textricator 可以在 GitHub 上找到，并在 GNU Affero 通用公共许可证第 3 版下发布。

你可以在我们的免费在线数据门户上查看我们的工作成果，包括通过 Textricator 处理的数据。Textricator 是我们流程的重要组成部分，我们希望民间技术机构和政府组织都可以使用这个新工具解锁更多数据。

如果你使用 Textricator，请告诉我们它如何帮助你解决数据问题。想要改进吗？提交一个拉取请求。

via: https://opensource.com/article/18/7/textricator

作者：Stephen Byrne 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出