标签 SEO 下的文章

1 扎克伯格的新目标是创造人工通用智能

Meta 首席执行官 马克·扎克伯格 Mark Zuckerberg 又一次有了新的目标,就是创造一个人工通用智能(AGI)。虽然他还没有一个实现 AGI 的时间表,甚至没有一个确切的定义(当然,其他人也没有),但他希望能够实现这一目标。他合并了 Meta 内部的两个人工智能部门以改变局面。外部研究预测,Meta 的 H100 储备在 2023 年将达到 15 万个,这与微软的储备持平,至少是其他公司的三倍。扎克伯格表示,如果算上英伟达 A100 和其他人工智能芯片,到 2024 年底,Meta 将拥有近 60 万个 GPU 储备。

(插图:DA/85619bd5-7a44-4222-bb8b-53a77402a7c0)

消息来源:The Verge
老王点评:这次不准备公司改名了?我觉得他真是一个追赶热点的好手。

2 搜索引擎在与 SEO 的战争中败北

低质量 SEO 网站与搜索引擎在搜索排名上展开了激烈的竞争,他们通过操纵 SEO 进入搜索前列,然后搜索引擎调整算法降低其排名。SEO 工程师会调整参数再次挫败搜索引擎的努力。研究人员分析了一年内谷歌、必应和 DuckDuckGo 上 7392 个商品评论术语的搜索结果,他们发现低质量的 SEO 网站占领了搜索结果前列,大多数情况下搜索引擎调整算法对抗 SEO 效果只能持续较短时间。

(插图:DA/da3987e6-9a49-4a00-88bd-81fd1b997870)

消息来源:404media
老王点评:到底是道高一尺,还是魔高一丈?

3 红帽工程师开发利用 AI 识别构建错误的工具

每次构建 RPM 包都会产生数千行输出,这些输出被分割到多个日志文件中,而相关的错误信息可能出现在任何地方,这就像大海捞针。红帽工程师开发人员目前正在开发一个名为 “Log Detective” 的工具,训练一个人工智能模型来理解 RPM 的构建日志,用简单的语言解释故障,并给出修复建议。你根本不需要打开日志,就可以更容易找出构建失败的原因。

(插图:DA/96d08c7a-58aa-4dcb-9fa0-f52f49f7ee86)

消息来源:Phoronix
老王点评:这样的工具要是真有用的话,希望以后的系统日志都可以这样说人话。

Fedora 38 考虑提供面向手机的版本

虽然 Fedora 37 还没有发布,但是开发人员已经在计划下一个版本。一个新的提案建议提供一个面向移动设备的 Phosh 镜像,用于运行专注于智能手机和平板电脑的 Wayland shell,同时提供一个良好的基于 GNOME 的体验。另外预计也会引入一个带有 KDE Plasma Mobile 的镜像。Fedora 38 预计明年春天发布。

消息来源:Phoronix
老王点评:期待看到 Fedora 运行在手机上。

罗马法院要求 Cloudflare 的 DNS 封锁 BT 网站

罗马法院已经确认,Cloudflare 必须通过其公共的 1.1.1.1 DNS 解析器阻止三个 BT 网站。Cloudflare 并不反对阻止针对其客户网站的请求,但认为干扰其 DNS 解析器是有问题的,因为这些措施不容易在地理上加以限制,将影响封锁该政府管辖范围以外的终端用户。

消息来源:Slashdot
老王点评:DNS 作为互联网流量入口的方向标,屡屡被用来做各种滥用。已经习惯了,不是吗?

15000 个网站被黑帽 SEO 利用

安全专家发现,有 15000 个网站(其中大部分是 WordPress 网站),这些网站被重定向到虚假的问答讨论区。恶意威胁者的目标是产生足够的索引页面,以增加虚假问答网站的权重,从而在搜索引擎中获得更好的排名。

消息来源:Bleeping Computer
老王点评:WordPress 这样的 CMS 系统越流行,其被一网打尽的可能越多,尤其是都采用了某些存在缺陷的插件或主题时。

部署恶意软件之前,黑客会先给它们进行 SEO

SEO 优化被网站管理员用来合法地增加网站在搜索引擎上的曝光率,然而现在研究人员发现,恶意行为者会在被入侵的网站上部署恶意软件前,先利用 SEO 手段为该网站进行 SEO,以使恶意软件可以传播到更多地方。

这就像一个攻击者入侵服务器之后,会堵上各种可能的安全漏洞以“独占”这台肉鸡一样,恶意行为者并不是为了让你更好,而是为了更好的利用被攻击者。

新版 NTFS 驱动程序进入 Linux 5.12 内核愿望成空

当前的 Linux 下 NFTS 驱动程序只能以只读方式挂载 NTFS 文件系统。而另外一种支持 NTFS 的方式是采用 FUSE 来支持它,但是性能上并不算太好。Paragon 的 NTFS3 驱动程序支持完全的读写操作、以及许多现有 Linux 驱动程序并不包含的功能。即便与 FUSE NTFS 驱动程序相比,Paragon NTFS3 驱动程序的性能也更高。

为了进入主线,Paragon 对其驱动程序进行了大量修改以满足上游要求、解决代码审查问题,并提交了第 22 次修改,以期望在下一次 Linux 内核发布时进入主线。

虽然 Paragon 一直在销售其第三方 NFTS 驱动程序,但是要进入 Linux 内核主线,内核社区对其的要求却是非常严格。从这里,我们也可以看出 Linux 内核团队的认真负责态度 —— 虽然被拒绝的贡献者会感觉挫败。

Brave 买了一个搜索引擎,以提供无跟踪的搜索体验

注重隐私的浏览器厂商 Brave 已经收购了搜索引擎 Tailcat,以替代谷歌搜索引擎。Brave 打算将 Tailcat 作为自己搜索服务 Brave Search 的基础。该公司希望其超过 2500 万月活的 Brave 客户在会选择将 Brave Search 作为默认搜索引擎。

这真是将隐私保护进行到底,说真的,在如今很多互联网产品对人们的隐私越来越滥用的环境下,这种关注于隐私的产品和服务会越来越得到青睐。

SEODeploy 可以帮助我们在网站部署之前识别出 SEO 问题。

作为一个技术性搜索引擎优化开发者,我经常被请来协助做网站迁移、新网站发布、分析实施和其他一些影响网站在线可见性和测量等领域,以控制风险。许多公司每月经常性收入的很大一部分来自用户通过搜索引擎找到他们的产品和服务。虽然搜索引擎已经能妥善地处理没有被良好格式化的代码,但在开发过程中还是会出问题,对搜索引擎如何索引和为用户显示页面产生不利影响。

我曾经也尝试通过评审各阶段会破坏 SEO( 搜索引擎优化 search engine optimization )的问题来手动降低这种风险。我的团队最终审查到的结果,决定了该项目是否可以上线。但这个过程通常很低效,只能用于有限的页面,而且很有可能出现人为错误。

长期以来,这个行业一直在寻找可用且值得信赖的方式来自动化这一过程,同时还能让开发人员和搜索引擎优化人员在必须测试的内容上获得有意义的发言权。这是非常重要的,因为这些团队在开发冲刺中优先级通常会发生冲突,搜索引擎优化者需要推动变化,而开发人员需要控制退化和预期之外的情况。

常见的破坏 SEO 的问题

我合作过的很多网站有成千上万的页面,甚至上百万。实在令人费解,为什么一个开发过程中的改动能影响这么多页面。在 SEO 的世界中,Google 或其他搜索引擎展示你的页面时,一个非常微小和看起来无关紧要的修改也可能导致全网站范围的变化。在部署到生产环境之前,必须要处理这类错误。

下面是我去年见过的几个例子。

偶发的 noindex

在部署到生产环境之后,我们用的一个专用的第三方 SEO 监控工具 ContentKing 马上发现了这个问题。这个错误很隐蔽,因为它在 HTML 中是不可见的,确切地说,它隐藏在服务器响应头里,但它能很快导致搜索不可见。

HTTP/1.1 200 OK
Date: Tue May 25 2010 21:12:42 GMT
[...]
X-Robots-Tag: noindex
[...]

canonical 小写

上线时错误地把整个网站的 canonical 链接元素全改成小写了。这个改动影响了接近 30000 个 URL。在修改之前,所有的 URL 大小写都正常(例如 URL-Path 这样)。这之所以是个问题是因为 canonical 链接元素是用来给 Google 提示一个网页真实的规范 URL 版本的。这个改动导致很多 URL 被从 Google 的索引中移除并用小写的版本(/url-path)重新建立索引。影响范围是流量损失了 10% 到 15%,也污染了未来几个星期的网页监控数据。

源站退化

有个网站的 React 实现复杂而奇特,它有个神奇的问题,origin.domain.com URL 退化显示为 CDN 服务器的源站。它会在网站元数据(如 canonical 链接元素、URL 和 Open Graph 链接)中间歇性地显示原始的主机而不是 CDN 边缘主机。这个问题在原始的 HTML 和渲染后的 HTML 中都存在。这个问题影响搜索的可见性和在社交媒体上的分享质量。

SEODeploy 介绍

SEO 通常使用差异测试工具来检测渲染后和原始的 HTML 的差异。差异测试是很理想的,因为它避免了肉眼测试的不确定性。你希望检查 Google 对你的页面的渲染过程的差异,而不是检查用户对你页面的渲染。你希望查看下原始的 HTML 是什么样的,而不是渲染后的 HTML,因为 Google 的渲染过程是有独立的两个阶段的。

这促使我和我的同事创造了 SEODeploy 这个“在部署流水线中用于自动化 SEO 测试的 Python 库。”我们的使命是:

开发一个工具,让开发者能提供若干 URL 路径,并允许这些 URL 在生产环境和预演环境的主机上进行差异测试,尤其是对 SEO 相关数据的非预期的退化。

SEODeploy 的机制很简单:提供一个每行内容都是 URL 路径的文本文件,SEODeploy 对那些路径运行一系列模块,对比 生产环境 production 预演环境 staging 的 URL,把检测到的所有的错误和改动信息报告出来。

 title=

这个工具及其模块可以用一个 YAML 文件来配置,可以根据预期的变化进行定制。

 title=

最初的发布版本包含下面的的核心功能和概念:

  1. 开源:我们坚信分享代码可以被大家批评、改进、扩展、分享和复用。
  2. 模块化:Web 开发中有许多不同的堆栈和边缘案例。SEODeploy 工具在概念上很简单,因此采用模块化用来控制复杂性。我们提供了两个建好的模块和一个实例模块来简述基本结构。
  3. URL 抽样:由于它不是对所有 URL 都是可行和有效的,因此我们引入了一种随机抽取 XML 网站地图 URL 或被 ContentKing 监控的 URL 作为样本的方法。
  4. 灵活的差异检测:Web 数据是凌乱的。无论被检测的数据是什么类型(如 ext、数组或列表、JSON 对象或字典、整数、浮点数等等),差异检测功能都会尝试将这些数据转换为差异信息。
  5. 自动化: 你可以在命令行来调用抽样和运行方法,将 SEODeploy 融合到已有的流水线也很简单。

模块

虽然核心功能很简单,但在设计上,SEODeploy 的强大功能和复杂度体现在模块上。模块用来处理更难的任务:获取、清理和组织预演服务器和生产服务器上的数据来作对比。

Headless 模块

Headless 模块 是为那些从库里获取数据时不想为第三方服务付费的开发者准备的。它可以运行任意版本的 Chrome,会从每组用来比较的 URL 中提取渲染的数据。

Headless 模块会提取下面的核心数据用来比较:

  1. SEO 内容,如标题、H1-H6、链接等等。
  2. 从 Chrome 计时器 Timings 和 CDP( Chrome 开发工具协议 Chrome DevTools Protocol )性能 API 中提取性能数据
  3. 计算出的性能指标,包括 CLS( 累积布局偏移 Cumulative Layout Shift ),这是 Google 最近发布的一个很受欢迎的 Web 核心数据
  4. 从上述 CDP 的覆盖率 API 获取的 CSS 和 JavaScript 的覆盖率数据

这个模块引入了处理预演环境、网络速度预设(为了让对比更规范化)等功能,也引入了一个处理在预演对比数据中替换预演主机的方法。开发者也能很容易地扩展这个模块,以收集他们想要在每个页面上进行比较的任何其他数据。

其他模块

我们为开发者创建了一个示例模块,开发者可以参照它来使用框架创建一个自定义的提取模块。另一个示例模块是与 ContentKing 结合的。ContentKing 模块需要有 ContentKing 订阅,而 Headless 可以在所有能运行 Chrome 的机器上运行。

需要解决的问题

我们有扩展和强化工具库的计划,但正在寻求开发人员的反馈,了解哪些是可行的,哪些是不符合他们的需求。我们正在解决的问题和条目有:

  1. 对于某些对比元素(尤其是 schema),动态时间戳会产生误报。
  2. 把测试数据保存到数据库,以便查看部署历史以及与上次的预演推送进行差异测试。
  3. 通过云基础设施的渲染,强化提取的规模和速度。
  4. 把测试覆盖率从现在的 46% 提高到 99% 以上。
  5. 目前,我们依赖 Poetry 进行部署管理,但我们希望发布一个 PyPl 库,这样就可以用 pip install 轻松安装。
  6. 我们还在关注更多使用时的问题和相关数据。

开始使用

这个项目在 GitHub 上,我们对大部分功能都提供了 文档

我们希望你能克隆 SEODeploy 并试试它。我们的目标是通过这个由技术性搜索引擎优化开发者开发的、经过开发者和工程师们验证的工具来支持开源社区。我们都见过验证复杂的预演问题需要多长时间,也都见过大量 URL 的微小改动能有什么样的业务影响。我们认为这个库可以为开发团队节省时间、降低部署过程中的风险。

如果你有问题或者想提交代码,请查看项目的关于页面。


via: https://opensource.com/article/20/7/seodeploy

作者:JR Oakes 选题:lujun9972 译者:lxbwolf 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出