标签 AI 下的文章

硬核观察 #579 AI 学会了“谷歌一下”

硬核老王发布于 2022-03-19
另请参阅: 硬核观察,Ubuntu, AI
2 条评论

AI 学会了“谷歌一下”

DeepMind 创建了一个新的 AI 语言模型 GopherCite，它可以像人类一样，学会“Google 一下”，回答问题同时还能给出论据。当你问它：“GopherCite 是如何找到论据来源的？”它会回答：“通过 Google 搜索检索相关文档。”在遇到实在不懂的问题，它会说不懂而不会强行给一个错误答案。训练结果显示，该模型在自然问题数据集、ELI5 数据集上的正确率分别可以达到 90%、80%，接近人类水平。

老王点评：这 AI 越来越“聪明”了。

AI 六小时内就提出了 4 万种新的潜在化学武器

研究人员将通常用于搜索有用药物的 AI 放入一种 “坏人” 模式，只用了不到六个小时就提出了 4 万个潜在的致命分子结构。研究人员调整他们的方法，以寻找而不是剔除毒性，AI 想出了数以万计的新物质，其中一些与有史以来开发的最强的神经毒剂 VX 相似。

老王点评：AI 如果用于不好的方面，也许就是放出来的潘多拉魔鬼。

Canonical 为 Snap 包提速，但仍不够快

Canonical 在 Snap 包中改用 LZO 压缩取代 xz 压缩，以加快启动时间。通过使用 LZO 重新生成 Snap，可以减少冷启动时间，如果用 LZO 对 KDE 框架 Snap 进行压缩，则收益更大。而一旦 Snap 包已经加载，其热启动时间就相当低了，大约为 1.1 秒。

老王点评：Snap 有好处也有坏处，就看怎么权衡了。

硬核观察 #570 科学家用 AI “听懂”猪是否幸福

硬核老王发布于 2022-03-09
另请参阅: 硬核观察,专利, AI, 应用商店
1 条评论

科学家用 AI “听懂”猪是否幸福

这种人工智能猪翻译器可以将各种猪叫识别为情绪，可以用来自动监测猪的健康状况。他们训练了一个神经网络，分析了从 400 多头猪身上录制的 7414 个猪叫声的声学特征，记录了从出生到死亡的不同情况下的猪的音频记录和行为数据，学习猪是在经历积极情绪，如快乐或兴奋，还是消极情绪，如恐惧和痛苦。

老王点评：这样或许可以让猪过的更幸福一些？

开源软件赶走了专利巨魔

“统一专利（UP）”是由 200 多家企业组成的国际组织，在过去的两年里，它一直在与专利巨头的斗争中获胜。它与世界上最大的专利不侵犯团体“开放发明网络（OIN）”一起，对不良专利发起了法律诉讼。它们用开源软件的证据来证明，专利巨魔们往往不具备立案条件。UP 已经监督和管理了 43 项挑战，这使得 UP 的成员获得了多项专利和解，而这些又直接传递给 OIN 的 3600 多名社区成员。随着 UP 在淘汰不良专利方面的高成功率，慢慢地专利巨魔们不仅被赶出了开源软件，而且被赶出了所有软件。

老王点评：这种联合起来的力量很大，对开源软件和软件的健康发展很有意义。

韩国法律要求应用商店引入第三方支付渠道

2021 年 8 月，韩国政府投票批准了《电信业务法》，阻止了苹果和谷歌强迫开发者通过应用商店销售应用以及随之而来的佣金抽取，以防止应用内支付系统的强制排他性，以及限制商店经营者不合理地延迟批准或删除应用。3 月 8 日，韩国国会通过了该法律，它将在 3 月 15 日前生效。苹果和谷歌仅有一周的时间为该法律的实施做准备。如果不遵守该法律，罚款可能会达到公司相关商业活动年平均收入的 2%。

老王点评：没想到韩国在这方面比美国更坚决。

硬核观察 #568 科学家扩展 DNA “字母表”以存储更多数据

硬核老王发布于 2022-03-08
另请参阅: 硬核观察,USB, AI, DNA
1 条评论

科学家扩展 DNA “字母表”以存储更多数据

科学家们一直在研究一种相当独特的解决方案：将文件、照片和文档存储在大自然自己的信息数据库中 —— DNA。每天，互联网上都会产生几百 PB 的数据，而只要一克的 DNA 就足以存储这些数据。DNA 用四种叫做核苷酸的分子来编码遗传信息，分别用 A、G、C 和 T 来代表。这相当于一个四字母的字母表。为了存储更多数据，科学家们在 DNA “字母表”中人为增加了七个新字母，即新的核苷酸。为了可以精确地读回合成 DNA 的数据，研究人员使用了深度学习算法和人工智能。

老王点评：这就是字面意义上的“交换 DNA 就是交换信息”。

研究人员发布第一个开源的代码生成 AI 模型

尽管像 OpenAI 和 DeepMind 等已经开发出了强大的代码生成人工智能，但这些系统并没有开源，比如，为 GitHub Copilot 提供动力的 OpenAI Codex 的训练数据尚未公开。研究人员开发了 PolyCoder，这是一个基于 OpenAI 的 GPT-2 的模型，在 12 种编程语言的 249 GB 代码数据库上进行了训练。虽然 PolyCoder 在表现上无法与顶级代码生成器相提并论，但研究人员声称，PolyCoder 能够用 C 语言编写代码，其准确度高于所有已知模型，包括 Codex。

老王点评：只有开源才能让更多的人参与进来，才能培养出生态，而不仅仅是某些大公司的专有服务。

9% 的安全事件由 USB 和其他可移动介质引起

在一份报告中发现，可移动媒体占所有安全事件的 9%。而在去除涉及云服务的事件后，这一比例增加到 20%。受信任的 USB 设备可能会感染恶意软件，然后会搜索连接到受害者主机的外部存储设备，以感染它们并进一步传播。当终端用户将 USB 设备从个人设备转移到企业资产时，这种风险会更大。

老王点评：USB 是安全风险的重要源头，但这事我觉得不能怨 USB。

硬核观察 #556 微软的星球级的 AI 基础设施包括数十万个 GPU

硬核老王发布于 2022-02-24
另请参阅: 硬核观察,cURL, AI, ReiserFS
5 条评论

微软的星球级的 AI 基础设施包括数十万个 GPU

微软透露，它运营着一个星球级的分布式调度服务来处理 AI 工作负载，它被称为“奇点”。它的目的是提高深度学习工作负载的高利用率来控制成本。其工作负载感知调度器可以透明地抢占和弹性地扩展深度学习工作负载，在 AI 加速器（如 GPU、FPGA）全球机群上提高利用率，而不影响其正确性或性能。在“奇点”机群中有数十万个 GPU，以及 FPGA 和其他 AI 加速器。该软件自动将工作与加速器资源解耦，这意味着当工作负载扩大或缩小时，只需改变映射的设备数量，而这对用户来说是完全透明的。

老王点评：首先我吃惊于其规模，其次，我觉得超算之外的集群技术非常有用。

Fedora 考虑默认为 cURL提供精简版本

cURL 是一个广泛使用的网络客户端，除了 HTTP(S) 之外，它还可以访问诸多网络协议，此外大量的应用使用 libcurl 来访问网络资源。在近日提交的一份针对 Fedora 37 的修改建议中，推荐默认使用精简版的 cURL 包，只提供了 HTTP/HTTPS/FTP 支持，而那些需要其他网络协议支持的用户可以安装完整包。精简包禁用了大量过时或很少使用的协议，如 GOPHER、IMAP、LDAP、MQTT、NTLM、POP3、RTSP、SMB、SMTP、SFTP、TELNET、TFTP 等等，这些协议有时候会带来安全风险。

老王点评：确实，很多历史遗留或很少使用的网络协议，如果没有明确需要的话，留着只是增加攻击面。其它传统的工具也应该学习这种改变的思路。

内核开发者正在讨论弃用 ReiserFS 文件系统

在 21 年前，ReiserFS 作为 Linux 内核的首个日志文件系统被引入。在推出的早期，这一开源文件系统提供了相当多的创新功能，甚至一度被 SuSE Linux 默认使用。然而自从 ReiserFS 主要开发者 Hans Reiser 在 15 年前因杀妻而入狱后，ReiserFS / Reiser4 已停滞相当长一段时间。至少自 2019 年以来，似乎就没有任何用户上报的 ReiserFS bug 被修复。在被 EXT4、XFS、Btrfs、甚至 OpenZFS 吸引走了越来越多的份额之后，内核开发者发起了“是否要将 ReiserFS 踢出 Linux 内核支持”的讨论。

老王点评：正所谓人亡政息，但是还是很可惜。

硬核观察 #553 AI 要用千亿照片识别世界上几乎所有人

硬核老王发布于 2022-02-21
另请参阅: 硬核观察,谷歌, AI, 人脸识别
1 条评论

AI 要用千亿照片识别世界上几乎所有人

美国的 Clearview AI 告诉投资者，它有望在一年内在其数据库中拥有 1000 亿张面部照片，足以确保“世界上几乎所有人都可以被识别”。这相当于地球上 70 亿人中每人有 14 张照片。该系统已被世界各地的执法和政府机构使用。该公司希望投入更多领域，比如监测“零工经济”工人，并正在研究一些新技术，可以根据某人的走路方式来识别他们，从照片中检测他们的位置，或从远处扫描他们的指纹。

老王点评：生活在监控之下的恐惧和个人的隐私自由，边界在哪里？

AI 生成的脸比真实的脸更值得信赖

一项新的研究表明，真正的人类可以很容易地爱上机器生成的面孔，合成面孔不仅高度逼真，而且被认为比真面孔更值得信赖。人类在分辨真假面孔方面的表现并不比抛硬币好，平均准确率为 48.2%。并不是说生成的每一张图像都与真实面孔无法区分，但其中有相当数量的图像是如此。

老王点评：所谓眼见为实，可能越来越不可靠了。

谷歌在其主页上试验性地添加新闻和天气内容

Google.com 是世界上最简洁最友好的网页之一。在雅虎时代，它作为最简单的搜索引擎之一脱颖而出。然而，很快 Google.com 可能会改变。据报道，该公司近期一直在测试在页面底部增加一排卡片。截图中显示了六张卡片，包括天气、新闻、股票价格、节目和电影的链接以及推荐网站。在卡片下方，左边是一个免责声明：“基于你过去的活动”。右边是一个切换按钮，可以隐藏或显示卡片。

老王点评：曾经最干净整洁的谷歌首页，也要变成 hao123 了么？

硬核观察 #551 Mozilla 年入 5 亿美元，正在寻求新的收入来源

硬核老王发布于 2022-02-18
另请参阅: 硬核观察,Firefox, 浏览器, AI
2 条评论

Mozilla 年入 5 亿美元，正在寻求新的收入来源

根据 Wired 的一份新报告，Firefox 浏览器只服务于 4% 的互联网浏览器用户，这跟它在十年前吹嘘的 20% 的市场份额相去甚远，其收入和员工人数也随之下降。目前，Mozilla 的主要收入来源之一是它跟谷歌正在进行的营销交易，这项交易每年价值约 4 亿美元，占 Mozilla 总收入的绝大部分。显然，依靠竞争对手的恩惠来生存并不是一种可持续的商业模式，尤其是当自己的用户数量持续下降时。Mozilla VPN 就是该基金会第一次真正意义上的创收服务，该服务每月收费 10 美元。

老王点评：就像 Firefox 从 Netscape 的废墟中浴火重生一样，我觉得或许 Firefox 也需要一次重生。

DeepMind 训练人工智能控制核聚变

核聚变数十年来一直被认为是未来的清洁能源。目前聚变背后的科学原理已经明朗，剩下的只是工程方面的挑战，而这正是人工智能的用武之地。每次研究人员想改变等离子体的配置，尝试不同的形状以产生更多的能量或更清洁的等离子体时，都需要进行大量的工程和设计工作。传统的系统由计算机控制，基于模型和仔细的模拟，但是它们“很复杂，且不一定经过了优化”。DeepMind 开发了一种可自主控制托卡马克装置内的炙热等离子体的人工智能。

老王点评：DeepMind 在人工智能方面的进展，让我觉得人工智能近乎于无所不能，我想以后应该问的是，人工智能还不能做什么？

Chrome 和 Firefox 的版本号即将破百

几个月来，Mozilla、谷歌和微软一直在警告即将发布的 100 版本。Firefox 计划在 5 月 3 日发布 100 版本；而 Chrome 将在 3 月 29 日发布 100 版本。对于依赖浏览器版本号执行业务逻辑的部分网站来说，这有可能会导致问题。当 12 年前，浏览器版本号从一位数增加到两位数时，User-Agent 解析库出现了很多问题。部分解析库可能含有硬编码的假设或 bug，没有考虑版本号突破三位数的情况。

老王点评：其实都是飙版本号的恶习导致的，我真怀念互联网技术早期的 0.x 版本习惯。