标签 超算 下的文章

1 基于源代码的 Gentoo Linux 也将提供二进制

Gentoo Linux 是最著名的基于源代码的 Linux 发行版之一。但最近,Gentoo 称,“为了加快使用慢速硬件的速度,也为了整体方便,我们现在也提供二进制软件包供下载和直接安装!”在他们的镜像服务器中,从 LibreOffice 到 KDE Plasma,从 Gnome 到 Docker,有超过 20 GB 的软件包。Gentoo 将每日更新其 amd64 和 arm64 稳定版软件仓库,用户可以自由混合安装源码包和二进制包。

(插图:DA/f8c25f79-1415-400b-a981-3fdb69980c3b)

消息来源:Gentoo
老王点评:虽然这让最终用户更方便,但是 Gentoo 用户不就是奔着自己编译源代码来的吗?

2 树莓派比 1978 年的 Cray-1 超级计算机快四倍以上

罗伊·隆巴顿 Roy Longbottom 从 1972 年到 2022 年,制作并运行了计算机基准测试和压力测试程序,他被誉为 Whetstone 基准的官方设计权威。在 2019 年,84 岁的隆巴顿受邀成为树莓派预发布的 Alpha 测试团队的志愿成员。本周,已经 87 岁的隆巴顿分享了 Cray-1 超级计算机与家用电脑、手机和平板电脑的 性能比较。1978 年的 Cray-1 超级计算机耗资 700 万美元,重达 10500 磅,功率为 115 千瓦,它是当时世界上速度最快的计算机。而树莓派的成本约为 70 美元,仅重几盎司,使用 5 瓦电源,其速度是 Cray-1 的 4.5 倍以上。

(插图:DA/06516279-2475-4f69-89d5-73edf3c85fed)

消息来源:Slashdot
老王点评:这才仅仅过去几十年,或许十年后的个人设备都拥有现在超算的计算和存储能力。所以,我的观点是,技术的进步其实就是基础设施的进步。

3 AI 将成为你的同事,或者取代你的职位

大型语言模型已经准备从生成合成内容的人工智能聊天机器人,发展成为能够在你的办公桌上对你的电脑执行操作的虚拟 智能体 agent 。新一波智能体初创公司正在打造能够自动处理日常工作的产品。初创公司 Lindy 的 CEO 说,“人们总是担心机器人会抢走人们的工作。我认为是人们抢了机器人的饭碗”。人工智能助手与人类一起工作的想法已经成为主流,微软打造了 Copilot for Microsoft 365,而谷歌则为其工作空间提供了 Duet AI。一些人认为,这意味着人类可以减少工作,追求自己的爱好和兴趣,而更悲观的人则认为,由软件辅助的工人只会被推着生产更多的产品。

(插图:DA/efc77009-ea61-45a3-adf3-d4f16d4993a5)

消息来源:The Register
老王点评:不,人类只需要领着最低基本收入被养着,然后淘汰无用的躯体。

1 Linux 内核直呼 666~

Linux 6.6.6 版本发布了,这个版本只是处理了另一个令人头疼的 WiFi 回归问题:IWD 无线守护进程在关机时出现死锁,用户空间的网络管理器也出现相关问题。与几天前发布的 Linux 6.6.5 相比,它唯一的改动就是撤销了一个 WiFi 补丁。该补丁被从 Linux 6.7 反向移植到了 6.6,在 Linux 6.7 Git 内核中不会出现这个问题,因为 6.6 缺少了 6.7 Git 内核中的一个关键元素。而就在之前的周末,由于从 Linux 6.5 回传的补丁存在问题,导致 EXT4 数据损坏,进而影响到了使用 Linux 6.1 LTS 点版本的 Debian 12.3 延迟发布计划。

(插图:DA/3f9b3a5c-c228-4d10-81d7-4be2ee0a4cb4)

消息来源:Phoronix
老王点评:Linux 内核越来越复杂了,回传的补丁经常难以照顾周全。所以,知道做 LTS 支持有多难了吧。

2 中国发布新一代超算“天河星逸”

据报道,“天河星逸”系统以应用为中心,采用国产先进计算架构、高性能多核处理器、高速互连网络、大规模存储等关键技术构建,在通用 CPU 计算能力、网络能力、存储能力以及应用服务能力等多方面较“天河二号”实现倍增。天河二号系统从 2013 年开始一直到 2015 年底 6 次位居世界 500 强榜首,但自从中国不再披露超算基准数据,一直没有关于天河三号的官方公开细节,也没有消息可以确认 “天河星逸” 是否就是天河三号。

(插图:DA/0a9772cd-cb5b-4e26-be85-06f6cb99e743)

消息来源:广州外事
老王点评:中国超算现在已经是隐藏的实力了。

3 英伟达今年投资了二十多家人工智能公司

这些被投资的公司,其中既有估值数十亿美元的大型新人工智能平台,也有将人工智能应用于医疗保健或能源等行业的小型初创公司。根据追踪风险投资的 Dealroom 估算,英伟达在 2023 年参与了 35 笔交易,几乎是去年的六倍。

(插图:DA/01d805e5-98bb-4f75-8391-4dc2748a267f)

消息来源:金融时报
老王点评:英伟达是直接用显卡投资的吧。

当然,如果你真的关注性能,市面上自然有更出色的选择。

今年是 TOP500 公开排名全球最快超级计算机 30 周年。

为纪念这个重要的里程碑,也因应科罗拉多州正在举行的年度超级计算大会,我们想弄个有趣但稍显愚蠢的实验:看看以今天技术,我们能以多低的成本重现 1993 年超级计算机十强的性能。于是,我们在云上运行了几台虚拟机,并对 HPLinpack 基准进行了编译测试。这里简单透露一下:我们这项实验的结果,你可能并不会太震惊。

到 1993 年年末,最快的超级计算机是日本国家航空实验室的富士通数值风洞。这台装备了 140 个 CPU 核心的系统,能够实现 124 GigaFLOPS 的双精度(FP64)计算能力。

如今,我们的系统已经 突破 了 exaFLOPS 的难关,然而在 1993 年 11 月,如何在功率最高的十个系统中占据一席之地呢?只要你的 FP64 性能超过了美国 CM-5/544 机型的 15.1 GigaFLOPS。因此,我们设定的目标是让云虚拟机超过 15 GigaFLOPS 的性能。

在我们分析结果之前,有几点值得一提。如果我们选用了支持 GPU 的实例,我们知道我们能够达到更高的性能。不过,云端的 GPU 实例租赁并不便宜,并且在 2000 年年中至年底,GPU 才真正开始广泛出现在 TOP500 的超级计算机中。此外,在 CPU 上运行 Linpack 比在 GPU 上运行要容易得多。

这些测试只是为了纪念 30 周年,只是稍微有点新颖,决不具有科学严谨或详尽无遗的特征。

一台 5 美元的云虚拟机对比一部 30 年前的 TOP500 超级计算机

但在开始测试前,我们需要开启一对 VPC。在本次测试中,我们选择在 Vultr 上运行 Linpack,但其实在 AWS,Google Cloud,Azure,Digital Ocean 或者是你喜欢的任何云服务商上,这都同样适用。

首先,我们启动了一个月费 5 美元的虚拟机实例,它具备了一个共享的 vCPU,1GB 的内存和 25GB 的存储。准备就绪后,我们便启动了 Linpack 的编译。

在这,事情可能会有些复杂,因为我们实际上可以对系统进行一些调优,挤出一些额外的 FLOPS。然而,考虑到这只是一个测试,也为了尽可能保持简单,我们选择了依照 这个指南 进行操作。此份操作手册是基于 Ubuntu 18.04 编写的,但是我们发现在 20.04 LTS 上运行也一切正常。

为了产生我们的 HPL.dat 文件,我们利用了一个巧妙的 表单,它会自动产生一个优化版的 Linpack 运行配置。

我们对几种不同类型的虚拟机进行了三次基准测试,并从每次运行中挑选出最高的得分。以下就是我们的发现:

实例类型vCPURAM (MB)存储 (GB)Rmax GFLOPS每月费用 (美元)
Regular shared110242531.215
Premium shared110242551.856
Premium shared220486087.4618
Premium shared48192180133.4248

从我们的测试结果可以看出,一个单一的共享 vCPU 在与 1993 年 11 月十大超级计算机的比较中表现出颇为出色的性能。

我们通过一个 CPU 线程就获得了 31.21 GigaFLOPS 的 FP64 性能,这使得我们的虚拟机与 1993 年排名第三的超级计算机 —— 明尼苏达超级计算中心的 30.4 GigaFLOPS CM-5/554 Thinking Machines 系统相提并论。这确实令人吃惊,因为那台系统拥有 544 个 SuperSPARC 处理器,而我们的系统只有一个 CPU 线程,虽然我们的系统运行在更高的时钟速度下。

如你从上面的图表中所见,每月多花 1 美元,我们的性能跃升至 51.85 GigaFLOPS,而选择一个价值 18 美元的“高级”共享 CPU 实例,双线程使我们进一步接近 87.46 GigaFLOPS 的性能。

然而,要超过 富士通的数值风洞,我们需要升级到四个 vCPU 的虚拟机,由此我们抓取到了 133 GigaFLOPS 的 FP64 性能。然而不幸的是,升级到四个线程的费用跳到了每月 48 美元。达到这个价格,Vultr 实际上是在销售部分 GPU,我们预计如果采用 GPU,性能应会有显著提升,效率也会更高。

更好的选择

我们需要明确的是,这些都是我们选择的共享类型实例。一般来说,共享实例意味着在一定程度上进行了超额配置。

由于共享实例可能会受到其他租户的影响,这也使得性能有时难以预知,甚至每次运行的性能都可能略有不同,这主要取决于云区域中主机系统的载荷状态。

在我们的非常不科学的测试中,我们并未观察到太多的性能变化。我们想这可能是因为核心并未处在过高的负载下。在专有 CPU 实例上进行同样的测试,结果与我们每月 6 美元的共享实例相若,但成本高达五倍。

但是,除了这场小实验的新奇趣味之外,这没太多实际意义。如果你需要在短时间内获得大量 FLOPS,有许多已优化的 CPU 和 GPU 实例可供选择。它们的成本无法与每月 5 美元的实例相媲美,然而大多数实例是按小时账单的,因此实际成本将取决于你完成工作的迅速程度。

此外,让我们不要忘记,你的智能手机与这些存在已久的 30 年老计算系统相比,又会有怎样的对比呢?

(题图:MJ/16cf957e-a4e4-43b1-99b2-df0574a064dc)


via: https://www.theregister.com/2023/11/14/five_dollar_supercomputer/

作者:Tobias Mann 译者:ChatGPT 校对:wxy

每月 5 美元的虚拟机性能超过了 30 年前的第三快的超算

今年是全球公开的最快超级计算机 TOP500 排行榜发布 30 周年。1993 年,当时的超算榜首是位于日本国家航空航天实验室的富士通数值风洞,该系统拥有多达 140 个 CPU 内核,可实现 124 gigaFLOPS 的双精度性能。有人做了一个有趣的测试,结果表明,每月只需要 5 美元的单个 vCPU 线程的虚拟机可以与 1993 年排名第三的超级计算机明尼苏达超级计算中心相抗衡,而该系统拥有 544 个 SuperSPARC 处理器。如果升级到 4 个 vCPU 虚拟机,就可以击败当年的榜首,每个月仅需要花费 48 美元。

消息来源:The Register
老王点评:不算意外,只是有些吃惊。不敢想象三十年后计算机能强大到什么程度,或许地球会爆炸吧。

Canonical 发布快速部署全功能私有云的 MicroCloud

Canonical 公司今天发布了最新的软件产品 MicroCloud,它的目标是在 Ubuntu Linux 上轻松部署一个 “几分钟内就能实现全功能云” 的私有云。他们宣传自己的私有云部署就像使用 Snap 命令一样简单。其代码以 AGPL-3.0 许可托管在 GitHub 上。据介绍,MicroCloud 至少需要三台机器,目前可扩展到 50 台机器。

消息来源:Phoronix
老王点评:现在看起来,私有云有公有云不可比拟的好处,最起码重启起来比较快~

DeepMind 能更快更准确地预测极端天气

根据一份研究,谷歌 DeepMind 的模型 GraphCast 能够提前 10 天预测天气状况,比目前的黄金标准更准确、更快速。在 1300 多个测试区域中,GraphCast 在 90% 以上的测试中都优于欧洲中期天气预报中心的模型。最重要的是,GraphCast 还能比标准模型更早地为气象学家提供有关极端气温和气旋路径等情况的准确预警。GraphCast 使用图神经网络,将地球表面映射成 100 多万个网格点。它不使用物理方程,而是根据四十年的历史天气数据进行预测,可以利用机器学习在一分钟内完成这些计算。

消息来源:Technology Review
老王点评:没想到不是超算,而是人工智能拯救了天气预测难题。

中国超算海洋之光的性能已达 1.5E

美国计算机协会(ACM)发布消息称,由中国科学家投稿的《涡轮机械流动的精确计算》论文入围 2023 年戈登·贝尔奖,该奖项被誉为“超级计算应用领域的诺贝尔奖”。这篇论文将于 11 月份的 SC23 会议之前正式发布,是基于 1.5 ExaFlops(百亿亿次)超级计算机“神威·海洋之光”完成的,它是“神威·太湖之光”升级版。据该论文,海洋之光拥有超过 10 万个定制的 SW26010 Pro 处理器节点,分布在 105 个机柜中,其理论峰值性能为 1.5 E。据预测,如果将该超级计算机规模扩大到 120 个机柜,在 FP64 精度下的峰值将达到 1.72 E,这将超过美国橡树岭国家实验室的 1.68 E 的 Frontier 超算。而在 160 个机柜的条件下,FP64 峰值性能将接近 2.3 E,将有望击败已经安装完成的美国能源部阿贡国家实验室的 Aurora 超算。

消息来源:Next Platform
老王点评:我们只是懒得参加 TOP500 排名而已。

内核级 SMB 服务器 Ksmbd 进入稳定状态

在 Linux 内核 6.6 候选发布版中,包含了一个 Ksmbd 稳定版,它是三星开发的内核级服务器,通过 SMB 协议提供文件和打印机的网络共享服务。Linux 一直以来都在使用用户空间的 Samba 解决方案,但由于性能、内存占用和复杂度等问题并不理想。Ksmbd 是与 Samba 项目合作开发的,其目标是成为比 Samba 性能更强、重点更突出的解决方案。现在它经过了大量的安全测试,被认为达到了稳定状态,计划进入 Linux 内核 6.6。

消息来源:The Register
老王点评:虽然说是已经达到了稳定状态,但是我对 SMB 服务进入内核空间总觉得不太放心。

人工智能生成的艺术“通过”图灵测试

有人在网上发布了一些使用人工智能生成的图片,用螺旋或棋盘纹理展示了中世纪村庄。这些图片因其非凡的几何特质迅速在社交媒体上获得广泛赞誉。它们是使用稳定扩散和控制网引导技术创建的。之前也有人采用相同的技术来创建图片式的二维码。Y-Combinator 联合创始人 Paul Graham 甚至将之比喻为:“对我来说,这是人工智能生成的艺术通过图灵测试的时刻。”

消息来源:Ars Technica
老王点评:虽然是夸张的说法,但是人工智能生成的图片已经开始超过简单的模仿了。

社区批评 Meta 滥用“开源”来称呼其新大语言模型

Meta AI 宣称:“Llama 2 是我们的下一代开源 LLM,可用于研究和商业用途”。但事实上 Llama 2 并没有使用 OSI(开源计划)批准的许可证,也不符合 OSD(开源定义)。其社区协议禁止使用 Llama 2 训练其他语言模型;如果在月活用户超过 7 亿的应用程序或服务中使用该技术,比如那些大公司,则需要获得 Meta 的特殊许可。对于程序员来说,可能是否“开源”并不要紧,他们能够用它来搭建和研究就够了。对于 Meta 高层来说,“开源”被他们当成了一个营销用语,但是这显然会让人对“开源”一词产生混淆。

消息来源:The Register
老王点评:我不觉得 Meta 不知道什么是“开源”,但是这种草率编写的许可协议,显然代表了 Meta 既想借开源的模式打狼,又担心开源反而赔了孩子。这种首鼠两端的想法最后不会有好结果。

人工智能公司承诺将为人工智能生成内容打上水印

OpenAI、Alphabet、Meta、亚马逊和微软等七家主要的美国人工智能公司,承诺开发一个系统来 “标记” 文本、图像、音频、视频等所有形式的人工智能生成的内容,这样用户就能知道什么时候使用了这项技术。这种以技术方式嵌入内容的水印,会让用户更容易发现深度伪造的图像或音频。他们还承诺在发布新的人工智能系统前进行彻底地测试,并分享诸如如何降低风险等信息。

消息来源:路透社
老王点评:这真的能做到到么?或者说,这种水印能被其它人工智能系统去掉吧。更不要说还有开源的人工智能系统。

Cerebras 推出人工智能超级计算机网络

Cerebras 公司推出了 Condor Galaxy 项目,这是一个由九台相互连接的超级计算机组成的网络,专为人工智能模型训练而设计,总性能达到 36 FP16 ExaFLOP。其中第一台超级计算机 CG-1 是由 64 台 Cerebras CS-2 系统整合而成,有 5400 万个内核,能够为人工智能训练提供 4 ExaFLOP 的算力。它支持多达 6000 亿个参数的模型,其配置可扩展至支持多达 100 万亿个参数。其它几台将陆续建设。该公司 CEO 称,“许多云计算公司都宣布了耗资数十亿美元建造的大规模 GPU 集群,但这些集群却极难使用。将一个模型分布到数千个微小的 GPU 上,需要数十名具有罕见专业知识的人员花费数月的时间。CG-1 消除了这一挑战。建立一个生成式人工智能模型只需要几分钟,而不是几个月,而且一个人就能完成。”

消息来源:Anand Tech
老王点评:算力不是问题,将来的人工智能系统才是问题。这样大量训练出来的人工智能系统,真的能按照人们最善良的愿望去发展吗?