标签 GPU 下的文章

国产 GPU 能否用于比特币挖矿?目前不能

现在 AMD、NVIDIA 等 GPU 公司靠着挖矿市场大赚特赚,那国内的 GPU 公司有没有可能分一杯羹?日前已经有人在互动平台上向长沙景嘉微公司询问,他们的 GPU 芯片能不能用于比特币挖矿。该公司表示,公司目前产品不能应用于比特币矿机。未来公司产品是否应用于比特币矿机需视产品研发后的性能与需求而定。

景嘉微目前有 JM5、JM7 两个系列,其中 JM5400 系列已经在国产军用飞机上应用。下一代 GPU 是 JM9 系列,可达到 2017 年底的高端显卡的水平。

我觉得之所以不适合挖矿,可能是在效能方面不够好,但是能支持部分重要领域的应用就很好了。

GNOME 40 Beta 发布:Shell 和 Mutter 迎来重大改进

如果一切正常,稳定版将会在 1 个月后和大家见面。这个版本号从 3.38 一下突破到 40.0 ,带来了很多变化:

  • GNOME Shell 启用重新设计的概览区域,默认禁用已经过时的扩展程序
  • Mutter 迎来重大改进,包括按需启动 XWayland,默认为水平工作区布局
  • GTK 4.1 提供了各种修复和改进。

让我们期待一个月后稳定版发布!

谷歌基于它的需要加大了对开源的赞助

由于担心 Linux 和开源代码的安全问题,“我们发现错误的速度比修复错误的速度快得多”,谷歌正在赞助两位全职开发人员来研究内核的安全问题。而在这之前,这两人已经在 Linux 基金会工作好几年了。谷歌的资助符合该公司的利益,但也让其他 Linux 用户受益。当然,除了 Linux 之外,正如我们之前报道的,谷歌也为 Python 赞助了一名全职的核心开发者,提供了 35 万美元的支持。

但是谷歌只是 Linux 基金会每年 10 万美元的黄金会员,而华为、微软、英特尔、Facebook 和红帽在内的公司是白金会员,每年贡献 50 万美元。当然,谷歌指出,AWS 才是每年 2 万美元的白银会员。

新的摩尔定律:黄氏定律

摩尔定律的发展速度已经放缓,有人说它已经结束了。以 Nvidia CEO 兼联合创始人黄仁勋名字命名的黄氏定律揭示了为 AI 提供动力的硅芯片是如何每两年就将性能提高一倍以上的。Nvidia 首席科学家 Bill Dally 表示,从 2012 年 11 月到今年 5 月,Nvidia 的芯片在一类重要的 AI 计算方面的性能提高了 317 倍。

来源:华尔街日报

拍一拍:平均每年这些为 AI 提供动力的芯片的性能都会提高一倍以上,这种进步速度让摩尔定律显得苍白无力。

麒麟 OS 宣布兼容中望 CAD

开发商中标软件宣布,麒麟软件与国内第一款基于 Linux 系统环境的国产 CAD 产品中望 CAD Linux 预装版完成兼容性测试,能够达到通用兼容性要求及性能、可靠性要求,满足用户的关键性应用需求。

来源:快科技

拍一拍:Linux 的普及和 Linux 应用生态是相辅相成的。

Mozilla 的 WebThings IoT 平台成为独立的开源项目

在 Mozilla 进行了一系列裁员之后,他们的 WebThings IoT 平台正由前员工与新的商业赞助商一起作为一个独立的开源项目分拆出来。WebThings 是一个基于 W3C Web of Things 标准构建的开放平台,用于通过 Web 监视和控制设备。

来源:mozilla

拍一拍:Mozilla 裁员带来的后果就是旗下各个项目纷纷自谋出路,从某种意义上,这应该是一件好事。

Nvidia 升级了其 Volta 系列的 Tesla GPU 加速卡,使其能够以旧型号的相同功率更快地工作。

Nvidia 上周举行了 Supercomputing 19 大会,不出意外的是公布了很多新闻,这些我们将稍后提到。但被忽略的一条或许是其中最有趣的:一张更快、功耗更低的新一代图形加速卡。

多名与会者与多个新闻站点发现了这点,Nvidia 向我证实这确实是一张新卡。Nvidia 的 “Volta” 这代 Tesla GPU 加速卡在 2017 年就已淘汰,因此升级工作应该早已过期。

V100S 目前仅提供 PCI Express 3 接口,但有望最终支持 Nvidia 的 SXM2 接口。SXM 是 Nvidia 的双插槽卡设计,与 PCIe 卡不同,它不需要连接电源。SXM2 允许 GPU 通过 Nvidia 的 NVLink(一种高带宽、节能的互连)相互之间或与 CPU 进行通信,其数据传输速度比 PCIe 快十倍。

借助此卡,Nvidia 声称拥有单精度 16.4 TFLOPS,双精度 8.2 TFLOPS 并且 Tensor Core 性能高达 130 TFLOPS。这仅比 V100 SXM2 设计提高了 4% 至 5%,但比 PCIe V100 变体提高了 16% 至 17%。

内存容量保持在 32 GB,但 Nvidia 添加了 High Bandwidth Memory 2(HBM2),以将内存性能提高到 1,134 GB/s,这比 PCIe 和 SXM2 都提高了 26%。

通常情况下,性能提升将同时导致功率增加,但在这里,PCIe 卡的总体功率为 250 瓦,与上一代 PCIe 卡相同。因此,在相同功耗下,该卡可额外提供 16-17% 的计算性能,并增加 26% 的内存带宽。

其他新闻

Nvidia 在会上还发布了其他新闻:

  • 其 GPU 加速的基于 Arm 的高性能计算参考服务器的新参考设计和生态系统支持。该公司表示,它得到了 HPE/Cray、Marvell、富士通和 Ampere 的支持,Ampere 是 Intel 前高管勒尼·詹姆斯(Renee James)领导的一家初创公司,它希望建立基于 Arm 的服务器处理器。
  • 这些公司将使用 Nvidia 的参考设计(包括硬件和软件组件)来使用 GPU 构建从超大规模云提供商到高性能存储和百亿亿次超级计算等。该设计还带来了 CUDA-X,这是 Nvidia 用于 Arm 处理器的 CUDA GPU 的特殊版本开发语言。
  • 推出 Nvidia Magnum IO 套件,旨在帮助数据科学家和 AI 以及高性能计算研究人员在几分钟而不是几小时内处理大量数据。它经过优化,消除了存储和 I/O 瓶颈,可为多服务器、多 GPU 计算节点提供高达 20 倍的数据处理速度。
  • Nvidia 和 DDN (AI 以及多云数据管理开发商)宣布将 DDN 的 A3ITM 数据管理系统与 Nvidia 的 DGX SuperPOD 系统捆绑在一起,以便客户能够以最小的复杂性和更短的时限部署 HPC 基础架构。SuperPOD 还带有新的 NVIDIA Magnum IO 软件栈。
  • DDN 表示,SuperPOD 能够在数小时内部署,并且单个设备可扩展至 80 个节点。不同的深度学习模型的基准测试表明,DDN 系统可以使 DGXSuperPOD 系统完全保持数据饱和。

via: https://www.networkworld.com/article/3482097/nvidia-quietly-unveils-faster-lower-power-tesla-gpu-accelerator.html

作者:Andy Patrizio 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

不要错过两周以来最大的开源头条新闻。

 title=

在本期开源新闻综述中,我们将介绍两种新的强大数据可视化工具、Nvidia 开源其 GPU 文档、激动人心的新工具、确保自动驾驶汽车的固件安全等等!

GNOME 和 KDE 在 Linux 桌面上达成合作伙伴

Linux 在桌面计算机上一直处于分裂状态。在最近的一篇公告中称,“两个主要的 Linux 桌面竞争对手,GNOME 基金会KDE 已经同意合作。”

这两个组织将成为今年 11 月在巴塞罗那举办的 Linux App Summit(LAS)2019 的赞助商。这一举措在某种程度上似乎是对桌面计算不再是争夺支配地位的最佳场所的回应。无论是什么原因,Linux 桌面的粉丝们都有新的理由希望未来出现一个标准化的 GUI 环境。

新的开源数据可视化工具

这个世界上很少有不是由数据驱动的。除非数据以人们可以互动的形式出现,否则它并不是很好使用。最近开源的两个数据可视化项目正在尝试使数据更有用。

第一个工具名为 Neuroglancer,由 Google 的研究团队创建。它“使神经科医生能够在交互式可视化中建立大脑神经通路的 3D 模型。”Neuroglancer 通过使用神经网络追踪大脑中的神经元路径并构建完整的可视化来实现这一点。科学家已经使用了 Neuroglancer(你可以从 GitHub 取得)通过扫描果蝇的大脑来建立一个交互式地图。

第二个工具来自一个不太能想到的的来源:澳大利亚信号理事会。这是该国家类似 NSA 的机构,它“开源了内部数据可视化和分析工具之一。”这个被称为 Constellation 的工具可以“识别复杂数据集中的趋势和模式,并且能够扩展到‘数十亿输入’。”该机构总干事迈克•伯吉斯表示,他希望“这一工具将有助于产生有利于所有澳大利亚人的科学和其他方面的突破。”鉴于它是开源的,它可以使整个世界受益。

Nvidia 开始发布 GPU 文档

多年来,图形处理单元(GPU)制造商 Nvidia 并没有做出什么让开源项目轻松开发其产品的驱动程序的努力。现在,该公司通过发布 GPU 硬件文档向这些项目迈出了一大步。

该公司根据 MIT 许可证发布的文档可在 GitHub 上获取。它涵盖了几个关键领域,如设备初始化、内存时钟/调整和电源状态。据硬件新闻网站 Phoronix 称,开发了 Nvidia GPU 的开源驱动程序的 Nouveau 项目将是率先使用该文档来推动其开发工作的项目之一。

用于保护固件的新工具

似乎每周都有的消息称,移动设备或连接互联网的小设备中出现新漏洞。通常,这些漏洞存在于控制设备的固件中。自动驾驶汽车服务 Cruise 发布了一个开源工具,用于在这些漏洞成为问题之前捕获这些漏洞。

该工具被称为 FwAnalzyer。它检查固件代码中是否存在许多潜在问题,包括“识别潜在危险的可执行文件”,并查明“任何错误遗留的调试代码”。Cruise 的工程师 Collin Mulliner 曾帮助开发该工具,他说通过在代码上运行 FwAnalyzer,固件开发人员“现在能够检测并防止各种安全问题。”

其它新闻

一如既往地感谢 Opensource.com 的工作人员和主持人本周的帮助。


via: https://opensource.com/article/19/8/news-august-17

作者:Scott Nesbitt 选题:lujun9972 译者:wxy 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

AMD-Polaris

自从 3dfx 推出最初的 Voodoo 加速器以来,不起眼的显卡对你的 PC 是否可以玩游戏起到决定性作用,PC 上任何其它设备都无法与其相比。其它组件当然也很重要,但对于一个拥有 32GB 内存、价值 500 美金的 CPU 和 基于 PCIe 的存储设备的高端 PC,如果使用 10 年前的显卡,都无法以最高分辨率和细节质量运行当前 最高品质的游戏 AAA titles ,会发生卡顿甚至无响应。显卡(也常被称为 GPU,即 图形处理单元 Graphic Processing Unit ),对游戏性能影响极大,我们反复强调这一点;但我们通常并不会深入了解显卡的工作原理。

出于实际考虑,本文将概述 GPU 的上层功能特性,内容包括 AMD 显卡、Nvidia 显卡、Intel 集成显卡以及 Intel 后续可能发布的独立显卡之间共同的部分。也应该适用于 Apple、Imagination Technologies、Qualcomm、ARM 和其它显卡生产商发布的移动平台 GPU。

我们为何不使用 CPU 进行渲染?

我要说明的第一点是我们为何不直接使用 CPU 完成游戏中的渲染工作。坦率的说,在理论上你确实可以直接使用 CPU 完成 渲染 rendering 工作。在显卡没有广泛普及之前,早期的 3D 游戏就是完全基于 CPU 运行的,例如 《 地下创世纪 Ultima Underworld (下文中简称 UU)。UU 是一个很特别的例子,原因如下:与《 毁灭战士 Doom 相比,UU 具有一个更高级的渲染引擎,全面支持“向上或向下看”以及一些在当时比较高级的特性,例如 纹理映射 texture mapping 。但为支持这些高级特性,需要付出高昂的代价,很少有人可以拥有真正能运行起 UU 的 PC。

地下创世纪,图片来自 GOG

对于早期的 3D 游戏,包括《 半条命 Half Life 》和《 雷神之锤 2 Quake II 》在内的很多游戏,内部包含一个软件渲染器,让没有 3D 加速器的玩家也可以玩游戏。但现代游戏都弃用了这种方式,原因很简单:CPU 是设计用于通用任务的微处理器,意味着缺少 GPU 提供的 专用硬件 specialized hardware 功能 capabilities 。对于 18 年前使用软件渲染的那些游戏,当代 CPU 可以轻松胜任;但对于当代最高品质的游戏,除非明显降低 景象质量 scene 、分辨率和各种虚拟特效,否则现有的 CPU 都无法胜任。

什么是 GPU ?

GPU 是一种包含一系列专用硬件特性的设备,其中这些特性可以让各种 3D 引擎更好地执行代码,包括 形状构建 geometry setup ,纹理映射, 访存 memory access 着色器 shaders 等。3D 引擎的功能特性影响着设计者如何设计 GPU。可能有人还记得,AMD HD5000 系列使用 VLIW5 架构 archtecture ;但在更高端的 HD 6000 系列中使用了 VLIW4 架构。通过 GCN (LCTT 译注:GCN 是 Graphics Core Next 的缩写,字面意思是“下一代图形核心”,既是若干代微体系结构的代号,也是指令集的名称),AMD 改变了并行化的实现方法,提高了每个时钟周期的有效性能。

“GPU 革命”的前两块奠基石属于 AMD 和 NV;而“第三个时代”则独属于 AMD。

Nvidia 在发布首款 GeForce 256 时(大致对应 Microsoft 推出 DirectX7 的时间点)提出了 GPU 这个术语,这款 GPU 支持在硬件上执行转换和 光照计算 lighting calculation 。将专用功能直接集成到硬件中是早期 GPU 的显著技术特点。很多专用功能还在(以一种极为不同的方式)使用,毕竟对于特定类型的工作任务,使用 片上 on-chip 专用计算资源明显比使用一组 可编程单元 programmable cores 要更加高效和快速。

GPU 和 CPU 的核心有很多差异,但我们可以按如下方式比较其上层特性。CPU 一般被设计成尽可能快速和高效的执行单线程代码。虽然 同时多线程 Simultaneous multithreading (SMT)或 超线程 Hyper-Threading (HT)在这方面有所改进,但我们实际上通过堆叠众多高效率的单线程核心来扩展多线程性能。AMD 的 32 核心/64 线程 Epyc CPU 已经是我们能买到的核心数最多的 CPU;相比而言,Nvidia 最低端的 Pascal GPU 都拥有 384 个核心。但相比 CPU 的核心,GPU 所谓的核心是处理能力低得多的的处理单元。

注意: 简单比较 GPU 核心数,无法比较或评估 AMD 与 Nvidia 的相对游戏性能。在同样 GPU 系列(例如 Nvidia 的 GeForce GTX 10 系列,或 AMD 的 RX 4xx 或 5xx 系列)的情况下,更高的 GPU 核心数往往意味着更高的性能。

你无法只根据核心数比较不同供应商或核心系列的 GPU 之间的性能,这是因为不同的架构对应的效率各不相同。与 CPU 不同,GPU 被设计用于并行计算。AMD 和 Nvidia 在结构上都划分为计算资源 block 。Nvidia 将这些块称之为 流处理器 Streaming Multiprocessor (SM),而 AMD 则称之为 计算单元 Compute Unit (CU)。

一个 Pascal 流处理器(SM)。

每个块都包含如下组件:一组核心、一个 调度器 scheduler 、一个 寄存器文件 register file 、指令缓存、纹理和 L1 缓存以及纹理 映射单元 mapping unit 。SM/CU 可以被认为是 GPU 中最小的可工作块。SM/CU 没有涵盖全部的功能单元,例如视频解码引擎,实际在屏幕绘图所需的渲染输出,以及与 板载 onboard 显存 Video Memory (VRAM)通信相关的 内存接口 memory interfaces 都不在 SM/CU 的范围内;但当 AMD 提到一个 APU 拥有 8 或 11 个 Vega 计算单元时,所指的是(等价的) 硅晶块 block of silicon 数目。如果你查看任意一款 GPU 的模块设计图,你会发现图中 SM/CU 是反复出现很多次的部分。

这是 Pascal 的全平面图

GPU 中的 SM/CU 数目越多,每个时钟周期内可以并行完成的工作也越多。渲染是一种通常被认为是“高度并行”的计算问题,意味着随着核心数增加带来的可扩展性很高。

当我们讨论 GPU 设计时,我们通常会使用一种形如 4096:160:64 的格式,其中第一个数字代表核心数。在核心系列(如 GTX970/GTX 980/GTX 980 Ti,如 RX 560/RX 580 等等)一致的情况下,核心数越高,GPU 也就相对更快。

纹理映射和渲染输出

GPU 的另外两个主要组件是纹理映射单元和渲染输出。设计中的纹理映射单元数目决定了最大的 纹素 texel 输出以及可以多快的处理并将纹理映射到对象上。早期的 3D 游戏很少用到纹理,这是因为绘制 3D 多边形形状的工作有较大的难度。纹理其实并不是 3D 游戏必须的,但不使用纹理的现代游戏屈指可数。

GPU 中的纹理映射单元数目用 4096:160:64 指标中的第二个数字表示。AMD、Nvidia 和 Intel 一般都等比例变更指标中的数字。换句话说,如果你找到一个指标为 4096:160:64 的 GPU,同系列中不会出现指标为 4096:320:64 的 GPU。纹理映射绝对有可能成为游戏的瓶颈,但产品系列中次高级别的 GPU 往往提供更多的核心和纹理映射单元(是否拥有更高的渲染输出单元取决于 GPU 系列和显卡的指标)。

渲染输出单元 Render outputs (ROP),有时也叫做 光栅操作管道 raster operations pipelines 是 GPU 输出汇集成图像的场所,图像最终会在显示器或电视上呈现。渲染输出单元的数目乘以 GPU 的时钟频率决定了 像素填充速率 pixel fill rate 。渲染输出单元数目越多意味着可以同时输出的像素越多。渲染输出单元还处理 抗锯齿 antialiasing ,启用抗锯齿(尤其是 超级采样 supersampled 抗锯齿)会导致游戏填充速率受限。

显存带宽与显存容量

我们最后要讨论的是 显存带宽 memory bandwidth 显存容量 memory capacity 。显存带宽是指一秒时间内可以从 GPU 专用的显存缓冲区内拷贝进或拷贝出多少数据。很多高级视觉特效(以及更常见的高分辨率)需要更高的显存带宽,以便保证足够的 帧率 frame rates ,因为需要拷贝进和拷贝出 GPU 核心的数据总量增大了。

在某些情况下,显存带宽不足会成为 GPU 的显著瓶颈。以 Ryzen 5 2400G 为例的 AMD APU 就是严重带宽受限的,以至于提高 DDR4 的时钟频率可以显著提高整体性能。导致瓶颈的显存带宽阈值,也与游戏引擎和游戏使用的分辨率相关。

板载内存大小也是 GPU 的重要指标。如果按指定细节级别或分辨率运行所需的显存量超过了可用的资源量,游戏通常仍可以运行,但会使用 CPU 的主存来存储额外的纹理数据;而从 DRAM 中提取数据比从板载显存中提取数据要慢得多。这会导致游戏在板载的快速访问内存池和系统内存中共同提取数据时出现明显的卡顿。

有一点我们需要留意,GPU 生产厂家通常为一款低端或中端 GPU 配置比通常更大的显存,这是他们为产品提价的一种常用手段。很难说大显存是否更具有吸引力,毕竟需要具体问题具体分析。大多数情况下,用更高的价格购买一款仅是显存更高的显卡是不划算的。经验规律告诉我们,低端显卡遇到显存瓶颈之前就会碰到其它瓶颈。如果存在疑问,可以查看相关评论,例如 4G 版本或其它数目的版本是否性能超过 2G 版本。更多情况下,如果其它指标都相同,购买大显存版本并不值得。

查看我们的极致技术探索系列,深入了解更多当前最热的技术话题。


via: https://www.extremetech.com/gaming/269335-how-graphics-cards-work

作者:Joel Hruska 选题:lujun9972 译者:pinewall 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

Linux 内核新增的异构内存管理将解锁加速 GPU 的新途径,并挖掘其它的机器学习硬件的潜能

更快的机器学习正在来到你身边的 Linux 内核

一项开发了很久的内存管理技术将会给机器学习和其它 GPU 驱动的程序很大幅度的提升,而它也将在接下来的几个版本中进入 Linux 内核。

异构内存管理(HMM)可以允许设备驱动为在其自身内存管理下的进程镜像地址空间。正如红帽的开发者 Jérôme Glisse 所解释的,这让像 GPU 这样的硬件设备可以直接访问进程内存,而不用花费复制带来的额外开销。它还不违反现代操作系统提供的内存保护功能。

一类会从 HMM 中获益最多的应用是基于 GPU 的机器学习。像 OpenCL 和 CUDA 这样的库能够从 HMM 中获得速度的提升。HMM 实现这个的方式和加速基于 GPU 的机器学习相似,就是让数据留在原地,靠近 GPU 的地方,在那里直接操作数据,尽可能少地移动数据。

像这样的加速对于 CUDA(英伟达基于 GPU 的处理库)来说,只会有益于在英伟达 GPU 上的操作,这些 GPU 也是目前加速数据处理的主要硬件。但是,OpenCL 设计用来编写可以针对多种硬件的代码——CPU、GPU、FPGA 等等——随着这些硬件的成熟,HMM 能够提供更加广泛的益处。

要让 Linux 中的 HMM 处于可用状态还有一些阻碍。第一个是内核支持,在很长一段时间里都受到限制。早在 2014年,HMM 最初作为 Linux 内核补丁集提出,红帽和英伟达都是关键开发者。需要做的工作不少,但是开发者认为代码可以提交上去,也许接下来的几个内核版本就能把它包含进去。

第二个阻碍是显卡驱动支持,英伟达一直在自己单独做一些工作。据 Glisse 的说法,AMD 的 GPU 可能也会支持 HMM,所以这种特殊优化不会仅限于英伟达的 GPU。AMD 一直都在尝试提升它的 GPU 市场占有率,有可能会将 GPU 和 CPU 整合到同一模具。但是,软件生态系统依然更青睐英伟达;要使其兑现,还需要更多的像 HMM 这样的中立项目,以及让 OpenCL 提供和 CUDA 相当的性能。

第三个阻碍是硬件支持,因为 HMM 的工作需要一项称作 可重现页面故障 replayable page faults 的硬件特性。只有英伟达的帕斯卡系列高端 GPU 才支持这项特性。从某些意义上来说这是个好消息,因为这意味着英伟达只需要提供单一硬件的驱动支持就能让 HMM 正常使用,工作量就少了。

一旦 HMM 到位,对于提供 GPU 实例的公有云提供商就会面临压力,他们需要支持最新最好一代的 GPU。这并不是仅仅将老款的开普勒架构显卡换成最新的帕斯卡架构显卡就行了,因为后续的每一代显卡都会更加优秀,像 HMM 这样的支持优化将提供战略优势。

(题图:Thinkstock)


via: http://www.infoworld.com/article/3196884/linux/faster-machine-learning-is-coming-to-the-linux-kernel.html

作者:Serdar Yegulalp 译者:alim0x 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出