标签语音识别下的文章

硬核观察 #772 20 年历史的芯片组补丁影响现代 AMD Linux 系统

硬核老王发布于 2022-09-28
另请参阅: 硬核观察,勒索软件, AMD, 语音识别
评论

20 年历史的芯片组补丁影响现代 AMD Linux 系统

AMD 工程师发现内核中一个有 20 年历史的芯片组补丁仍然被应用于现代 AMD 系统，在特定工作负荷下会影响 Zen 架构处理器的性能。旧代码与 ACPI 处理器空闲代码有关，旨在修复使用 VIA 芯片组的 AMD Athlon 处理器的问题。它不影响英特尔处理器。修复此问题的补丁将在 Linux 6.0 中合并。

消息来源：Phoronix

老王点评：看来 Linux 内核中的这种遗留问题也不少啊，毕竟作为一个 30 年的项目，已经庞大到很难全面了解的程度了。

OpenAI 开源多语言语音识别系统

OpenAI 开源了 Whisper，这是一个自动语音识别系统，该公司声称可以实现多种语言的 “鲁棒” 转录，以及从这些语言翻译成英语。OpenAI 称，Whisper 的与其它的语音识别系统的同之处在于，它是在 68 万小时的多语言和 “多任务” 数据基础上训练出来的，这些数据从网络上收集而来，从而提高了对独特口音、背景噪音和技术术语的识别。

消息来源：Tech Crunch

老王点评：可能会有更智能的语音助手出现，毕竟这是开源了的。

勒索软件开始摧毁数据而不是加密数据

研究人员发现，至少有一个勒索软件团伙正在试验一种新的攻击方式，这种方式不是加密数据，而是直接摧毁数据。其目的是使受害者在不支付赎金的情况下无法获取到他们的数据。摧毁数据比加密数据更简单，也可以避免加密数据被解密，因而致使受害者更容易支付赎金。

消息来源：ZDNet

老王点评：这要比以前的勒索软件更危险，所以，作为底线，无论如何，勤备份。

使用 DeepSpeech 在你的应用中实现语音转文字

Seth Kenlon 发布于 2022-02-01
另请参阅: 软件开发,语音识别
2 条评论

应用中的语音识别不仅仅是一个有趣的技巧，而且是一个重要的无障碍功能。

title=

计算机的主要功能之一是解析数据。有些数据比其他数据更容易解析，而语音输入仍然是一项进展中的工作。不过，近年来该领域已经有了许多改进，其中之一就是 DeepSpeech，这是 Mozilla 的一个项目，Mozilla 是维护 Firefox 浏览器的基金会。DeepSpeech 是一个语音到文本的命令和库，使其对需要将语音输入转化为文本的用户和希望为其应用提供语音输入的开发者都很有用。

安装 DeepSpeech

DeepSpeech 是开源的，使用 Mozilla 公共许可证（MPL）发布。你可以从其 GitHub 页面下载源码。

要安装，首先为 Python 创建一个虚拟环境：

$ python3 -m pip install deepspeech --user

DeepSpeech 依靠的是机器学习。你可以自己训练它，但最简单的是在刚开始时下载预训练的模型文件。

$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO \
  https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO \
  https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

用户应用

通过 DeepSpeech，你可以将语音的录音转录成书面文字。你可以从在最佳条件下干净录制的语音中得到最好的结果。然而，在紧要关头，你可以尝试任何录音，你可能会得到一些你需要手动转录的东西。

为了测试，你可以录制一个包含简单短语的音频文件：“This is a test. Hello world, this is a test”。将音频保存为一个 .wav 文件，名为 hello-test.wav。

在你的 DeepSpeech 文件夹中，通过提供模型文件、评分器文件和你的音频启动一个转录：

$ deepspeech --model deepspeech*pbmm \
  --scorer deepspeech*scorer \
  --audio hello-test.wav

输出到标准输出（你的终端）：

this is a test hello world this is a test

你可以通过使用 --json 选项获得 JSON 格式的输出：

$ deepspeech --model deepspeech*pbmm \
  -- json
  --scorer deepspeech*scorer \
  --audio hello-test.wav

这就把每个词和时间戳一起渲染出来：

{
  "transcripts": [
    {
      "confidence": -42.7990608215332,
      "words": [
        {
          "word": "this",
          "start_time": 2.54,
          "duration": 0.12
        },
        {
          "word": "is",
          "start_time": 2.74,
          "duration": 0.1
        },
        {
          "word": "a",
          "start_time": 2.94,
          "duration": 0.04
        },
        {
          "word": "test",
          "start_time": 3.06,
          "duration": 0.74
        },
[...]

开发者

DeepSpeech 不仅仅是一个转录预先录制的音频的命令。你也可以用它来实时处理音频流。GitHub 仓库 DeepSpeech-examples 中有 JavaScript、Python、C# 和用于 Android 的 Java 等各种代码。

大部分困难的工作已经完成，所以集成 DeepSpeech 通常只是引用 DeepSpeech 库，并知道如何从主机设备上获得音频（你通常通过 Linux 上的 /dev 文件系统或 Android 和其他平台上的 SDK 来完成。）

语音识别

作为一个开发者，为你的应用启用语音识别不只是一个有趣的技巧，而是一个重要的无障碍功能，它使你的应用更容易被有行动问题的人、低视力的人和长期多任务处理的人使用。作为用户，DeepSpeech 是一个有用的转录工具，可以将音频文件转换为文本。无论你的使用情况如何，请尝试 DeepSpeech，看看它能为你做什么。

via: https://opensource.com/article/22/1/voice-text-mozilla-deepspeech

作者：Seth Kenlon 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

开源新闻综述：谷歌开源 Android 语音转录和手势追踪、Twitter 的遥测工具

Scott Nesbitt 发布于 2019-09-01
另请参阅: 新闻,语音识别
评论

不要错过两周以来最大的开源头条新闻。

title=

在本期的开源新闻综述中，我们来看看谷歌发布的两个开源软件、Twitter 的最新可观测性工具、动漫工作室对 Blender 的采用在增多等等新闻！

谷歌的开源双响炮

搜索引擎巨头谷歌的开发人员最近一直忙于开源。在过去的两周里，他们以开源的方式发布了两个截然不同的软件。

第一个是 Android 的语音识别和转录工具 Live Transcribe 的语音引擎，它可以“在移动设备上使用机器学习算法将音频变成实时字幕”。谷歌的声明称，它正在开源 Live Transcribe 以“让所有开发人员可以为长篇对话提供字幕”。你可以在 GitHub 上浏览或下载 Live Transcribe 的源代码。

谷歌还为 Android 和 iOS 开源了手势跟踪软件，它建立在其 MediaPipe 机器学习框架之上。该软件结合了三种人工智能组件：手掌探测器、“返回 3D 手点”的模型和手势识别器。据谷歌研究人员称，其目标是改善“跨各种技术领域和平台的用户体验”。该软件的源代码和文档可在 GitHub 上获得。

Twitter 开源 Rezolus 遥测工具

当想到网络中断时，我们想到的是影响站点或服务性能的大崩溃或减速。让我们感到惊讶的是性能慢慢被吃掉的小尖峰的重要性。为了更容易地检测这些尖峰，Twitter 开发了一个名为 Rezolus 的工具，该公司已将其开源。

我们现有的按分钟采样的遥测技术未能反映出这些异常现象。这是因为相对于该异常发生的长度，较低的采样率掩盖了这些持续时间大约为 10 秒的异常。这使得很难理解正在发生的事情并调整系统以获得更高的性能。

Rezolus 旨在检测“非常短暂但有时显著的性能异常”——仅持续几秒钟。Twitter 已经运行了 Rezolus 大约一年，并且一直在使用它收集的内容“与后端服务日志来确定峰值的来源”。

如果你对将 Rezolus 添加到可观测性堆栈中的结果感到好奇，请查看 Twitter 的 GitHub 存储库中的源代码。

日本的 Khara 动画工作室采用 Blender

Blender 被认为是开源的动画和视觉效果软件的黄金标准。它被几家制作公司采用，其中最新的是日本动漫工作室 Khara。

Khara 正在使用 Blender 开发 Evangelion: 3.0+1.0，这是基于流行动漫系列《Neon Genesis Evangelion》的电影系列的最新版本。虽然该电影的工作不能在 Blender 中全部完成，但 Khara 的员工“将从 2020 年 6 月开始使用 Blender 进行大部分工作”。为了强调其对 Blender 和开源的承诺，“Khara 宣布它将作为企业会员加入 Blender 基金会的发展基金。“

NSA 分享其固件安全工具

继澳大利亚同行共享他们的一个工具之后，美国国家安全局（NSA）正在提供的一个项目的成果“可以更好地保护机器免受固件攻击“。这个最新的软件以及其他保护固件的开源工作可以在 Coreboot Gerrit 存储库下找到。

这个名为“具有受保护执行的 SMI 传输监视器”（STM-PE）的软件“将与运行 Coreboot 的 x86 处理器配合使用”以防止固件攻击。根据 NSA 高级网络安全实验室的 Eugene Meyers 的说法，STM-PE 采用低级操作系统代码“并将其置于一个盒子中，以便它只能访问它需要访问的设备系统”。这有助于防止篡改，Meyers 说，“这将提高系统的安全性。”

其它新闻

一如既往地感谢 Opensource.com 的工作人员和主持人本周的帮助。

via: https://opensource.com/19/8/news-august-31

作者：Scott Nesbitt 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出