标签 ML 下的文章

测试你的机器的 ML 工作负载能力!

在这一年里,我们看到了 新的人工智能联盟 的成立,以及一些人对 人工智能模型的开源定义 的质疑,但我们仍然看到了大量的新发展。

其中一项进展就是人工智能基准测试领域,流行的 Geekbench ML 在其最新版本中做了一些非常酷的事情。

正在发生的事情:最近的公告 中,Primate Labs 宣布发布 Geekbench ML 0.6 ,并提供一份早期的圣诞礼物,以支持 Linux。

此版本的 Geekbench ML 作为预览版本发布,现已可用于 LinuxWindowsmacOS

可以期望什么:好吧,对于初学者来说,你可以期望所有平台上的基准测试体验都是相同的,因为它们都使用相同的模型和数据集。

顺便说一下,由于实施了新的框架,Geekbeench 的内部版本 TensorFlow Lite 也得到了升级,因此这些功能得到了改进。

他们还在 Geekbench ML 0.6 版本中添加了三种新类型的工作负载

  • 深度估计,这是一项有助于模拟常见相机软件效果的工作。
  • 风格转移,该工作负载将模拟生成式人工智能如何在常见用例中发挥作用,如复制照片风格以创建不同的照片。
  • 图像超分辨率,该工作负载将模拟人工智能驱动的图像增强。

但是,有一件重要的事情需要注意。对于 Linux,Geekbench ML 0.6 没有图形用户界面(GUI),用户只能使用命令行工具。稍后会详细介绍。

因此,尽管我们距离计划于 2024 年某个时候发布的 Geekbench ML 1.0 版本还有一段距离,但这是一个不错的版本,但也存在一些问题。但是,我很高兴看到他们为 Linux 提供了一个移植。

就我们的主题而言,你想在 Linux 系统上运行 Geekbench ML 吗?**

运行 Geekbench ML Benchmark 的方法

首先,你必须从 Geekbench 网站(链接如下)下载 tar.gz 文件。

此后,解压它,在同一目录中打开终端窗口,然后运行以下命令:

./banff
? 在运行基准测试之前,请确保你有可用的互联网连接。

然后它应该开始运行基准测试,你将看到正在实时运行的模型和数据集。

基准测试完成后,将显示确认提示,引导你在线查看基准测试结果。

你可以在 Geekbench 浏览器 上查看我的基准测试结果,我承认这并不起眼,但这是我的系统的微不足道的分数?。

要在 Linux 上运行 Geekbench ML,开发人员建议满足以下系统要求

  • CPU: AMD 或英特尔
  • 内存: 至少 2 GB
  • 操作系统: Ubuntu 18.04 LTS(64 位)或更高版本

你可以从 官方网站 获取 tar.gz,只需解压即可开始。

Geekbench ML

? 我真的希望他们在未来的 Linux 版 Geekbench ML 中添加 GUI。你怎么认为?

(题图:DA/08ae5808-f406-4a05-a30c-f1d1d36f7c35)


via: https://news.itsfoss.com/geekbench-ml-benchmark-app/

作者:Sourav Rudra 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

人工智能(AI)和机器学习(ML)正在影响当今几乎每个行业。本文重点介绍了这些技术在我们日常生活中的各种使用方式,以及一些开源云平台如何实现其部署。

人工智能 artificial intelligence (AI)的目标是构建能够模仿人类认知的机器和自动化系统。在全球范围内, AI 正在以各种方式改变着社会、政治和经济。 AI 应用的例子包括 谷歌帮助 Google Help 、Siri、Alexa 和特斯拉等自动驾驶汽车。

如今, AI 正被广泛使用,以有效的方式解决各行各业的难题。它被用于医疗保健行业,以做出比人类更准确、更快速的诊断。医生可以使用 AI 来诊断疾病,并在患者病情恶化时得到提醒。

数据安全对每个企业都至关重要,网络攻击的数量也在不断增加。使用 AI ,可以提高数据的安全性。这方面的一个例子是集成智能机器人来识别软件错误和网络攻击。

Twitter、WhatsApp、Facebook 和 Snapchat 只是使用 AI 算法存储和管理数十亿个人资料的社交媒体平台中的一小部分。 AI 可以整理和筛选大量数据,以找到最新趋势、标签和各种各样人的需求。

Figure 1: Key applications of machine learning

旅游业越来越依赖 AI ,因为后者可以帮助完成各种与旅行相关的任务,包括为消费者预订酒店、航班和最佳路线。为了提供更好、更快的客户服务,由 AI 驱动的聊天机器人正被用于旅游业。

工具/平台链接
Streamlithttps://github.com/streamlit/streamlit
TensorFlowhttps://www.tensorflow.org/
PyTorchhttps://pytorch.org/
scikit-learnhttps://scikit-learn.org/
Apache Sparkhttps://spark.apache.org/
Torchhttp://torch.ch/
Hugging Facehttps://huggingface.co/
Kerashttps://keras.io/
TensorFlowJShttps://www.tensorflow.org/js
KNIMEhttps://www.knime.com/
Apache Mahouthttps://mahout.apache.org/
Accordhttp://accord-framework.net/
Shogunhttp://shogun-toolbox.org/
RapidMinerhttps://rapidminer.com/
Blockshttps://github.com/mila-iqia/blocks
TuriCreatehttps://github.com/apple/turicreate
Dopaminehttps://github.com/google/dopamine
FlairNLPhttps://github.com/flairNLP/flair

表 1: ML 的工具和框架

不同领域的机器学习

让软件应用程序和小工具自行响应和发展的所有技术和工具都称为 机器学习 machine learning (ML)。多亏了 ML 技术, AI 可以在没有真正被明确编程来执行所需操作的情况下进行学习。ML 算法不依赖于预定义的计算机指令,而是从样本输入中学习一个模式,然后完全基于学习到的模式来预测和执行任务。如果没有严格的算法可供选择, ML 可以成为救命稻草。它将通过分析以前的处理方式来选择新处理方式,然后将其付诸实施。ML 为各种行业的技术进步和以前无法想象的技术扫清了道路。如今,它被用于各种尖端技术 — 从预测算法到互联网电视直播。

一个值得注意的 ML 和 AI 技术是图像识别,它是一种对数字图像中的特征或项进行分类和检测的方法。分类和人脸识别是使用这种方法完成的。

Figure 2: Streamlit cloud for machine learning

将 ML 用于推荐系统是其最广泛使用和知名的应用之一。在当今的电子商务世界中,产品推荐是一种利用强大的 ML 技术的代表性工具。网站使用 AI 和 ML 来跟踪过去的购买、搜索趋势和购物车历史,然后根据这些数据生成产品推荐。

在医疗保健行业中使用 ML 算法引起了很多兴趣。通过使用 ML 算法,可以跨多个医院部门预测急诊室等待时间。员工轮班的详细信息、患者数据以及科室讨论和急诊室布局的记录都用于帮助创建算法。 ML 算法可用于检测疾病、计划治疗和预测。

用于 ML 的云平台的主要特点

  • 算法或特征提取
  • 关联规则挖掘
  • 基于大数据的预测分析
  • 分类、回归和聚类
  • 数据加载和转换
  • 数据准备、数据预处理和可视化
  • 降维
  • 分布式线性代数
  • 假设检验和核方法
  • 处理图像、音频、信号和视觉数据集
  • 模型选择和优化模块
  • 预处理和数据流编程
  • 推荐系统
  • 通过插件支持文本挖掘和图像挖掘
  • 可视化和绘图

基于云的 AI 和 ML 应用程序部署

AI 和 ML 的应用可以部署在云平台上。如今,许多云服务提供商使程序员能够构建模型以在其领域内进行有效的决策。

这些基于云的平台与预先训练的 ML 和 深度学习 deep learning (DL)模型集成在一起,无需任何编码或用少量的脚本即可在这些模型上部署应用程序。

Figure 3: Categories of ML deployments in Streamlit

Streamlit

Streamlit 让数据科学家和 ML 专家能够访问各种 ML 模型。它是开源的并且与云部署兼容。ML 模型可以在几分钟内准备好与数据集一起使用

Streamlit 提供一系列 ML 模型和多个类别的源代码,包括自然语言处理、地理、教育、计算机视觉等。

Figure 4: Hugging Face for machine learning

Hugging Face

这是另一个平台,为各种类别的 ML 和 AI 提供预先训练的模型和架构。许多企业巨头都在使用这个平台,包括 Facebook AI、微软、谷歌 AI、亚马逊网络服务和 Grammarly。

Hugging Face 中提供了许多预训练和部署就绪的模型,用于不同的应用程序,包括自然语言处理和计算机视觉。

使用 Hugging Face 中的 ML 模型可以执行以下任务:

  • 音频到音频处理
  • 自动语音识别
  • 计算机视觉
  • 填充蒙版
  • 图像分类
  • 图像分割
  • 物体检测
  • 问题应答
  • 句子相似度
  • 总结
  • 文本分类
  • 文本生成
  • 文本到语音翻译
  • 令牌分类
  • 翻译分类

Hugging Face 中可用的问题解决器经过优化且有效,有助于快速部署模型(图 5)。

Figure 5: Problem solvers and models in Hugging Face

这些基于云的平台对多个领域的研究人员、从业者和数据科学家非常有用,并简化了性能良好的实际应用程序的开发。


via: https://www.opensourceforu.com/2022/09/platforms-that-help-deploy-ai-and-ml-applications-on-the-cloud/

作者:Dr Kumar Gaurav 选题:lkxed 译者:Misite Bao 校对:wxy

本文由 LCTT 原创编译,Linux 中国 荣誉推出

 title=

我目前正在参加一个机器学习班,虽然工作量很疯狂,但我非常喜欢。我最初计划使用 R) 来训练我的数据库,但老师建议我使用一个 FOSS 机器学习框架 H2o

起初我有点怀疑,因为我已经对 R 掌握得不错了,但后来我发现你可以简单地将 H2o 作为 R 库导入。H2o 将大多数 R 函数替换为其自己的并行化函数,以减少处理时间(不再需要 doParallel 调用),并且使用“外部”服务端来运行,而不是直接调用 R。

 title=

直到我真正在实际中开始在 H2o 中使用 R 时,我对这种情况都非常满意。我在使用非常大的数据库时,库变得笨重,我几乎不能做任何有用得事情。大多数时候,我最后只是得到一个很长的 Java 回溯调用。

我相信正确地将 H2o 作为一个库使用将非常强大,但可惜的是,它似乎在我的 R 技能中无效。

 title=

我生了一整天的气 —— 无法实现我想做的事 —— 直到我意识到 H2o 有一个名为 Flow 的 WebUI。我通常不喜欢使用 web 来完成重要的工作,比如编写代码,但是 Flow 简直太不可思议了。

自动绘图功能,运行资源密集模型时集成 ETA(预计剩余时间),每个模型参数的描述(这些参数甚至会根据您熟悉的统计模型分成不同部分),Flow 似乎拥有所有功能。我很快就能够运行 3 种基本的机器学习模型并获得实际可解释的结果。

所以,如果你一直渴望使用最先进的机器学习模型分析非常大的数据库,我会推荐使用 H2o。首先尝试使用 Flow,而不是 Python 或 R 的钩子,来看看它能做什么。

唯一缺点是,H2o 是用 Java 编写的,并依赖 Java 1.7 来运行。并且需要警告的是:它需要非常强大的处理器和大量的内存。即使有 10 个可用的内核和 10Gb 的 RAM,我可怜的服务器也苦苦挣扎了一段时间。


via: https://veronneau.org/playing-with-water.html

作者:Louis-Philippe Véronneau 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

机器学习 Machine Learning 有很多方面,当我开始研究学习它时,我发现了各种各样的“小抄”,它们简明地列出了给定主题的关键知识点。最终,我汇集了超过 20 篇的机器学习相关的小抄,其中一些我经常会翻阅,而另一些我也获益匪浅。这篇文章里面包含了我在网上找到的 27 个小抄,如果你发现我有所遗漏的话,请告诉我。

机器学习领域的变化是日新月异的,我想这些可能很快就会过时,但是至少在 2017 年 6 月 1 日时,它们还是很潮的。

如果你喜欢这篇文章,那就分享给更多人,如果你想感谢我,就到原帖地址点个赞吧。

机器学习

这里有一些有用的流程图和机器学习算法表,我只包括了我所发现的最全面的几个。

神经网络架构

来源: http://www.asimovinstitute.org/neural-network-zoo/

神经网络公园

微软 Azure 算法流程图

来源: https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheet

用于微软 Azure 机器学习工作室的机器学习算法

SAS 算法流程图

来源: http://blogs.sas.com/content/subconsciousmusings/2017/04/12/machine-learning-algorithm-use/

SAS:我应该使用哪个机器学习算法?

算法总结

来源: http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/

机器学习算法指引

来源: http://thinkbigdata.in/best-known-machine-learning-algorithms-infographic/

已知的机器学习算法哪个最好?

算法优劣

来源: https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend

Python

自然而然,也有许多在线资源是针对 Python 的,这一节中,我仅包括了我所见过的最好的那些小抄。

算法

来源: https://www.analyticsvidhya.com/blog/2015/09/full-cheatsheet-machine-learning-algorithms/

Python 基础

来源: http://datasciencefree.com/python.pdf

来源: https://www.datacamp.com/community/tutorials/python-data-science-cheat-sheet-basics#gs.0x1rxEA

Numpy

来源: https://www.dataquest.io/blog/numpy-cheat-sheet/

来源: http://datasciencefree.com/numpy.pdf

来源: https://www.datacamp.com/community/blog/python-numpy-cheat-sheet#gs.Nw3V6CE

来源: https://github.com/donnemartin/data-science-ipython-notebooks/blob/master/numpy/numpy.ipynb

Pandas

来源: http://datasciencefree.com/pandas.pdf

来源: https://www.datacamp.com/community/blog/python-pandas-cheat-sheet#gs.S4P4T=U

来源: https://github.com/donnemartin/data-science-ipython-notebooks/blob/master/pandas/pandas.ipynb

Matplotlib

来源: https://www.datacamp.com/community/blog/python-matplotlib-cheat-sheet

来源: https://github.com/donnemartin/data-science-ipython-notebooks/blob/master/matplotlib/matplotlib.ipynb

Scikit Learn

来源: https://www.datacamp.com/community/blog/scikit-learn-cheat-sheet#gs.fZ2A1Jk

来源: http://peekaboo-vision.blogspot.de/2013/01/machine-learning-cheat-sheet-for-scikit.html

来源: https://github.com/rcompton/ml_cheat_sheet/blob/master/supervised_learning.ipynb

Tensorflow

来源: https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/1_Introduction/basic_operations.ipynb

Pytorch

来源: https://github.com/bfortuner/pytorch-cheatsheet

数学

如果你希望了解机器学习,那你就需要彻底地理解统计学(特别是概率)、线性代数和一些微积分。我在本科时辅修了数学,但是我确实需要复习一下了。这些小抄提供了机器学习算法背后你所需要了解的大部分数学知识。

概率

来源: http://www.wzchen.com/s/probability_cheatsheet.pdf

概率小抄 2.0

线性代数

来源: https://minireference.com/static/tutorials/linear_algebra_in_4_pages.pdf

四页内解释线性代数

统计学

来源: http://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf

统计学小抄

微积分

来源: http://tutorial.math.lamar.edu/getfile.aspx?file=B,41,N

微积分小抄

Linux 内核新增的异构内存管理将解锁加速 GPU 的新途径,并挖掘其它的机器学习硬件的潜能

更快的机器学习正在来到你身边的 Linux 内核

一项开发了很久的内存管理技术将会给机器学习和其它 GPU 驱动的程序很大幅度的提升,而它也将在接下来的几个版本中进入 Linux 内核。

异构内存管理(HMM)可以允许设备驱动为在其自身内存管理下的进程镜像地址空间。正如红帽的开发者 Jérôme Glisse 所解释的,这让像 GPU 这样的硬件设备可以直接访问进程内存,而不用花费复制带来的额外开销。它还不违反现代操作系统提供的内存保护功能。

一类会从 HMM 中获益最多的应用是基于 GPU 的机器学习。像 OpenCL 和 CUDA 这样的库能够从 HMM 中获得速度的提升。HMM 实现这个的方式和加速基于 GPU 的机器学习相似,就是让数据留在原地,靠近 GPU 的地方,在那里直接操作数据,尽可能少地移动数据。

像这样的加速对于 CUDA(英伟达基于 GPU 的处理库)来说,只会有益于在英伟达 GPU 上的操作,这些 GPU 也是目前加速数据处理的主要硬件。但是,OpenCL 设计用来编写可以针对多种硬件的代码——CPU、GPU、FPGA 等等——随着这些硬件的成熟,HMM 能够提供更加广泛的益处。

要让 Linux 中的 HMM 处于可用状态还有一些阻碍。第一个是内核支持,在很长一段时间里都受到限制。早在 2014年,HMM 最初作为 Linux 内核补丁集提出,红帽和英伟达都是关键开发者。需要做的工作不少,但是开发者认为代码可以提交上去,也许接下来的几个内核版本就能把它包含进去。

第二个阻碍是显卡驱动支持,英伟达一直在自己单独做一些工作。据 Glisse 的说法,AMD 的 GPU 可能也会支持 HMM,所以这种特殊优化不会仅限于英伟达的 GPU。AMD 一直都在尝试提升它的 GPU 市场占有率,有可能会将 GPU 和 CPU 整合到同一模具。但是,软件生态系统依然更青睐英伟达;要使其兑现,还需要更多的像 HMM 这样的中立项目,以及让 OpenCL 提供和 CUDA 相当的性能。

第三个阻碍是硬件支持,因为 HMM 的工作需要一项称作 可重现页面故障 replayable page faults 的硬件特性。只有英伟达的帕斯卡系列高端 GPU 才支持这项特性。从某些意义上来说这是个好消息,因为这意味着英伟达只需要提供单一硬件的驱动支持就能让 HMM 正常使用,工作量就少了。

一旦 HMM 到位,对于提供 GPU 实例的公有云提供商就会面临压力,他们需要支持最新最好一代的 GPU。这并不是仅仅将老款的开普勒架构显卡换成最新的帕斯卡架构显卡就行了,因为后续的每一代显卡都会更加优秀,像 HMM 这样的支持优化将提供战略优势。

(题图:Thinkstock)


via: http://www.infoworld.com/article/3196884/linux/faster-machine-learning-is-coming-to-the-linux-kernel.html

作者:Serdar Yegulalp 译者:alim0x 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

机器学习是你的简历中必需的一门技能。我们简要概括一下使用 Python 来进行机器学习的一些步骤。

 title=

你想知道如何开始机器学习吗?在这篇文章中,我将简要概括一下使用 Python 来开始机器学习的一些步骤。Python 是一门流行的开源程序设计语言,也是在人工智能及其它相关科学领域中最常用的语言之一。机器学习简称 ML,是人工智能的一个分支,它是利用算法从数据中进行学习,然后作出预测。机器学习有助于帮助我们预测我们周围的世界。

从无人驾驶汽车到股市预测,再到在线学习,机器学习通过预测来进行自我提高的方法几乎被用在了每一个领域。由于机器学习的实际运用,目前它已经成为就业市场上最有需求的技能之一。另外,使用 Python 来开始机器学习很简单,因为有大量的在线资源,以及许多可用的 Python 机器学习库

你需要如何开始使用 Python 进行机器学习呢?让我们来总结一下这个过程。

提高你的 Python 技能

由于 Python 在工业界和科学界都非常受欢迎,因此你不难找到 Python 的学习资源。如果你是一个从未接触过 Python 的新手,你可以利用在线资源,比如课程、书籍和视频来学习 Python。比如下面列举的一些资源:

安装 Anaconda

下一步是安装 Anacona。有了 Anaconda ,你将可以开始使用 Python 来探索机器学习的世界了。Anaconda 的默认安装库包含了进行机器学习所需要的工具。

基本的机器学习技能

有了一些基本的 Python 编程技能,你就可以开始学习一些基本的机器学习技能了。一个实用的学习方法是学到一定技能便开始进行练习。然而,如果你想深入学习这个领域,那么你需要准备投入更多的学习时间。

一个获取技能的有效方法是在线课程。吴恩达的 Coursera 机器学习课程 是一个不错的选择。其它有用的在线训练包括:

你也可以在 LiveEdu.tv 上观看机器学习视频,从而进一步了解这个领域。

学习更多的 Python 库

当你对 Python 和机器学习有一个好的感觉之后,可以开始学习一些开源的 Python 库。科学的 Python 库将会使完成一些简单的机器学习任务变得很简单。然而,选择什么库是完全主观的,并且在业界内许多人有很大的争论。

一些实用的 Python 库包括:

  • Scikit-learn :一个优雅的机器学习算法库,可用于数据挖掘和数据分析任务。
  • Tensorflow :一个易于使用的神经网络库。
  • Theano : 一个强大的机器学习库,可以帮助你轻松的评估数学表达式。
  • Pattern : 可以帮助你进行自然语言处理、数据挖掘以及更多的工作。
  • Nilearn :基于 Scikit-learn,它可以帮助你进行简单快速的统计学习。

探索机器学习

对基本的 Python、机器学习技能和 Python 库有了一定理解之后,就可以开始探索机器学习了。接下来,尝试探索一下 Scikit-learn 库。一个不错的教程是 Jake VanderPlas 写的 Scikit-learn 简介

然后,进入中级主题,比如 K-均值聚类算法简介、线性回归、决策树和逻辑回归。

最后,深入高级机器学习主题,比如向量机和复杂数据转换。

就像学习任何新技能一样,练习得越多,就会学得越好。你可以通过练习不同的算法,使用不同的数据集来更好的理解机器学习,并提高解决问题的整体能力。

使用 Python 进行机器学习是对你的技能的一个很好的补充,并且有大量免费和低成本的在线资源可以帮助你。你已经掌握机器学习技能了吗?可以在下面留下你的评论,或者提交一篇文章来分享你的故事。

(题图:opensource.com)


作者简介:

Michael J. Garbade 博士是旧金山 LiveEdu Inc(Livecoding.tv)的创始人兼首席执行官。Livecoding.tv 是世界上观看工程师直播编代码最先进的直播平台。你可以通过观看工程师们写网站、移动应用和游戏,来将你的技能提升到一个新的水平。MichaelJ. Garbade 博士拥有金融学博士学位,并且是一名自学成才的工程师,他喜欢 Python、Django、Sencha Touch 和视频流。


via: https://opensource.com/article/17/5/python-machine-learning-introduction

作者:Michael J. Garbade 译者:ucasFL 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出