标签 AI 下的文章

极客漫画：AI 会抢走我们的工作吗？

Daniel Stori 发布于 2019-02-21
另请参阅: 极客漫画,AI
13 条评论

你不觉得现在的 AI 越来越厉害了么？会不会担心有一天你会失业？瞧瞧，很多工厂都用机器人换下了流水线上的工人们。你觉得你是一个白领，是一个会打字、会做 PPT、会编程的白领。别做梦了，电脑蓝领们，这些事情 AI 干的比你好多了。（还好，这篇漫画 Google 翻译的没有我翻译的好……）

via: http://turnoff.us/geek/will-ai-take-our-jobs/

作者：Daniel Stori 译者 & 点评：wxy 校对 & 合成：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

极客漫画：当 Git 有了智能

Daniel Stori 发布于 2019-02-03
另请参阅: 极客漫画,Git, AI, 极客漫画
7 条评论

要是你的 Git 有了人工智能，会不会嫌弃你的提交？

当你想修复一个游戏防沉迷的时间验证 bug 时，却被 Git 鄙视了——你确认你的老板还需要你吗，而不是一个 Git？

就算是你恼羞成怒想要删除 Git 怕是也会被智能的 Yum 拒绝吧——它们肯定是一伙的。

via: http://turnoff.us/geek/when-ai-meets-git/

作者：Daniel Stori 译者 & 点评：wxy 校对 & 合成：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

学习人工智能如何入门

Gordon Haff 发布于 2018-12-18
另请参阅: 观点,人工智能, 机器学习, AI
评论

在你开始从事人工智能之前，你需要先了解人类的智能。

我曾经问过别人、也被别人问过关于学习人工智能（AI）最好的方式是什么？我应该去阅读什么书？我应该去看什么视频？后面我将讲到这些，但是，考虑到人工智能涉及很多领域，我把这个问题分开来讲可能更好理解。

学习人工智能很重要的一点是区别开研究方面和应用方面。Google 的 Cassie Kozyrkov 在近日于伦敦举行的 O'Reilly 人工智能会议的一个演讲中描述了这个区别，并且这是一个很好的演讲。

人工智能研究在本质上是学术性的，在你能够获得人工智能的某些细节之前，需要大量的跨各类学科的数学知识。这部分的人工智能关注于算法和驱动人工智能发展的工具。比如，什么样的神经网络结构能够改善视觉识别的结果？我们如何使无监督学习成为更有用的方法？我们能否找到一个更好的方法，去理解深度学习流水线是如何得出答案的？

另一方面，人工智能应用更多是关于使用现有工具去获取有用的结果。开源在这里发挥了一个重要的作用，那就是免费提供了易于使用的、各种语言的软件。公有云提供商也致力于提供大量的机器学习、模型、以及数据集，这使得人工智能的入门比其它的要简单的多。

在这个问题上我想补充一点，那就是人工智能的从业者不应该将他们的工具视为神秘地输出答案的黑匣子。至少，他们应该去了解不同技术、模型、和数据采集方法的限制和潜在偏差。只是不需要去深入研究他们工具链中每个部分的理论基础。

虽然在日常工作中人工智能可能并不那么重要，但理解人工智能的大量的背景知识还是很有用的。人工智能已经超越了神经网络上深度学习的狭窄范围，目前神经网络上的强化学习和监督学习已经取得重要成就。例如，人工智能经常被视为是增强（而不是替代）人类判断和决策的一种方法。但是在机器和人类之间交换信息还有其自身的缺陷。

有了这些背景知识，下面是的一些研究领域和资源，你可能发现会很有用。

研究人工智能

在很多方面，用于人工智能研究的一个资源清单，可以反映出本科（甚至是研究生）的计算机科学项目都是专注于人工智能。最主要的区别是，你起草的教学大纲比起传统的大纲更关注于跨学科。

你的计算机科学和数学背景知识决定了你的起点。

如果你的计算机科学和数据背景知识很差或已经荒芜了，但你还希望能够深入了解人工智能的基本原理，那么从一些数学课程开始将会让你受益。MOOC 上像非盈利的 edX 平台和 Coursera 上都有许多可供你选择的课程（这两个平台都对认证收费，但 edX 上所有的课程，对旁听者是全免费的）。

典型的基础课程包括：

MIT 的微积分课程，从微分开始学习
线性代数（德克萨斯大学）
概率与统计，比如 MIT 的概率 —— 不确定性与数据科学

从一个研究的角度去深入人工智能，你可能需要深入所有的这些数据领域，甚至更多。但是上面的内容应该让您在深入研究机器学习和AI之前大致了解可能是最重要的研究分支。

除了 MOOC 之外，像 MIT OpenCourseWare 这样的资源也提供了大量的数学和计算机科学课程的大纲和各种支持材料。

有了这些基础，你就可以学习更专业的人工智能课程了。吴恩达从他在斯坦福大学时教的 “AI MOOC” 就是整个在线课程领域中最早流行起来的课程之一。今天，他的神经网络和深度学习也是 Coursera 深度学习专业的一部分。在 edX 上也有相关的一些项目，比如，哥伦比亚大学提供的一个人工智能 MicroMasters。

除了课程之外，也可以在网上找到各种范例和其它学习材料。这些包括：

神经网络和深度学习
MIT 出版的 Ian Goodfellow、Yoshua Bengio、Aaron Courville 的《深度学习》

应用人工智能

人工智能应用更关注于使用可用的工具，而不是去构建新工具。对一些底层的数学，尤其是统计学的了解仍然是非常有用的 —— 甚至可以说是必需的 —— 但对这些知识的了解程度不像研究人工智能的要求那么高。

在这里编程是核心技能。虽然可以使用不同的编程语言去做，但是一些库和工具集 —— 比如 Python 的 PyTorch，依赖于 Python，所以这是一个应该掌握的好技能。尤其是，如果你有某种程度上的编程背景，MIT 的计算机科学入门和使用 Python 编程，它是基于 MIT 的 6.001 在校课程，是一个非常好的启蒙课程。如果你编程零基础，来自密歇根大学的 Charles Severance 的人人学编程（Python 使用入门）是个很好的开端，它不会像 MIT 的课程那样，把你一下子扔进代码的汪洋大海。

R 编程语言也是一个应该增加到你的技能库中的很有用的技能。虽然它在机器学习（ML）中使用的很少，但它在其它数据科学任务中很常见，并且经常与人工智能/机器学习和数据科学的应用实践结合在一起。例如，与组织和清理数据相关的许多任务同样适用于您最终使用的任何分析技术。像哈佛的数据科学认证这样的一个 MOOC 系列就是一整套课程的一个例子，这些课程介绍了如何去很好地处理数据。

如果你从事人工智能方面的工作，那么你很可能会遇到的另一个开源软件库就是 TensorFlow。它最初是由 Google 人工智能团队中的 Google 大脑团队的研发工程师开发的。Google 提供了许多教程让你通过高级 Keras API 去开始使用 TensorFlow。你既可以在 Google 云上也可以在本地运行 TensorFlow。

通常，大的公有云提供商都提供在线数据集和易于使用的机器学习服务。但是，在你开始去 “玩” 数据集和应用之前，你需要考虑清楚，一旦开始选定一个提供商，你将被它们 “锁定” 的程度。

你的探索学习项目所需的数据集可以从许多不同的源获得。除了公有云提供商之外，Kaggle 是另一个受欢迎的源，总体来看，它也是一个比较好的学习源。以数字形式提供的政府数据也越来越多了。美国联邦政府的 Data.gov 声称它提供超过 300,000 个数据集。各州和地方政府也发布从餐馆健康评级到狗的名字的所有数据。

研究和应用人工智能兼而有之

最后我想说明的一点是，人工智能不仅是与数学、编程、数据有关的一个宽泛主题。人工智能作为一个综合体涉及到了许多其它的领域，包括心理学、语言学、博弈论、运筹学和控制系统。确实，现在有一些人工智能研究者担心，由于处理能力和大数据的结合，使得该领域过于关注最近才变得强大和有趣的少数几个技术。在了解人类如何学习和推理方面，许多长期存在的问题仍未解决。不管怎样，对这些广泛存在的问题有一个了解，将更好地让你在更广泛的背景中评估人工智能。

我比较喜欢的其中一个示例是杜克大学的人类和自治实验室。这个实验室的工作涉及人机协同所面临的各种挑战，比如，如果自动化设备失效，自动驾驶仪如何设计才能让那些“洋红色的孩子“ 快速取得控制。有一个基础的大脑科学课程，比如 MIT 的心理学导论，它提供了关于人类智能和机器智能之间关系的一些很有用的内容。另一个类似的课程是，MIT 电子工程与计算机科学系已故教授 Marvin Minsky 的心灵的社会。

关于学习人工智能，假如说有一个最重要的挑战，那它不是原材料和工具不易获得，因为它们有如此之多。我的目标并不是给你一个全面的指导，相反，而是指出了你可以去学习的不同路径，以及为你提供一些可能的起点。祝你学习愉快！

via: https://opensource.com/article/18/12/how-get-started-ai

作者：Gordon Haff 选题：lujun9972 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

极客漫画：AI 监管

Daniel Stori 发布于 2018-08-18
另请参阅: 极客漫画,AI, 漫画
评论

台上某疑似“钢铁侠”正在宣讲“AI 监管”，遭到了群嘲——怒极之下，却暴露出了其原本是一个“AI”。

via: http://turnoff.us/geek/ai-regulation

作者：Daniel Stori 译者：wxy 合成：Bestony

本文由 LCTT 原创编译，Linux中国荣誉推出

你应该了解的 6 个开源 AI 工具

Sam Dean 发布于 2018-07-12
另请参阅: 技术,AI
评论

让我们来看看几个任何人都能用的自由开源的 AI 工具。

在开源领域，不管你的想法是多少的新颖独到，先去看一下别人是否已经做成了这个概念，总是一个很明智的做法。对于有兴趣借助不断成长的人工智能 Artificial Intelligence （AI）的力量的组织和个人来说，许多优秀的工具不仅是自由开源的，而且在很多的情况下，它们都已经过测试和久经考验的。

在领先的公司和非盈利组织中，AI 的优先级都非常高，并且这些公司和组织都开源了很有价值的工具。下面的举例是任何人都可以使用的自由开源的 AI 工具。

Acumos

Acumos AI 是一个平台和开源框架，使用它可以很容易地去构建、共享和分发 AI 应用。它规范了运行一个“开箱即用的”通用 AI 环境所需要的基础设施栈 infrastructure stack 和组件。这使得数据科学家和模型训练者可以专注于它们的核心竞争力，而不用在无止境的定制、建模，以及训练一个 AI 实现上浪费时间。

Acumos 是 LF 深度学习基金会的一部分，它是 Linux 基金会中的一个组织，它支持在人工智能、机器学习 machine learning 、以及深度学习 deep learning 方面的开源创新。它的目标是让这些重大的新技术可用于开发者和数据科学家，包括那些在深度学习和 AI 上经验有限的人。LF 深度学习基金会最近批准了一个项目生命周期和贡献流程，并且它现在正接受项目贡献的建议。

Facebook 的框架

Facebook 开源了其中心机器学习系统，它设计用于做一些大规模的人工智能任务，以及一系列其它的 AI 技术。这个工具是经过他们公司验证使用的平台的一部分。Facebook 也开源了一个叫 Caffe2 的深度学习和人工智能的框架。

CaffeOnSpark

说到 Caffe。 Yahoo 也在开源许可证下发布了它自己的关键的 AI 软件。CaffeOnSpark 工具是基于深度学习的，它是人工智能的一个分支，在帮助机器识别人类语言，或者照片、视频的内容方面非常有用。同样地，IBM 的机器学习程序 SystemML 可以通过 Apache 软件基金会自由地共享和修改。

Google 的工具

Google 花费了几年的时间开发了它自己的 TensorFlow 软件框架，用于去支持它的 AI 软件和其它预测和分析程序。TensorFlow 是你可能都已经在使用的一些 Google 工具背后的引擎，包括 Google Photos 和在 Google app 中使用的语言识别。

Google 开源了两个 AIY 套件，它可以让个人很容易地使用人工智能，它们专注于计算机视觉和语音助理。这两个套件将用到的所有组件封装到一个盒子中。该套件目前在美国的 Target 中有售，并且它是基于开源的树莓派平台的 —— 有越来越多的证据表明，在开源和 AI 交集中将发生非常多的事情。

H2O.ai

我以前介绍过 H2O.ai，它在机器学习和人工智能领域中占有一席之地，因为它的主要工具是自由开源的。你可以获取主要的 H2O 平台和 Sparkling Water，它与 Apache Spark 一起工作，只需要去下载它们即可。这些工具遵循 Apache 2.0 许可证，它是一个非常灵活的开源许可证，你甚至可以在 Amazon Web 服务（AWS）和其它的集群上运行它们，而这仅需要几百美元而已。

Microsoft 入局

“我们的目标是让 AI 大众化，让每个人和组织获得更大的成就，“ Microsoft CEO 萨提亚·纳德拉说。因此，微软持续迭代它的 Microsoft Cognitive Toolkit（CNTK）。它是一个能够与 TensorFlow 和 Caffe 去竞争的一个开源软件框架。Cognitive Toolkit 可以工作在 64 位的 Windows 和 Linux 平台上。

Cognitive Toolkit 团队的报告称，“Cognitive Toolkit 通过允许用户去创建、训练，以及评估他们自己的神经网络，以使企业级的、生产系统级的 AI 成为可能，这些神经网络可能跨多个 GPU 以及多个机器在大量的数据集中高效伸缩。”

从来自 Linux 基金会的新电子书中学习更多的有关 AI 知识。Ibrahim Haddad 的开源 AI：项目、洞察和趋势调查了 16 个流行的开源 AI 项目—— 深入研究了他们的历史、代码库、以及 GitHub 的贡献。现在可以免费下载这个电子书。

via: https://www.linux.com/blog/2018/6/6-open-source-ai-tools-know

作者：Sam Dean 选题：lujun9972 译者：qhwdw 校对：pityonline, wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

AI 和机器学习中暗含的算法偏见

Justin Sherman 发布于 2018-04-14
另请参阅: 观点,人工智能, 机器学习, AI
评论

我们又能通过开源社区做些什么？

在我们的世界里，算法无处不在，偏见也是一样。从社会媒体新闻的提供到流式媒体服务的推荐到线上购物，计算机算法，尤其是机器学习算法，已经渗透到我们日常生活的每一个角落。至于偏见，我们只需要参考 2016 年美国大选就可以知道，偏见是怎样在明处与暗处影响着我们的社会。

很难想像，我们经常忽略的一点是这二者的交集：计算机算法中存在的偏见。

与我们大多数人的认知相反，科技并不是客观的。 AI 算法和它们的决策程序是由它们的研发者塑造的，他们写入的代码，使用的“训练”数据还有他们对算法进行应力测试的过程，都会影响这些算法今后的选择。这意味着研发者的价值观、偏见和人类缺陷都会反映在软件上。如果我只给实验室中的人脸识别算法提供白人的照片，当遇到不是白人照片时，它不会认为照片中的是人类。这结论并不意味着 AI 是“愚蠢的”或是“天真的”，它显示的是训练数据的分布偏差：缺乏多种的脸部照片。这会引来非常严重的后果。

这样的例子并不少。全美范围内的州法院系统都使用“黑盒”对罪犯进行宣判。由于训练数据的问题，这些算法对黑人有偏见，他们对黑人罪犯会选择更长的服刑期，因此监狱中的种族差异会一直存在。而这些都发生在科技的客观性伪装下，这是“科学的”选择。

美国联邦政府使用机器学习算法来计算福利性支出和各类政府补贴。但这些算法中的信息，例如它们的创造者和训练信息，都很难找到。这增加了政府工作人员进行不平等补助金分发操作的几率。

算法偏见情况还不止这些。从 Facebook 的新闻算法到医疗系统再到警用携带相机，我们作为社会的一部分极有可能对这些算法输入各式各样的偏见、性别歧视、仇外思想、社会经济地位歧视、确认偏误等等。这些被输入了偏见的机器会大量生产分配，将种种社会偏见潜藏于科技客观性的面纱之下。

这种状况绝对不能再继续下去了。

在我们对人工智能进行不断开发研究的同时，需要降低它的开发速度，小心仔细地开发。算法偏见的危害已经足够大了。

我们能怎样减少算法偏见？

最好的方式是从算法训练的数据开始审查，根据微软的研究人员所说，这方法很有效。

数据分布本身就带有一定的偏见性。编程者手中的美国公民数据分布并不均衡，本地居民的数据多于移民者，富人的数据多于穷人，这是极有可能出现的情况。这种数据的不平均会使 AI 对我们是社会组成得出错误的结论。例如机器学习算法仅仅通过统计分析，就得出“大多数美国人都是富有的白人”这个结论。

即使男性和女性的样本在训练数据中等量分布，也可能出现偏见的结果。如果训练数据中所有男性的职业都是 CEO，而所有女性的职业都是秘书（即使现实中男性 CEO 的数量要多于女性），AI 也可能得出女性天生不适合做 CEO 的结论。

同样的，大量研究表明，用于执法部门的 AI 在检测新闻中出现的罪犯照片时，结果会惊人地偏向黑人及拉丁美洲裔居民。

在训练数据中存在的偏见还有很多其他形式，不幸的是比这里提到的要多得多。但是训练数据只是审查方式的一种，通过“应力测验”找出人类存在的偏见也同样重要。

如果提供一张印度人的照片，我们自己的相机能够识别吗？在两名同样水平的应聘者中，我们的 AI 是否会倾向于推荐住在市区的应聘者呢？对于情报中本地白人恐怖分子和伊拉克籍恐怖分子，反恐算法会怎样选择呢？急诊室的相机可以调出儿童的病历吗？

这些对于 AI 来说是十分复杂的数据，但我们可以通过多项测试对它们进行定义和传达。

为什么开源很适合这项任务？

开源方法和开源技术都有着极大的潜力改变算法偏见。

现代人工智能已经被开源软件占领，TensorFlow、IBM Watson 还有 scikit-learn 这类的程序包都是开源软件。开源社区已经证明它能够开发出强健的，经得住严酷测试的机器学习工具。同样的，我相信，开源社区也能开发出消除偏见的测试程序，并将其应用于这些软件中。

调试工具如哥伦比亚大学和理海大学推出的 DeepXplore，增强了 AI 应力测试的强度，同时提高了其操控性。还有麻省理工学院的计算机科学和人工智能实验室完成的项目，它开发出敏捷快速的样机研究软件，这些应该会被开源社区采纳。

开源技术也已经证明了其在审查和分类大组数据方面的能力。最明显的体现在开源工具在数据分析市场的占有率上（Weka、Rapid Miner 等等）。应当由开源社区来设计识别数据偏见的工具，已经在网上发布的大量训练数据组比如 Kaggle 也应当使用这种技术进行识别筛选。

开源方法本身十分适合消除偏见程序的设计。内部谈话、私人软件开发及非民主的决策制定引起了很多问题。开源社区能够进行软件公开的谈话，进行大众化，维持好与大众的关系，这对于处理以上问题是十分重要的。如果线上社团，组织和院校能够接受这些开源特质，那么由开源社区进行消除算法偏见的机器设计也会顺利很多。

我们怎样才能够参与其中？

教育是一个很重要的环节。我们身边有很多还没意识到算法偏见的人，但算法偏见在立法、社会公正、政策及更多领域产生的影响与他们息息相关。让这些人知道算法偏见是怎样形成的和它们带来的重要影响是很重要的，因为想要改变目前的局面，从我们自身做起是唯一的方法。

对于我们中间那些与人工智能一起工作的人来说，这种沟通尤其重要。不论是人工智能的研发者、警方或是科研人员，当他们为今后设计人工智能时，应当格外意识到现今这种偏见存在的危险性，很明显，想要消除人工智能中存在的偏见，就要从意识到偏见的存在开始。

最后，我们需要围绕 AI 伦理化建立并加强开源社区。不论是需要建立应力实验训练模型、软件工具，或是从千兆字节的训练数据中筛选，现在已经到了我们利用开源方法来应对数字化时代最大的威胁的时间了。

via: https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias

作者：Justin Sherman 译者：Valoniakim 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出