标签 AI 下的文章

众包工人用 AI 为 AI 做数据标注工作

AI 模型是建立在人类劳动的基础之上的,高质量的数据标注对 AI 模型至关重要,AI 公司通常会雇佣廉价的众包工人做一些数据标注工作。但研究显示,随着 AI 聊天机器人,如 ChatGPT 的流行,众包工人开始利用 AI 做这些数据标注的工作。瑞士洛桑联邦理工学院的研究人员招募了 44 名众包工人来对 16 篇医学研究论文总结摘要,根据记录的击键情况,比如按下复制快捷键等,他们估计有 33-46% 的摘要文本是用 AI 生成的。

消息来源:The Register
老王点评:还记得前两天我们的#1032 期报道吗,显然这种 AI 吃 AI 的狗粮的事情已经在发生,并且会越来越多。而且,AI 真的能分清楚哪些是 AI 生成的么?可能会越来越难。

FreeBSD 本月庆祝其三十岁生日

1993 年 6 月 19 日,从 386BSD 项目中分裂出来的 FreeBSD 正式有了这个名字。但第一个正式版本直到 1993 年 11 月才发布。FreeBSD 14 将于未来几个月后发布,晚于预期计划。

消息来源:FreeBSD
老王点评:虽然不如 Linux 那么流行,但是 FreeBSD 仍然是一个独特而重要的操作系统。当然,这里面故事很多,感兴趣的朋友可以了解一下。

GPT-4 生成的商业计划书更受投资者青睐

虽然用 AI 撰写商业计划书能节约很多时间,但更重要的是,AI 撰写的比人类撰写的更好,更吸引投资。有公司邀请了数百名投资者和企业主对一组由人类创造和 GPT-4 生成的商业计划书进行评分,他们并不知道有 AI 参与撰写。而且,其中人类撰写的计划书来自于已经获得融资的成功案例。结果显示 GPT-4 生成的商业计划书比人类更有效,被认为在质量、关键要素描述和问题描述上胜过人类。调查显示,在投资者和企业主阅读了 GPT-4 的计划书之后,投资可能性为人类的三倍,他们认为 AI 生成计划书的说服力是人类的两倍。

消息来源:ZDNet
老王点评:投资人可能会想,那我为什么不直接投资 AI 创建的企业呢?这一天或许不远了。

英特尔开始出货量子处理器

这个名为 Tunnel Falls 的处理器是一款 12 量子比特的芯片,虽然远远落后于英特尔的许多竞争对手的量子比特数量,但英特尔正试图建立基于硅的量子比特,而其它的量子处理器厂商都在通过云服务提供量子处理器。这些量子比特基于“量子点”,这些结构比材料中的电子波长还要小。量子点可以用来捕获单个电子,然后可以处理电子的特性来存储量子信息。英特尔利用其制造专长来制作量子点,并创造出设置和读取其状态以及执行操作所需的所有邻近功能。

消息来源:Ars Technica
老王点评:居然可以像民用芯片一样销售了?我感觉量子时代或许来的比我想象的要早。

谷歌利用 YouTube 开发其下一代人工智能

据透露,谷歌的研究人员一直在利用 YouTube 开发其下一个大型语言模型 “ 双子座 Gemini ”,该模型展示了在其他任何模型中都看不到的多模态能力。而 OpenAI 也已经秘密地使用了 YouTube 的数据来训练其一些人工智能模型,但谷歌能够拥有 YouTube 更全面的视频数据。人工智能开发者在寻找用于训练和改进模型的高质量数据方面面临着新的障碍。从 Reddit 到 Stack Exchange 再到 DeviantArt 的主要网站出版商正越来越多地阻止开发者为该目的下载数据。

消息来源:The Information
老王点评:人工智能下面一个竞争优势就是,看谁拥有大量的数据。所以,我有点明白 Reddit、Twitter 为什么要对其 API 收高价了,可能广告的流失可能并不是主要的原因,因为这种情况并不是第一天存在了。

Meta 公司希望人们能利用其开源人工智能赚钱

Meta 公司正在研究如何将其开源的大语言模型的下一个版本用于商业用途,他们希望其他公司自由使用 Meta 正在开发的新人工智能软件并从中获利,这一决定可能会对其他人工智能开发者和越来越多地采用它的企业产生重大影响。随着开发者采用和改进这些 Meta 开源的模型或修补其安全漏洞,Meta 也将能够把这些改进纳入其自己的消费者和广告产品的人工智能模型中。

消息来源:The Information
老王点评:Meta 公司显然是走一条弯道超车的方法,走开源的路,让其它人无路可走。

安卓开源项目将不是一个完整的开源移动操作系统

安卓开源项目(AOSP)是安卓系统开源的部分,但谷歌不断地将其中一些部分抽取到其私有的谷歌服务框架。最近,谷歌又废弃了 AOSP 中的拨号和消息应用程序,谷歌称,“这个应用程序没有得到积极的支持,其源代码只作为参考。这个项目将在未来的某个时候从源代码清单中删除。”虽然每个安卓 OEM 厂商都已经使用了他们自己的拨号和消息应用,而且也有比谷歌更好的开源替代品,但对于安卓这个开源操作系统来说,由于 AOSP 的功能不断地被转移到闭源的谷歌服务框架中,你将不能说 AOSP 是一个完整的开源移动操作系统了。

消息来源:OS News
老王点评:从谷歌删除“不作恶”信条那时起,开源就不断被它践踏。当然,这并不是谷歌做的有多差,或者违背了开源许可证,在这方面比它差的比比皆是。叹息的是,终究很多公司只是将开源当成一件需要利用时披上的华丽衣服,而在金钱当道时就如旧衣一样丢弃。

Debian 13 将支持 RISC-V 64

Debian 12 已经正式发布,官方支持 AMD64、AArch64、i386、POWER 等架构,但不支持 RISC-V 64 位。不过,对 RISC-V 64 位的移植正在取得良好的进展。在一年半到两年后的 Debian 13 版本中,预计会有对 RISC-V 64 位的支持。考虑到许多社区开源开发者缺乏高性能 RISC-V 硬件,这也是可以理解的。

消息来源:Phoronix
老王点评:如果 Debian 能够支持高性能 RISC-V 架构,将从根本上推动 RISC-V 的发展。

生成型人工智能每年可为全球经济增加 4.4 万亿美元

麦肯锡公司称,生成性人工智能每年可为全球经济增加 “2.6 万亿至 4.4 万亿美元”。这几乎是 “相当于在地球上增加一个规模相当于英国的新国家(其 2021 年 GDP 为 3.1 万亿美元)”。这一数据比该公司在 2017 年的预估上调了 15% 至 40%。生成性人工智能和其他技术有可能使工作自动化,但麦肯锡认为这并不意味着大规模的工作流失,而是“使这些工作的执行速度大大加快”。麦肯锡发现,主要受到影响的工作任务是客户运营、市场和销售、软件工程和研发等工作。

消息来源:Venture Beat
老王点评:虽然如此说,但是一些人失业是不可避免的,就看谁能适应。可以预期的是,人工智能鸿沟会进一步拉大社会差距。

回音

  • AMD 上个月 披露 将用开源固件 openSIL 取代其 AGESA 固件。这件事的新进展是,AMD 刚刚 发布 了 openSIL 非常早期的概念验证代码。

伊朗把 FPGA 开发板“变成了”量子设备

上周伊朗军方展示了其海军大学开发的“量子处理算法”的首款产品,它能帮助军方探测水面的扰动。但通过媒体公布的“量子”设备图像的分析显示,该设备可能是一款在亚马逊上出售的 FPGA 开发板 ZedBoard,在图像上甚至可以清晰地看到该品牌名。ZedBoard 开发板主要是用于视频处理、可重构计算、电机控制、软件加速等用途,并不具有“量子比特”。

消息来源:VICE
老王点评:有没有一种可能,他们就是在这样的板卡上安装了几个“量子比特”??

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 —— 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。

消息来源:Venture Beat
老王点评:这让我想起了衔尾蛇,一种自己吞噬自己尾巴的蛇。这样下来人工智能失去对世界的真正认知,我们的未来或许再也分不清现实和人工智能虚构的“现实”。

Meta 开源了音乐和图像模型

Meta 公司开源发布了自己的人工智能音乐生成器 MusicGen。它可以将文字描述(例如 “一首 80 年代的流行歌曲,背景音效是重鼓声和合成器垫音效”)变成大约 12 秒的音频。该公司没有提供用于训练模型的代码,但它提供了预训练的模型,任何拥有合适硬件的人,如 16GB 的 GPU 都可以运行。

Meta 也发布了一个 “类似人类” 的人工智能图像创作模型 I-JEPA,训练代码和模型快照发布在 GitHub 上。Meta 称,该模型利用相关世界的背景知识来填补图像的缺失部分,而不是像其他生成性人工智能模型那样只看附近的像素。它使用了类似人类的推理,可以避免人工智能生成的图像中常见的错误,如多了手指的手。

消息来源:Tech Crunch
消息来源:路透社
老王点评:Meta 在人工智能方面的战略就是走开源的道路,让别人无路可走。

超过 80% 的 Reddit 子区关闭

此前,我们 报道 过,Reddit 为 API 访问设定了远超合理的价格,事实上扼杀了第三方客户端,招致社区的强烈抗议,子区管理员们定于 12 日临时或永久关闭子区以抗议。现在,Reddit 社区开始计划中的大规模抗议。截止发文,Reddit 共有逾 7,266 个子区(版块),目前已有 6,292 个已经关闭了对外访问,从公开变成私有,其中包括订阅数超过四千万的 r/funny,订阅数超三千万的 r/aww、r/gaming、r/Music 等等,订阅人数合计超过 26 亿。Reddit CEO 上周五举办的问答讨论没有解决任何问题,反而更进一步激怒了 Reddit 社区,一些原计划关闭 48 小时的子区也决定无限期关闭。抗议者们还制作了 专门的网站 来统计已经关的子区,非常壮观的列表。

消息来源:Reddark
老王点评:这下好了,都关闭了,Reddit 就省钱了。

Debian 12 “Bookworm” 正式发布

在将近 2 年的开发之后,代号为 “Bookworm” 的 Debian 12 正式发布,它将得到 5 年的支持。Debian 12 使用的桌面环境包括:GNOME 43、KDE Plasma 5.27、LXDE 11 等。该版本的软件包总数达到 64,419,包含 11,089 个新的软件包,移除了 6,296 个过时的软件包,更新了 43,254 个软件包,总占用磁盘空间 365 GB,总代码行数达 13 亿行。

消息来源:Debian
老王点评:无论如何,Debian 仍然是最重要的 Linux 发行版之一,也是诸多发行版的根源。

西方更担心中国获得 AI 主导地位

风险投资家 Marc Andreessen 撰文批评了 “AI 末日论者”,称人工智能 “并不想杀死你,因为它不是活的……人工智能是一台机器 —— 它不会像你的烤面包机那样活过来。”他认为,科技公司之所以倡导建立监管壁垒,形成一个由政府保护的人工智能供应商组成的企业联盟,免受新的创业公司和开源竞争的影响,是这样他们就可以赚更多钱。另外他指出,不以最大力度和速度追求人工智能的实际风险就是中国,中国正在快速发展人工智能。为了阻止中国人工智能影响力的扩散,他认为,“美国和西方国家应该尽可能地靠拢人工智能”。

消息来源:CNBC
老王点评:人工智能这个魔盒打开后,基于博弈论的考虑,是无法关上的。

谷歌 Bard 现在可以自己编写代码来回答问题

谷歌表示 Bard 在逻辑和推理方面越来越好。谷歌说,现在当你问 Bard 一个计算任务,如数学或字符串操作,Bard 不像其它大语言模型一样显示语言模型的输出,而是会写一个程序,并执行该程序,然后向用户显示该程序的输出作为答案。谷歌举例说,对于“请为我逆转 Lollipop 这个单词”的问题,ChatGPT 会通过语言模型给出答案 “pillopoL”,这个答案是错误的。而 Bard 会显示正确的结果,并给出计算的 Python 代码。当然,谷歌警告说,Bard 可能会对你的问题解释错误从而犯错;也有可能编写了错误的程序,就像人类编写程序一样,往往第一遍是带有错误的。

消息来源:谷歌
老王点评:这就太像人类了,居然会自己编程、自己运行。

GitHub Copilot 是一种“巧妙的软件盗版方法”

GitHub Copilot 是根据 OpenAI 的 Codex 模型建立的代码建议工具,由微软的 GitHub 进行商业化。Copilot 因其无视版权和许可证直接输出开发者公开发布的开源代码而被起诉。微软、GitHub 和 OpenAI 试图驳回此案,但只设法甩掉了一些索赔,法官保留了主要的版权和许可问题待审。2022 年 7 月,为了回应公众对 Copilot 的批评,GitHub 推出了一个用户可调整的 Copilot 过滤器,以将代码建议及其周围约 150 个字符的代码与 GitHub 上的公共代码进行检查。如果有匹配或接近匹配,该代码建议将不会显示给你。但 Copilot 优化了 AI 输出的温度设置,以尽可能多地产生许可内容的小变化,使其看起来不是完全复制的,来逃避版权和许可的侵犯。投诉称,“Copilot 是一种巧妙的软件盗版方法”。

消息来源:The Register
老王点评:到底改变多少才不算抄袭呢?或许,我觉得更公平的做法是,在输出代码时提示该代码衍生自哪种许可证的代码,因此受哪种许可证影响,如何使用取决于用户自己。但似乎这样做存在一些技术困难,因为 AI 到底是如何糅合出新的代码,对人类来说还是一个黑盒。

Reddit 封杀第三方客户端之后的社区反应

之前,我们 报道 过, Reddit 大幅调整了其 API 价格,事实上扼杀了第三方客户端。出于对此政策的极度不满,Reddit 社区将于 6 月 12 日举行大规模抗议活动,参与抗议的大部分子区将关闭 48 小时,但还有部分将无限期关闭。ArchiveTeam 团队希望赶在 12 日之前 存档 内容,他们目前已存档了 108 亿个帖子(包括帖子内容、评论和图像),还有 1.5 亿个帖子等待完成,团队表示时间来不及了,希望更多人参与帮助。此外,著名的 Reddit 第三方 iOS 客户端 Apollo 宣布将于 6 月 30 日 关闭 该客户端,并 公开 了其后端源代码以示它是合法使用 API,并遵守了 API 的速率限制。

消息来源:Reddit
消息来源:Reddit
老王点评: Reddit 的日子或许不好过,他们在裁员和缩减招聘。但是我觉得这种学着 Twitter 作死而跟着作死的做法,实在是无语。