标签 百度 下的文章

必应超越百度成为中国最大的桌面搜索引擎

根据 StatCounter 最近发布的数据,在中国市场,必应在 2023 年 4 月获得了 37.4% 的历史最高市场份额,超过了百度(27.01%)10 个百分点。之后的分别是搜狗(16.36%)、其它(7.45%)、360 好搜(6.25%)和谷歌(5.2%)。

消息来源:Gizmo China

老王点评:我觉得这与必应提供了 GPT 的对话式搜索功能有关,不过这个数据我认为有较大的偏差。不过,很高兴看到百度传统的搜索市场份额的丧失。

// 更新:下一期消息中,StatCounter 表示数据有误,正在调查。

Meta 的新人工智能模型能够处理 1000 多种语言的语音

Meta 公司的研究人员通过重新训练该公司在 2020 年开发的人工智能模型,可以识别和产生 1000 多种语言的语音,比目前可用的增加了 10 倍。Meta 通过 GitHub 开源了该模型。世界上大约有 7000 种语言,但现有的语音识别模型只全面覆盖了其中的 100 种。这是因为这类模型往往需要大量的标记训练数据,而这些数据只适用于少数语言。新的模型能够从音频中学习语音模式,而不需要大量的文字记录等标记数据。

消息来源:Technology Review
老王点评:Meta 的开源策略我们就不用多说了,其在语音等多模态方面的努力,将为 AI 插上多种交流方式的翅膀、

CodeWeavers 现在转为员工所有权信托基金控制

CodeWeavers 是一家以在 Linux/macOS/Chrome OS 上运行 Windows 游戏和应用的 CrossOver 软件而闻名的公司,同时也是 Wine 项目的主要贡献者和支持者。在 CodeWeavers 掌舵 27 年后,其创始人 Jeremy White 宣布退休。作为最大股东,他决定将该公司过渡到员工所有权信托。该信托基金将确保 CodeWeavers 继续为社区和员工的利益而运作。

消息来源:Phoronix
老王点评:一家真正爱开源,为开源不遗余力做出贡献的公司,其创始人的格局果然博大。

谷歌给出了废弃 JPEG-XL 的理由:不爱了

昨天我们 报道 过,谷歌准备在 Chrome 110 中废弃 JPEG-XL 的实验性支持。对此,谷歌的一位工程师给出了他们的理由:实验性标志和代码不应该无限期地保留下去;整个生态系统没有足够的兴趣继续实验;新的图像格式并没有带来足够的增量优势;减少维护负担。而事实上,JPEG-XL d 比特流在 2020 年底才被冻结,文件格式在去年才被标准化,编码系统在今年早些时候才被标准化。

消息来源:Phoronix
老王点评:分手就分手,这些都是借口~~

国外网友发现他的猫在“使用”百度

一位国外网友给自己的猫买了一个自动喂食器,但是他发现这个喂食器每隔五分钟就会解析一下 baidu.com 的域名。经过研究,原来这个带有摄像头、WiFi 功能和云端服务的物联网设备,会通过解析 baidu.com 来判断网络联通性。而这是硬编码到其设备代码中的,并且使用了过期的解析库。至于为什么会解析百度而不是谷歌,显然这是一台中国生产的物联网设备。

消息来源:SANS
老王点评:这就是产地证明……

苹果公司增加了漏洞赏金,但不准备针对之前的操作系统

苹果安全博客带来了修订后的漏洞赏金的消息,有些漏洞赏金最高是以前最高赏金的两倍,一个零点击远程攻击链的理论最高赏金可达 200 万美元。但与此同时,苹果已经表示,旧的操作系统版本可能无法获得所有已知安全问题的修复。

消息来源:The Register
老王点评:虽然说是苹果的操作系统是免费升级,但是老设备是不能一直升级下去的,所以,换新设备吧。

百度在 GitHub 上发布量子机器学习工具包

百度日前发布了其量子机器学习平台 Paddle Quantum 的工具包,称该工具包将使开发者能够构建和训练量子神经网络模型。该工具包基于它的深度学习平台 PaddlePaddle 构建,它包括量子化学库和优化工具,以及三个量子应用:量子机器学习、量子化学模拟和量子组合优化。此外,百度还为 PaddlePaddle 推出了 7 个新工具,提供了 27 项增强功能。其中包括 Paddle.js,这是一个深度学习的 JapaScript 库,它将使开发者能够在浏览器内使用 AI 或微信等应用中的智能小程序。

来源:zdnet

硬核老王点评:这一点,厉害了。好好的做点有用的事情多好。

为了阻止学生们规避计算器的考试模式限制,德州仪器取消了对计算器编程的部分支持

德州仪器公司已经取消了一些最受欢迎的计算器运行汇编或 C 语言编写的程序的能力。除了作为教育工具,德州仪器的计算器也是相对简单、便宜的可编程设备。受影响的计算器包括流行的 TI-84 Plus CE、TI-83 Plus CE-T 和 TI-83 Premium CE。可编程功能在设备的最新固件更新中消失,升级后目前还没有办法回滚。这一改变是为了阻止学生们规避计算器的考试模式限制。尽管计算器仍然支持其他编程语言,如 TI-BASIC 和 Python,但据说这些语言的程序运行效率要低得多。

来源:cnBeta.COM

硬核老王点评:对这些计算器的编程和研究,是一种值得鼓励的古典黑客精神,虽然不应该用在考试作弊上。另外就是,现在去买一台这些可编程计算器还来得及吗?:D

谷歌 TAG 报告中重点提到了印度的“黑客雇佣”公司

谷歌威胁分析小组(TAG)是谷歌安全部门内部跟踪国家和高端网络犯罪团伙的部门,今天发布了其首份 TAG 季度报告。“我们看到了来自‘黑客雇佣’公司的新活动,这些公司很多总部设在印度,他们一直在创建 Gmail 账户,欺骗世卫组织,”谷歌 TAG 负责人 Shane Huntley 说,“这些账户主要针对众多国家内的金融服务、咨询和医疗卫生企业的商业领袖。”

来源:zdnet

硬核老王点评:利用人类的共同灾难而做这些非法活动,可见其无下限。要警惕印度的国家黑客和黑客产业。顺便提一句,此处所说的黑客和和上面提及的古典黑客精神不是一回事。

Qt 5.15 LTS 发布

Qt 项目释出了 Qt 5 系列的最后一个功能版本 5.15,未来它的重心将转向下一个大版本 Qt 6,Qt 6 预计将在年底发布。Qt 5.15 是一个长期支持版本,为商业授权用户提供 3 年的支持,完全兼容 Qt 5 系列之前发布的版本,其主要工作是 bug 修正,它被认为是 Qt 5 系列最稳定的版本。Qt 5.15 的一个主要变化是为 Qt 6 打下基础。

来源:solidot

百度输入法 Linux 版本发布

百度发布了其输入法的 Linux 版本,官方称支持 Ubuntu 18.04 - 19.10、Deepin 1510、1511,应该也可以支持更多 Linux 发行版版本,如 Ubuntu 20.04 LTS 和优麒麟。官网:http://srf.baidu.com/site/guanwang_linux/ 。安装说明称,“本输入法输入面板程序与其他输入法如搜狗输入法、讯飞输入法冲突,可能会受其他输入法影响而无法正常启动,若已安装其他输入法并导致百度输入法输入面板无法正常启动,应关闭其他输入法相关进程并重启百度输入法输入面板程序”。

来源:百度

硬核老王点评:不知道会有多少 Linux 用户会信任和使用百度的软件。顺便说一句,这个“guanwang”的 URL 地址真不愧是拼音输入法的网址。

Chrome 83 稳定版发布

谷歌跳过了 Chrome 82,直接向最终用户推送了 Chrome 83。主要更新内容:有助于防止跨站点脚本漏洞的可信类型;新的表单元素外观;新的跨域政策;支持条形码检测 API,提供了检测和解码条形码的功能;Preferreds-Color-Scheme 媒体查询使作者能够选择自己的深色主题。

来源:开源中国

硬核老王点评:直接跳过了一个大版本,带来的变化非常多。

EA 将在 GPL 下公开《红警》和《泰伯利亚黎明》的源代码

EA 游戏制作人 Jim Vessella 在 Reddit 上宣布,将在 GPLv3 许可证下公开泰伯利亚黎明和红警的源代码。Vessella 称《命令与征服》应该是第一个在 GPL 下公开源代码的大型即时战略游戏。采用 GPL 是为了确保它与开源项目如 CnCNet 和 Open RA 相互兼容。

来源:solidot

硬核老王点评:作为当年的顶级游戏,能够开源还是非常赞的,希望开源社区可以在此基础上发展出更多的衍生品。

OpenBSD 6.7 发布

主要更新内容:改进 FFS2 文件系统并成为默认文件系统,包括在新安装时默认使用 64 位时间戳和区块号;为 ARM64 设备提供对树莓派 4 的支持,同时改进对树莓派 3 的支持。对于 OpenBSD ARMv7,还改进了对树莓派 2/3 的支持;针对 SMP 的多项改进,包括更好的 AMD SMT/Core/Package 检测;引入 FIDO 驱动,支持 FIDO/U2F 安全密钥;PowerPC OpenBSD 构建切换到 Clang 作为其默认代码编译器。

来源:开源中国

硬核老王点评:OpenBSD 是 BSD 家族的重要成员,在广大的 BSD 爱好者眼中,BSD 才是最好的发行版。

DirectX 将进入 WSL 2

在 //build 2020 上,微软宣布 GPU 硬件加速将加入到 WSL 2 中。WSL 是一个允许用户在 Windows PC 上运行 Linux 应用的环境。现在,这些 Linux 应用和工具将能使用 GPU 加速。微软称,对 GPU 的访问,Linux 环境中的应用将和 Windows 原生应用一样,它不会对 Linux 应用进行限制,将根据需要对 GPU 提供动态的分享。微软表示它将完整的 D3D12 API 带到了 Linux。除了 D3D12 和 DxCore 外,它还将其机器学习 API DirectML 移植到了 Linux。

来源:solidot

硬核老王点评:自打微软将开源当成了新欢,现在微软开个开发者大会,都满满是值得大书一笔的开源新动向。DirectX 进入 WSL ,想必可以为 Linux 下的 GPU 应用提供很好的支持。

Signal 不再将电话号码作为用户的唯一 ID

主打安全的即时通信应用 Signal,本周推出了一项名叫“Signal PINs”的新功能。该公司称,此举有助于用户在设备间迁移账户数据。此外从长远来看,新功能也算是向着摆脱使用电话号码作为用户 ID 的目标迈出了重要一步。启用之后,用户将被要求创建一个与之账户相关联的 PIN 码,且可使用 4 位数及以上的字符串。当用户不慎遗失了设备、或想将资料转移到新手机时,Signal PIN 便允许其轻松实现数据迁移。

来源:cnBeta.COM

广告商因疫情放弃百度

与搜索和视频相比,信息流广告是“短期而言广告商的首选渠道,而这正是百度未能吸引广告商的地方”。广告商们纷纷放弃这家中国搜索巨头,转而使用更灵活的竞争对手的应用。百度表示,第一季度营收同比下降 7%,至 225 亿元人民币,原因是旅游、汽车和医疗行业广告客户在公共卫生危机期间削减支出。其核心的搜索和新闻推送业务的营收下滑速度更快,同比下降 13%。净利润较上一季度暴跌 99%,至 4100 万元人民币。

来源:solidot

硬核老王点评:没什么好说的。

Big News

根据 BuzzFeed 报道, Google 开始清除 Play Store 中由 DO Global 公司开发的应用程序。此前一项调查显示,DO Global 曾对用户进行广告欺诈,并向用户隐瞒了应用程序的所有权细节。

Do Global 是一家由百度持股(约 34%)的公司,它是目前在谷歌 Play 商店上线应用程序的最大开发者之一。目前 Do Global 公司官网已经关闭所有功能,仅显示一个 Statement 声明。【BuzzFeed】

总是想着在框架内做一些超出规范的事情,来赚取利润,这似乎成为了百度、百度系的标志了。

Quick News

MIT 许可证的神秘历史

红帽工程师 Gordon Haff 在 OpenSource 上发布了一篇文章,说明了为什么 MIT 协议没有办法很容易的说明何时创建的。【OpenSource】

Google 的新项目 Project Euphonia,可能会让手机替人说话。

今年的 Google I/O 大会上,Google 将会推出一个新的帮助残障人士的服务 Project Euphonia,这个项目将用于为语言障碍者提供声音的支持。【9to5Google】

开源面临的 Working For Free 的问题

自由软件工程师,前红帽工程师,现 Tidelift 联合创始人 Havoc Pennington 说,我们需要放弃开源只是慈善事业的观念,并给出了一些如何让开源项目更好的建议。 
【Tidelift】

尽管我们对百度今年工作焦点的关注集中在这个中国搜索巨头在深度学习方面的举措上,许多其他的关键的,尽管不那么前沿的应用表现出了大数据带来的挑战。

正如百度的欧阳剑在本周 Hot Chips 大会上谈论的,百度坐拥超过 1 EB 的数据,每天处理大约 100 PB 的数据,每天更新 100 亿的网页,每 24 小时更新处理超过 1 PB 的日志更新,这些数字和 Google 不分上下,正如人们所想象的。百度采用了类似 Google 的方法去大规模地解决潜在的瓶颈。

正如刚刚我们谈到的,Google 寻找一切可能的方法去打败摩尔定律,百度也在进行相同的探索,而令人激动的、使人着迷的机器学习工作是迷人的,业务的核心关键任务的加速同样也是,因为必须如此。欧阳提到,公司基于自身的数据提供高端服务的需求和 CPU 可以承载的能力之间的差距将会逐渐增大。

对于百度的百亿亿级问题,在所有数据的接受端是一系列用于数据分析的框架和平台,从该公司的海量知识图谱,多媒体工具,自然语言处理框架,推荐引擎,和点击流分析都是这样。简而言之,大数据的首要问题就是这样的:一系列各种应用和与之匹配的具有压倒性规模的数据。

当谈到加速百度的大数据分析,所面临的几个挑战,欧阳谈到抽象化运算核心去寻找一个普适的方法是困难的。“大数据应用的多样性和变化的计算类型使得这成为一个挑战,把所有这些整合成为一个分布式系统是困难的,因为有多变的平台和编程模型(MapReduce,Spark,streaming,user defined,等等)。将来还会有更多的数据类型和存储格式。”

尽管存在这些障碍,欧阳讲到他们团队找到了(它们之间的)共同线索。如他所指出的那样,那些把他们的许多数据密集型的任务相连系在一起的就是传统的 SQL。“我们的数据分析任务大约有 40% 是用 SQL 写的,而其他的用 SQL 重写也是可用做到的。” 更进一步,他讲道他们可以享受到现有的 SQL 系统的好处,并可以和已有的框架相匹配,比如 Hive,Spark SQL,和 Impala 。下一步要做的事情就是 SQL 查询加速,百度发现 FPGA 是最好的硬件。

这些主板,被称为处理单元( 下图中的 PE ),当执行 SQL 时会自动地处理关键的 SQL 功能。这里所说的都是来自演讲,我们不承担责任。确切的说,这里提到的 FPGA 有点神秘,或许是故意如此。如果百度在基准测试中得到了如下图中的提升,那这可是一个有竞争力的信息。后面我们还会继续介绍这里所描述的东西。简单来说,FPGA 运行在数据库中,当其收到 SQL 查询的时候,该团队设计的软件就会与之紧密结合起来。

欧阳提到了一件事,他们的加速器受限于 FPGA 的带宽,不然性能表现本可以更高,在下面的评价中,百度安装了 2 块12 核心,主频 2.0 GHz 的 intl E26230 CPU,运行在 128G 内存。SDA 具有 5 个处理单元,(上图中的 300MHz FPGA 主板)每个分别处理不同的核心功能( 筛选 filter 排序 sort 聚合 aggregate 联合 join 分组 group by

为了实现 SQL 查询加速,百度针对 TPC-DS 的基准测试进行了研究,并且创建了称做处理单元(PE)的特殊引擎,用于在基准测试中加速 5 个关键功能,这包括 筛选 filter 排序 sort 聚合 aggregate 联合 join 分组 group by ,(我们并没有把这些单词都像 SQL 那样大写)。SDA 设备使用卸载模型,具有多个不同种类的处理单元的加速卡在 FPGA 中组成逻辑,SQL 功能的类型和每张卡的数量由特定的工作量决定。由于这些查询在百度的系统中执行,用来查询的数据被以列格式推送到加速卡中(这会使得查询非常快速),而且通过一个统一的 SDA API 和驱动程序,SQL 查询工作被分发到正确的处理单元而且 SQL 操作实现了加速。

SDA 架构采用一种数据流模型,加速单元不支持的操作被退回到数据库系统然后在那里本地运行,比其他任何因素,百度开发的 SQL 加速卡的性能被 FPGA 卡的内存带宽所限制。加速卡跨整个集群机器工作,顺便提一下,但是数据和 SQL 操作如何分发到多个机器的准确原理没有被百度披露。

我们受限与百度所愿意披露的细节,但是这些基准测试结果是十分令人鼓舞的,尤其是 Terasort 方面,我们将在 Hot Chips 大会之后跟随百度的脚步去看看我们是否能得到关于这是如何连接到一起的和如何解决内存带宽瓶颈的细节。


via: http://www.nextplatform.com/2016/08/24/baidu-takes-fpga-approach-accelerating-big-sql/

作者:Nicole Hemsoth 译者:LinuxBars 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出