分类技术下的文章

为什么要在 Docker 中使用 R？一位 DevOps 的看法

Jeroen Ooms 发布于 2017-11-04
另请参阅: 技术,Docker, OpenCPU
评论

R 语言，一种自由软件编程语言与操作环境，主要用于统计分析、绘图、数据挖掘。R 内置多种统计学及数字分析功能。R 的另一强项是绘图功能，制图具有印刷的素质，也可加入数学符号。——引自维基百科。

已经有几篇关于为什么要在 Docker 中使用 R 的文章。在这篇文章中，我将尝试加入一个 DevOps 的观点，并解释在 OpenCPU 系统的环境中如何使用容器化 R 来构建和部署 R 服务器。

有在 #rstats 世界的人真正地写过为什么他们使用 Docker，而不是如何么？
— Jenny Bryan (@JennyBryan) September 29, 2017

1：轻松开发

OpenCPU 系统的旗舰是 OpenCPU 服务器：它是一个成熟且强大的 Linux 栈，用于在系统和应用程序中嵌入 R。因为 OpenCPU 是完全开源的，我们可以在 DockerHub 上构建和发布。可以使用以下命令启动一个可以立即使用的 OpenCPU 和 RStudio 的 Linux 服务器（使用端口 8004 或 80）：

docker run -t -p 8004:8004 opencpu/rstudio

现在只需在你的浏览器打开 http://localhost:8004/ocpu/ 和 http://localhost:8004/rstudio/ 即可！在 rstudio 中用用户 opencpu（密码：opencpu）登录来构建或安装应用程序。有关详细信息，请参阅自述文件。

Docker 让开始使用 OpenCPU 变得简单。容器给你一个充分灵活的 Linux 机器，而无需在系统上安装任何东西。你可以通过 rstudio 服务器安装软件包或应用程序，也可以使用 docker exec 进入到正在运行的服务器的 root shell 中：

# Lookup the container ID
docker ps

# Drop a shell
docker exec -i -t eec1cdae3228 /bin/bash

你可以在服务器的 shell 中安装其他软件，自定义 apache2 的 httpd 配置（auth，代理等），调整 R 选项，通过预加载数据或包等来优化性能。

2：通过 DockerHub 发布和部署

最强大的是，Docker 可以通过 DockerHub 发布和部署。要创建一个完全独立的应用程序容器，只需使用标准的 opencpu 镜像并添加你的程序。

出于本文的目的，我通过在每个仓库中添加一个非常简单的 “Dockerfile”，将一些示例程序打包为 docker 容器。例如：nabel 的 Dockerfile 包含以下内容：

FROM opencpu/base

RUN R -e 'devtools::install_github("rwebapps/nabel")'

它采用标准的 opencpu/base 镜像，并从 Github 仓库安装 nabel。最终得到一个完全隔离、独立的程序。任何人可以使用下面这样的命令启动程序：

docker run -d 8004:8004 rwebapps/nabel

-d 代表守护进程监听 8004 端口。很显然，你可以调整 Dockerfile 来安装任何其它的软件或设置你需要的程序。

容器化部署展示了 Docker 的真正能力：它可以发布可以开箱即用的独立软件，而无需安装任何软件或依赖付费托管的服务。如果你更喜欢专业的托管，那会有许多公司乐意在可扩展的基础设施上为你托管 docker 程序。

3：跨平台构建

还有 Docker 用于 OpenCPU 的第三种方式。每次发布，我们都构建 6 个操作系统的 opencpu-server 安装包，它们在 https://archive.opencpu.org 上公布。这个过程已经使用 DockerHub 完全自动化了。以下镜像从源代码自动构建所有栈：

当 GitHub 上发布新版本时，DockerHub 会自动重建此镜像。要做的就是运行一个脚本，它会取回镜像并将 opencpu-server 二进制复制到归档服务器上。

via: https://www.r-bloggers.com/why-use-docker-with-r-a-devops-perspective/

作者：Jeroen Ooms 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

在 Linux 图形栈上运行 Android

Swapnil Bhartiya 发布于 2017-11-04
另请参阅: 技术,Android, 图形
评论

title=

你现在可以在常规的 Linux 图形栈之上运行 Android。以前并不能这样，根据 Collabora 的 Linux 图形栈贡献者和软件工程师 Robert Foss 的说法，这是非常强大的功能。在即将举行的欧洲 Linux 嵌入式会议的讲话中，Foss 将会介绍这一领域的最新进展，并讨论这些变化如何让你可以利用内核中的新功能和改进。

在本文中，Foss 解释了更多内容，并提供了他的演讲的预览。

Linux.com：你能告诉我们一些你谈论的图形栈吗？

Foss： 传统的 Linux 图形系统（如 X11）大都没有使用平面图形 plane 。但像 Android 和 Wayland 这样的现代图形系统可以充分利用它。

Android 在 HWComposer 中最成功实现了平面支持，其图形栈与通常的 Linux 桌面图形栈有所不同。在桌面上，典型的合成器只是使用 GPU 进行所有的合成，因为这是桌面上唯一有的东西。

大多数嵌入式和移动芯片都有为 Android 设计的专门的 2D 合成硬件。这是通过将显示的内容分成不同的图层，然后智能地将图层送到经过优化处理图层的硬件。这就可以释放 GPU 来处理你真正关心的事情，同时它让硬件更有效率地做最好一件事。

Linux.com：当你说到 Android 时，你的意思是 Android 开源项目（AOSP）么？

Foss： Android 开源项目（AOSP）是许多 Android 产品建立的基础，AOSP 和 Android 之间没有什么区别。

具体来说，我的工作已经在 AOSP 上完成，但没有什么可以阻止将此项工作加入到已经发货的 Android 产品中。

区别更多在于授权和满足 Google 对 Android 产品的要求，而不是代码。

Linux.com：谁想要运行它，为什么？有什么好处？

Foss： AOSP 为你提供了大量免费的东西，例如针对可用性、低功耗和多样化硬件进行优化的软件栈。它比任何一家公司自行开发的更精致、更灵活, 而不需要投入大量资源。

作为制造商，它还为你提供了一个能够立即为你的平台开发的大量开发人员。

Linux.com：有什么实际使用情况？

** Foss：** 新的部分是在常规 Linux 图形栈上运行 Android 的能力。可以在主线/上游内核和驱动来做到这一点，让你可以利用内核中的新功能和改进，而不仅仅依赖于来自于你的供应商的大量分支的 BSP。

对于任何有合理标准的 Linux 支持的 GPU，你现在可以在上面运行 Android。以前并不能这样。而且这样做是非常强大的。

同样重要的是，它鼓励 GPU 设计者与上游的驱动一起工作。现在他们有一个简单的方法来提供适用于 Android 和 Linux 的驱动程序，而无需额外的努力。他们的成本将会降低，维护上游 GPU 驱动变得更有吸引力。

例如，我们希望看到主线内核支持高通 SOC，我们希望成为实现这一目标的一部分。

总而言之，这将有助于硬件生态系统获得更好的软件支持，软件生态系统有更多的硬件配合。

它改善了 SBC/开发板制造商的经济性：它们可以提供一个经过良好测试的栈，既可以在两者之间工作，而不必提供 “Linux 栈” 和 Android 栈。
它简化了驱动程序开发人员的工作，因为只有一个优化和支持目标。
它支持 Android 社区，因为在主线内核上运行的 Android 可以让他们分享上游的改进。
这有助于上游，因为我们获得了一个产品级质量的栈，这些栈已经在硬件设计师的帮助下进行了测试和开发。

以前，Mesa 被视为二等栈，但现在它是最新的（完全符合 Vulkan 1.0、OpenGL 4.6、OpenGL ES 3.2）另外还有性能和产品质量。

这意味着驱动开发人员可以参与 Mesa，相信他们正在分享他人的辛勤工作，并且还有一个很好的基础。

via: https://www.linux.com/blog/event/elce/2017/10/running-android-top-linux-graphics-stack

作者：SWAPNIL BHARTIYA 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

如何在 Apache Kafka 中通过 KSQL 分析 Twitter 数据

Robin Moffatt 发布于 2017-11-04
另请参阅: 技术,大数据, Twitter, Kafka
评论

介绍

KSQL 是 Apache Kafka 中的开源的流式 SQL 引擎。它可以让你在 Kafka 主题 topic 上，使用一个简单的并且是交互式的 SQL 接口，很容易地做一些复杂的流处理。在这个短文中，我们将看到如何轻松地配置并运行在一个沙箱中去探索它，并使用大家都喜欢的演示数据库源： Twitter。我们将从推文的原始流中获取，通过使用 KSQL 中的条件去过滤它，来构建一个聚合，如统计每个用户每小时的推文数量。

Confluent

首先，获取一个 Confluent 平台的副本。我使用的是 RPM 包，但是，如果你需要的话，你也可以使用 tar、 zip 等等。启动 Confluent 系统：

$ confluent start

（如果你感兴趣，这里有一个 Confluent 命令行的快速教程）

我们将使用 Kafka Connect 从 Twitter 上拉取数据。这个 Twitter 连接器可以在 GitHub 上找到。要安装它，像下面这样操作：

# Clone the git repo
cd /home/rmoff
git clone https://github.com/jcustenborder/kafka-connect-twitter.git

# Compile the code
cd kafka-connect-twitter
mvn clean package

要让 Kafka Connect 去使用我们构建的连接器，你要去修改配置文件。因为我们使用 Confluent 命令行，真实的配置文件是在 etc/schema-registry/connect-avro-distributed.properties，因此去修改它并增加如下内容：

plugin.path=/home/rmoff/kafka-connect-twitter/target/kafka-connect-twitter-0.2-SNAPSHOT.tar.gz

重启动 Kafka Connect：

confluent stop connect
confluent start connect

一旦你安装好插件，你可以很容易地去配置它。你可以直接使用 Kafka Connect 的 REST API ，或者创建你的配置文件，这就是我要在这里做的。如果你需要全部的方法，请首先访问 Twitter 来获取你的 API 密钥。

{
 "name": "twitter_source_json_01",
 "config": {
   "connector.class": "com.github.jcustenborder.kafka.connect.twitter.TwitterSourceConnector",
   "twitter.oauth.accessToken": "xxxx",
   "twitter.oauth.consumerSecret": "xxxxx",
   "twitter.oauth.consumerKey": "xxxx",
   "twitter.oauth.accessTokenSecret": "xxxxx",
   "kafka.delete.topic": "twitter_deletes_json_01",
   "value.converter": "org.apache.kafka.connect.json.JsonConverter",
   "key.converter": "org.apache.kafka.connect.json.JsonConverter",
   "value.converter.schemas.enable": false,
   "key.converter.schemas.enable": false,
   "kafka.status.topic": "twitter_json_01",
   "process.deletes": true,
   "filter.keywords": "rickastley,kafka,ksql,rmoff"
 }
}

假设你写这些到 /home/rmoff/twitter-source.json，你可以现在运行：

$ confluent load twitter_source -d /home/rmoff/twitter-source.json

然后推文就从大家都喜欢的网络明星 [rick] 滚滚而来……

$ kafka-console-consumer --bootstrap-server localhost:9092 --from-beginning --topic twitter_json_01|jq '.Text'
{
  "string": "RT @rickastley: 30 years ago today I said I was Never Gonna Give You Up. I am a man of my word - Rick x https://t.co/VmbMQA6tQB"
}
{
  "string": "RT @mariteg10: @rickastley @Carfestevent Wonderful Rick!!\nDo not forget Chile!!\nWe hope you get back someday!!\nHappy weekend for you!!\n❤…"
}

KSQL

现在我们从 KSQL 开始 ! 马上去下载并构建它：

cd /home/rmoff
git clone https://github.com/confluentinc/ksql.git
cd /home/rmoff/ksql
mvn clean compile install -DskipTests

构建完成后，让我们来运行它：

./bin/ksql-cli local --bootstrap-server localhost:9092

                       ======================================
                       =      _  __ _____  ____  _          =
                       =     | |/ // ____|/ __ \| |         =
                       =     | ' /| (___ | |  | | |         =
                       =     |  <  \___ \| |  | | |         =
                       =     | . \ ____) | |__| | |____     =
                       =     |_|\_\_____/ \___\_\______|    =
                       =                                    =
                       =   Streaming SQL Engine for Kafka   =
Copyright 2017 Confluent Inc.

CLI v0.1, Server v0.1 located at http://localhost:9098

Having trouble? Type 'help' (case-insensitive) for a rundown of how things work!

ksql>

使用 KSQL，我们可以让我们的数据保留在 Kafka 主题上并可以查询它。首先，我们需要去告诉 KSQL 主题上的数据模式 schema 是什么，一个 twitter 消息实际上是一个非常巨大的 JSON 对象，但是，为了简洁，我们只选出其中几行：

ksql> CREATE STREAM twitter_raw (CreatedAt BIGINT, Id BIGINT, Text VARCHAR) WITH (KAFKA_TOPIC='twitter_json_01', VALUE_FORMAT='JSON');

Message  
----------------
Stream created

在定义的模式中，我们可以查询这些流。要让 KSQL 从该主题的开始展示数据（而不是默认的当前时间点），运行如下命令：

ksql> SET 'auto.offset.reset' = 'earliest';  
Successfully changed local property 'auto.offset.reset' from 'null' to 'earliest'

现在，让我们看看这些数据，我们将使用 LIMIT 从句仅检索一行：

ksql> SELECT text FROM twitter_raw LIMIT 1;  
RT @rickastley: 30 years ago today I said I was Never Gonna Give You Up. I am a man of my word - Rick x https://t.co/VmbMQA6tQB
LIMIT reached for the partition.  
Query terminated
ksql>

现在，让我们使用刚刚定义和可用的推文内容的全部数据重新定义该流：

ksql> DROP stream twitter_raw;
Message
--------------------------------
Source TWITTER_RAW was dropped

ksql> CREATE STREAM twitter_raw (CreatedAt bigint,Id bigint, Text VARCHAR, SOURCE VARCHAR, Truncated VARCHAR, InReplyToStatusId VARCHAR, InReplyToUserId VARCHAR, InReplyToScreenName VARCHAR, GeoLocation VARCHAR, Place VARCHAR, Favorited VARCHAR, Retweeted VARCHAR, FavoriteCount VARCHAR, User VARCHAR, Retweet VARCHAR, Contributors VARCHAR, RetweetCount VARCHAR, RetweetedByMe VARCHAR, CurrentUserRetweetId VARCHAR, PossiblySensitive VARCHAR, Lang VARCHAR, WithheldInCountries VARCHAR, HashtagEntities VARCHAR, UserMentionEntities VARCHAR, MediaEntities VARCHAR, SymbolEntities VARCHAR, URLEntities VARCHAR) WITH (KAFKA_TOPIC='twitter_json_01',VALUE_FORMAT='JSON');
Message
----------------
Stream created

ksql>

现在，我们可以操作和检查更多的最近的数据，使用一般的 SQL 查询：

ksql> SELECT TIMESTAMPTOSTRING(CreatedAt, 'yyyy-MM-dd HH:mm:ss.SSS') AS CreatedAt,\
EXTRACTJSONFIELD(user,'$.ScreenName') as ScreenName,Text \
FROM twitter_raw \
WHERE LCASE(hashtagentities) LIKE '%oow%' OR \
LCASE(hashtagentities) LIKE '%ksql%';  

2017-09-29 13:59:58.000 | rmoff | Looking forward to talking all about @apachekafka & @confluentinc’s #KSQL at #OOW17 on Sunday 13:45 https://t.co/XbM4eIuzeG

注意这里没有 LIMIT 从句，因此，你将在屏幕上看到 “continuous query” 的结果。不像关系型数据表中返回一个确定数量结果的查询，一个持续查询会运行在无限的流式数据上，因此，它总是可能返回更多的记录。点击 Ctrl-C 去中断然后返回到 KSQL 提示符。在以上的查询中我们做了一些事情：

TIMESTAMPTOSTRING 将时间戳从 epoch 格式转换到人类可读格式。（LCTT 译注： epoch 指的是一个特定的时间 1970-01-01 00:00:00 UTC）
EXTRACTJSONFIELD 来展示数据源中嵌套的用户域中的一个字段，它看起来像：

{
"CreatedAt": 1506570308000,
"Text": "RT @gwenshap: This is the best thing since partitioned bread :) https://t.co/1wbv3KwRM6",
[...]
"User": {
    "Id": 82564066,
    "Name": "Robin Moffatt \uD83C\uDF7B\uD83C\uDFC3\uD83E\uDD53",
    "ScreenName": "rmoff",
    [...]

应用断言去展示内容，对 #（hashtag）使用模式匹配，使用 LCASE 去强制小写字母。（LCTT 译注：hashtag 是twitter 中用来标注线索主题的标签）

关于支持的函数列表，请查看 KSQL 文档。

我们可以创建一个从这个数据中得到的流：

ksql> CREATE STREAM twitter AS \
SELECT TIMESTAMPTOSTRING(CreatedAt, 'yyyy-MM-dd HH:mm:ss.SSS') AS CreatedAt,\
EXTRACTJSONFIELD(user,'$.Name') AS user_Name,\
EXTRACTJSONFIELD(user,'$.ScreenName') AS user_ScreenName,\
EXTRACTJSONFIELD(user,'$.Location') AS user_Location,\
EXTRACTJSONFIELD(user,'$.Description') AS  user_Description,\
Text,hashtagentities,lang \
FROM twitter_raw ;

Message  
----------------------------  
Stream created and running  

ksql> DESCRIBE twitter;
Field            | Type  
------------------------------------  
ROWTIME          | BIGINT  
ROWKEY           | VARCHAR(STRING)  
CREATEDAT        | VARCHAR(STRING)  
USER_NAME        | VARCHAR(STRING)  
USER_SCREENNAME  | VARCHAR(STRING)  
USER_LOCATION    | VARCHAR(STRING)  
USER_DESCRIPTION | VARCHAR(STRING)  
TEXT             | VARCHAR(STRING)  
HASHTAGENTITIES  | VARCHAR(STRING)  
LANG             | VARCHAR(STRING)  
ksql>

并且查询这个得到的流：

ksql> SELECT CREATEDAT, USER_NAME, TEXT \
FROM TWITTER \
WHERE TEXT LIKE '%KSQL%';  

2017-10-03 23:39:37.000 | Nicola Ferraro | RT @flashdba: Again, I'm really taken with the possibilities opened up by @confluentinc's KSQL engine #Kafka https://t.co/aljnScgvvs

聚合

在我们结束之前，让我们去看一下怎么去做一些聚合。

ksql> SELECT user_screenname, COUNT(*) \
FROM twitter WINDOW TUMBLING (SIZE 1 HOUR) \
GROUP BY user_screenname HAVING COUNT(*) > 1;  

oracleace | 2  
rojulman | 2
smokeinpublic | 2  
ArtFlowMe | 2  
[...]

你将可能得到满屏幕的结果；这是因为 KSQL 在每次给定的时间窗口更新时实际发出聚合值。因为我们设置 KSQL 去读取在主题上的全部消息（SET 'auto.offset.reset' = 'earliest';），它是一次性读取这些所有的消息并计算聚合更新。这里有一个微妙之处值得去深入研究。我们的入站推文流正好就是一个流。但是，现有它不能创建聚合，我们实际上是创建了一个表。一个表是在给定时间点的给定键的值的一个快照。 KSQL 聚合数据基于消息的事件时间，并且如果它更新了，通过简单的相关窗口重申去操作后面到达的数据。困惑了吗？我希望没有，但是，让我们看一下，如果我们可以用这个例子去说明。我们将申明我们的聚合作为一个真实的表：

ksql> CREATE TABLE user_tweet_count AS \
SELECT user_screenname, count(*) AS  tweet_count \
FROM twitter WINDOW TUMBLING (SIZE 1 HOUR) \
GROUP BY user_screenname ;

Message  
---------------------------  
Table created and running

看表中的列，这里除了我们要求的外，还有两个隐含列：

ksql> DESCRIBE user_tweet_count;

Field           | Type  
-----------------------------------  
ROWTIME         | BIGINT  
ROWKEY          | VARCHAR(STRING)  
USER_SCREENNAME | VARCHAR(STRING)  
TWEET_COUNT     | BIGINT  
ksql>

我们看一下这些是什么：

ksql> SELECT TIMESTAMPTOSTRING(ROWTIME, 'yyyy-MM-dd HH:mm:ss.SSS') , \
ROWKEY, USER_SCREENNAME, TWEET_COUNT \
FROM user_tweet_count \
WHERE USER_SCREENNAME= 'rmoff';  

2017-09-29 11:00:00.000 | rmoff : Window{start=1506708000000 end=-} | rmoff | 2  
2017-09-29 12:00:00.000 | rmoff : Window{start=1506711600000 end=-} | rmoff | 4  
2017-09-28 22:00:00.000 | rmoff : Window{start=1506661200000 end=-} | rmoff | 2  
2017-09-29 09:00:00.000 | rmoff : Window{start=1506700800000 end=-} | rmoff | 4  
2017-09-29 15:00:00.000 | rmoff : Window{start=1506722400000 end=-} | rmoff | 2  
2017-09-29 13:00:00.000 | rmoff : Window{start=1506715200000 end=-} | rmoff | 6

ROWTIME 是窗口开始时间， ROWKEY 是 GROUP BY（USER_SCREENNAME）加上窗口的组合。因此，我们可以通过创建另外一个衍生的表来整理一下：

ksql> CREATE TABLE USER_TWEET_COUNT_DISPLAY AS \
SELECT TIMESTAMPTOSTRING(ROWTIME, 'yyyy-MM-dd HH:mm:ss.SSS') AS WINDOW_START ,\
USER_SCREENNAME, TWEET_COUNT \
FROM user_tweet_count;

Message  
---------------------------  
Table created and running

现在它更易于查询和查看我们感兴趣的数据：

ksql> SELECT WINDOW_START ,  USER_SCREENNAME, TWEET_COUNT \
FROM USER_TWEET_COUNT_DISPLAY WHERE TWEET_COUNT> 20;  

2017-09-29 12:00:00.000 | VikasAatOracle | 22  
2017-09-28 14:00:00.000 | Throne_ie | 50  
2017-09-28 14:00:00.000 | pikipiki_net | 22  
2017-09-29 09:00:00.000 | johanlouwers | 22  
2017-09-28 09:00:00.000 | yvrk1973 | 24  
2017-09-28 13:00:00.000 | cmosoares | 22  
2017-09-29 11:00:00.000 | ypoirier | 24  
2017-09-28 14:00:00.000 | pikisec | 22  
2017-09-29 07:00:00.000 | Throne_ie | 22  
2017-09-29 09:00:00.000 | ChrisVoyance | 24  
2017-09-28 11:00:00.000 | ChrisVoyance | 28

结论

所以我们有了它！我们可以从 Kafka 中取得数据，并且很容易使用 KSQL 去探索它。而不仅是去浏览和转换数据，我们可以很容易地使用 KSQL 从流和表中建立流处理。

如果你对 KSQL 能够做什么感兴趣，去查看：

记住，KSQL 现在正处于开发者预览阶段。欢迎在 KSQL 的 GitHub 仓库上提出任何问题，或者去我们的 community Slack group 的 #KSQL 频道。

via: https://www.confluent.io/blog/using-ksql-to-analyse-query-and-transform-data-in-kafka

作者：Robin Moffatt 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

三种 Python 网络内容抓取工具与爬虫

Jason Baker 发布于 2017-11-04
另请参阅: 软件开发,python, 爬虫
评论

运用这些很棒的 Python 爬虫工具来获取你需要的数据。

title=

在一个理想的世界里，你需要的所有数据都将以公开而文档完备的格式清晰地展现，你可以轻松地下载并在任何你需要的地方使用。

然而，在真实世界里，数据是凌乱的，极少被打包成你需要的样子，要么经常是过期的。

你所需要的信息经常是潜藏在一个网站里。相比一些清晰地、有调理地呈现数据的网站，更多的网站则不是这样的。爬取数据 crawling 、挖掘数据 scraping 、加工数据、整理数据这些是获取整个网站结构来绘制网站拓扑来收集数据所必须的活动，这些可以是以网站的格式储存的或者是储存在一个专有数据库中。

也许在不久的将来，你需要通过爬取和挖掘来获得一些你需要的数据，当然你几乎肯定需要进行一点点的编程来正确的获取。你要怎么做取决于你自己，但是我发现 Python 社区是一个很好的提供者，它提供了工具、框架以及文档来帮助你从网站上获取数据。

在我们进行之前，这里有一个小小的请求：在你做事情之前请思考，以及请耐心。抓取这件事情并不简单。不要把网站爬下来只是复制一遍，并其它人的工作当成是你自己的东西（当然，没有许可）。要注意版权和许可，以及你所爬行的内容应用哪一个标准。尊重 robots.txt 文件。不要频繁的针对一个网站，这将导致真实的访问者会遇到访问困难的问题。

在知晓这些警告之后，这里有一些很棒的 Python 网站爬虫工具，你可以用来获得你需要的数据。

Pyspider

让我们先从 pyspider 开始介绍。这是一个带有 web 界面的网络爬虫，让与使之容易跟踪多个爬虫。其具有扩展性，支持多个后端数据库和消息队列。它还具有一些方便的特性，从优先级到再次访问抓取失败的页面，此外还有通过时间顺序来爬取和其他的一些特性。Pyspider 同时支持 Python 2 和 Python 3。为了实现一个更快的爬取，你可以在分布式的环境下一次使用多个爬虫进行爬取。

Pyspyder 的基本用法都有良好的文档说明，包括简单的代码片段。你能通过查看一个在线的样例来体验用户界面。它在 Apache 2 许可证下开源，Pyspyder 仍然在 GitHub 上积极地开发。

MechanicalSoup

MechanicalSoup 是一个基于极其流行而异常多能的 HTML 解析库 Beautiful Soup 建立的爬虫库。如果你的爬虫需要相当的简单，但是又要求检查一些选择框或者输入一些文字，而你又不想为这个任务单独写一个爬虫，那么这会是一个值得考虑的选择。

MechanicalSoup 在 MIT 许可证下开源。查看 GitHub 上该项目的 example.py 样例文件来获得更多的用法。不幸的是，到目前为止，这个项目还没有一个很好的文档。

Scrapy

Scrapy 是一个有着活跃社区支持的抓取框架，在那里你可以建造自己的抓取工具。除了爬取和解析工具，它还能将它收集的数据以 JSON 或者 CSV 之类的格式轻松输出，并存储在一个你选择的后端数据库。它还有许多内置的任务扩展，例如 cookie 处理、代理欺骗、限制爬取深度等等，同时还可以建立你自己附加的 API。

要了解 Scrapy，你可以查看网上的文档或者是访问它诸多的社区资源，包括一个 IRC 频道、Reddit 子版块以及关注他们的 StackOverflow 标签。Scrapy 的代码在 3 句版 BSD 许可证下开源，你可以在 GitHub 上找到它们。

如果你完全不熟悉编程，Portia 提供了一个易用的可视化的界面。scrapinghub.com 则提供一个托管的版本。

其它

Cola 自称它是个“高级的分布式爬取框架”，如果你在寻找一个 Python 2 的方案，这也许会符合你的需要，但是注意它已经有超过两年没有更新了。
Demiurge 是另一个可以考虑的潜在候选者，它同时支持 Python 2和 Python 3，虽然这个项目的发展较为缓慢。
如果你要解析一些 RSS 和 Atom 数据，Feedparser 或许是一个有用的项目。
Lassie 让从网站检索像说明、标题、关键词或者是图片一类的基本内容变得简单。
RoboBrowser 是另一个简单的库，它基于 Python 2 或者 Python 3，它具有按钮点击和表格填充的基本功能。虽然它有一段时间没有更新了，但是它仍然是一个不错的选择。

这远不是一个完整的列表，当然，如果你是一个编程专家，你可以选择采取你自己的方法而不是使用这些框架中的一个。或者你发现一个用其他语言编写的替代品。例如 Python 编程者可能更喜欢 Python 附带的 Selenium，它可以在不使用实际浏览器的情况下进行爬取。如果你有喜欢的爬取和挖掘工具，请在下面评论让我们知道。

（题图：You as a Machine. Modified by Rikki Endsley. CC BY-SA 2.0）

via: https://opensource.com/resources/python/web-scraper-crawler

作者：Jason Baker 译者：ZH1122 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

3 个简单、优秀的 Linux 网络监视器

Carla Schroder 发布于 2017-11-04
另请参阅: 系统运维,iftop, nethogs, vnstat
评论

用 iftop、Nethogs 和 vnstat 了解更多关于你的网络连接。

你可以通过这三个 Linux 网络命令，了解有关你网络连接的大量信息。iftop 通过进程号跟踪网络连接，Nethogs 可以快速显示哪个在占用你的带宽，而 vnstat 作为一个很好的轻量级守护进程运行，可以随时随地记录你的使用情况。

iftop

iftop 监听你指定的网络接口，并以 top 的形式展示连接。

这是一个很好的小工具，用于快速识别占用、测量速度，并保持网络流量的总体运行。看到我们使用了多少带宽是非常令人惊讶的，特别是对于我们这些还记得使用电话线、调制解调器、让人尖叫的 Kbit 速度和真实的实时波特率的老年人来说。我们很久以前就放弃了波特率，转而使用比特率。波特率测量信号变化，有时与比特率相同，但大多数情况下不是。

如果你只有一个网络接口，可以不带选项运行 iftop。iftop 需要 root 权限：

$ sudo iftop

当你有多个接口时，指定要监控的接口：

$ sudo iftop -i wlan0

就像 top 一样，你可以在运行时更改显示选项。

h 切换帮助屏幕。
n 切换名称解析。
s 切换源主机显示，d 切换目标主机。
s 切换端口号。
N 切换端口解析。要全看到端口号，请关闭解析。
t 切换文本界面。默认显示需要 ncurses。我认为文本显示更易于阅读和更好的组织（图1）。
p 暂停显示。
q 退出程序。

title=

图 1：文本显示是可读的和可组织的。

当你切换显示选项时，iftop 会继续测量所有流量。你还可以选择要监控的单个主机。你需要主机的 IP 地址和网络掩码。我很好奇 Pandora 在我那可怜的带宽中占用了多少，所以我先用 dig 找到它们的 IP 地址：

$ dig A pandora.com
[...]
;; ANSWER SECTION:
pandora.com.            267     IN      A       208.85.40.20
pandora.com.            267     IN      A       208.85.40.50

网络掩码是什么？ ipcalc 告诉我们：

$ ipcalc -b 208.85.40.20
Address:   208.85.40.20   
Netmask:   255.255.255.0 = 24
Wildcard:  0.0.0.255  
=>
Network:   208.85.40.0/24

现在将地址和网络掩码提供给 iftop：

$ sudo iftop -F 208.85.40.20/24 -i wlan0

这不是真的吗？我很惊讶地发现，我珍贵的带宽对于 Pandora 很宽裕，每小时使用大约使用 500Kb。而且，像大多数流媒体服务一样，Pandora 的流量也有峰值，其依赖于缓存来缓解阻塞。

你可以使用 -G 选项对 IPv6 地址执行相同操作。请参阅手册页了解 iftop 的其他功能，包括使用自定义配置文件定制默认选项，并应用自定义过滤器（请参阅 PCAP-FILTER 作为过滤器参考）。

Nethogs

当你想要快速了解谁占用了你的带宽时，Nethogs 是快速和容易的。以 root 身份运行，并指定要监听的接口。它显示了空闲的应用程序和进程号，以便如果你愿意的话，你可以杀死它：

$ sudo nethogs wlan0

NetHogs version 0.8.1

PID USER   PROGRAM              DEV    SENT   RECEIVED       
7690 carla /usr/lib/firefox     wlan0 12.494 556.580 KB/sec
5648 carla .../chromium-browser wlan0  0.052   0.038 KB/sec
TOTAL                                 12.546 556.618 KB/sec

Nethogs 选项很少：在 kb/s、kb、b 和 mb 之间循环；通过接收或发送的数据包进行排序；并调整刷新之间的延迟。请参阅 man nethogs，或者运行 nethogs -h。

vnstat

vnstat 是最容易使用的网络数据收集器。它是轻量级的，不需要 root 权限。它作为守护进程运行，并记录你网络统计信息。vnstat 命令显示累计的数据：

$ vnstat -i wlan0
Database updated: Tue Oct 17 08:36:38 2017

   wlan0 since 10/17/2017

          rx:  45.27 MiB      tx:  3.77 MiB      total:  49.04 MiB

   monthly
                     rx      |     tx      |    total    |   avg. rate
     ------------------------+-------------+-------------+---------------
       Oct '17     45.27 MiB |    3.77 MiB |   49.04 MiB |    0.28 kbit/s
     ------------------------+-------------+-------------+---------------
     estimated        85 MiB |       5 MiB |      90 MiB |

   daily
                     rx      |     tx      |    total    |   avg. rate
     ------------------------+-------------+-------------+---------------
         today     45.27 MiB |    3.77 MiB |   49.04 MiB |   12.96 kbit/s
     ------------------------+-------------+-------------+---------------
     estimated       125 MiB |       8 MiB |     133 MiB |

它默认显示所有的网络接口。使用 -i 选项选择单个接口。以这种方式合并多个接口的数据：

$ vnstat -i wlan0+eth0+eth1

你可以通过以下几种方式过滤显示：

-h 以小时显示统计数据。
-d 以天数显示统计数据。
-w 和 -m 按周和月显示统计数据。
使用 -l 选项查看实时更新。

此命令删除 wlan1 的数据库，并停止监控它：

$ vnstat -i wlan1 --delete

此命令为网络接口创建别名。此例使用 Ubuntu 16.04 中的一个奇怪的接口名称：

$ vnstat -u -i enp0s25 --nick eth0

默认情况下，vnstat 监视 eth0。你可以在 /etc/vnstat.conf 中更改此内容，或在主目录中创建自己的个人配置文件。请参见 man vnstat 以获得完整的参考。

你还可以安装 vnstati 创建简单的彩色图（图2）：

$ vnstati -s -i wlx7cdd90a0a1c2 -o vnstat.png

title=

图 2：你可以使用 vnstati 创建简单的彩色图表。

有关完整选项，请参见 man vnstati。

via: https://www.linux.com/learn/intro-to-linux/2017/10/3-simple-excellent-linux-network-monitors

作者：CARLA SCHRODER 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

通过 Slack 监视慢 SQL 查询

Azer Koçulu 发布于 2017-11-03
另请参阅: 技术,监控, Slack
评论

一个获得关于慢查询、意外错误和其它重要日志通知的简单 Go 秘诀。

我的 Slack 机器人提示我一个运行了很长时间 SQL 查询。我应该尽快解决它。

我们不能管理我们无法去测量的东西。每个后台应用程序都需要我们去监视它在数据库上的性能。如果一个特定的查询随着数据量增长变慢，你必须在它变得太慢之前去优化它。

由于 Slack 已经成为我们工作的中心，它也在改变我们监视系统的方式。虽然我们已经有非常不错的监视工具，如果在系统中任何东西有正在恶化的趋势，让 Slack 机器人告诉我们，也是非常棒的主意。比如，一个太长时间才完成的 SQL 查询，或者，在一个特定的 Go 包中发生一个致命的错误。

在这篇博客文章中，我们将告诉你，通过使用已经支持这些特性的一个简单的日志系统和一个已存在的数据库库（database library）怎么去设置来达到这个目的。

使用记录器

logger 是一个为 Go 库和应用程序使用设计的小型库。在这个例子中我们使用了它的三个重要的特性：

它为测量性能提供了一个简单的定时器。
支持复杂的输出过滤器，因此，你可以从指定的包中选择日志。例如，你可以告诉记录器仅从数据库包中输出，并且仅输出超过 500 ms 的定时器日志。
它有一个 Slack 钩子，因此，你可以过滤并将日志输入到 Slack。

让我们看一下在这个例子中，怎么去使用定时器，稍后我们也将去使用过滤器：

package main

import (
    "github.com/azer/logger"
    "time"
)

var (
  users = logger.New("users")
  database = logger.New("database")
)

func main () {
  users.Info("Hi!")

  timer := database.Timer()
  time.Sleep(time.Millisecond * 250) // sleep 250ms
  timer.End("Connected to database")

  users.Error("Failed to create a new user.", logger.Attrs{
    "e-mail": "[email protected]",
  })

  database.Info("Just a random log.")

  fmt.Println("Bye.")
}

运行这个程序没有输出：

$ go run example-01.go
Bye

记录器是缺省静默的，因此，它可以在库的内部使用。我们简单地通过一个环境变量去查看日志：

例如：

$ LOG=database@timer go run example-01.go
01:08:54.997 database(250.095587ms): Connected to database.
Bye

上面的示例我们使用了 database@timer 过滤器去查看 database 包中输出的定时器日志。你也可以试一下其它的过滤器，比如：

LOG=*: 所有日志
LOG=users@error,database: 所有来自 users 的错误日志，所有来自 database 的所有日志
LOG=*@timer,database@info: 来自所有包的定时器日志和错误日志，以及来自 database 的所有日志
LOG=*,users@mute: 除了 users 之外的所有日志

发送日志到 Slack

控制台日志是用于开发环境的，但是我们需要产品提供一个友好的界面。感谢 slack-hook，我们可以很容易地在上面的示例中，使用 Slack 去整合它：

import (
  "github.com/azer/logger"
  "github.com/azer/logger-slack-hook"
)

func init () {
  logger.Hook(&slackhook.Writer{
    WebHookURL: "https://hooks.slack.com/services/...",
    Channel: "slow-queries",
    Username: "Query Person",
    Filter: func (log *logger.Log) bool {
      return log.Package == "database" && log.Level == "TIMER" && log.Elapsed >= 200
    }
  })
}

我们来解释一下，在上面的示例中我们做了什么：

行 #5: 设置入站 webhook url。这个 URL 链接在这里。
行 #6: 选择流日志的入口通道。
行 #7: 显示的发送者的用户名。
行 #11: 使用流过滤器，仅输出时间超过 200 ms 的定时器日志。

希望这个示例能给你提供一个大概的思路。如果你有更多的问题，去看这个记录器的文档。

一个真实的示例： CRUD

crud 是一个用于 Go 的数据库的 ORM 式的类库，它有一个隐藏特性是内部日志系统使用 logger 。这可以让我们很容易地去监视正在运行的 SQL 查询。

查询

这有一个通过给定的 e-mail 去返回用户名的简单查询：

func GetUserNameByEmail (email string) (string, error) {
  var name string
  if err := DB.Read(&name, "SELECT name FROM user WHERE email=?", email); err != nil {
    return "", err
  }

  return name, nil
}

好吧，这个太短了，感觉好像缺少了什么，让我们增加全部的上下文：

import (
  "github.com/azer/crud"
  _ "github.com/go-sql-driver/mysql"
  "os"
)

var db *crud.DB

func main () {
  var err error

  DB, err = crud.Connect("mysql", os.Getenv("DATABASE_URL"))
  if err != nil {
    panic(err)
  }

  username, err := GetUserNameByEmail("[email protected]")
  if err != nil {
    panic(err)
  }

  fmt.Println("Your username is: ", username)
}

因此，我们有一个通过环境变量 DATABASE_URL 连接到 MySQL 数据库的 crud 实例。如果我们运行这个程序，将看到有一行输出：

$ DATABASE_URL=root:123456@/testdb go run example.go
Your username is: azer

正如我前面提到的，日志是缺省静默的。让我们看一下 crud 的内部日志：

$ LOG=crud go run example.go
22:56:29.691 crud(0): SQL Query Executed: SELECT username FROM user WHERE email='[email protected]'
Your username is: azer

这很简单，并且足够我们去查看在我们的开发环境中查询是怎么执行的。

CRUD 和 Slack 整合

记录器是为配置管理应用程序级的“内部日志系统”而设计的。这意味着，你可以通过在你的应用程序级配置记录器，让 crud 的日志流入 Slack ：

import (
  "github.com/azer/logger"
  "github.com/azer/logger-slack-hook"
)

func init () {
  logger.Hook(&slackhook.Writer{
    WebHookURL: "https://hooks.slack.com/services/...",
    Channel: "slow-queries",
    Username: "Query Person",
    Filter: func (log *logger.Log) bool {
      return log.Package == "mysql" && log.Level == "TIMER" && log.Elapsed >= 250
    }
  })
}

在上面的代码中：

我们导入了 logger 和 logger-slack-hook 库。
我们配置记录器日志流入 Slack。这个配置覆盖了代码库中记录器所有的用法，包括第三方依赖。
我们使用了流过滤器，仅输出 MySQL 包中超过 250 ms 的定时器日志。

这种使用方法可以被扩展，而不仅是慢查询报告。我个人使用它去跟踪指定包中的重要错误，也用于统计一些类似新用户登入或生成支付的日志。

在这篇文章中提到的包

告诉我们如果你有任何的问题或建议。

via: http://azer.bike/journal/monitoring-slow-sql-queries-via-slack/

作者：Azer Koçulu 译者：qhwdw 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出