分类技术下的文章

不喜欢 IDE？试试看 grepgitvi

Yedidyah Bar David 发布于 2020-02-26
另请参阅: 技术,IDE
评论

一个简单又原始的脚本来用 Vim 打开你选择的文件。

像大多数开发者一样，我整天都在搜索和阅读源码。就我个人而言，我从来没有习惯过集成开发环境（IDE），多年来，我主要使用 grep （找到文件），并复制/粘贴文件名来打开 Vi(m)。

最终，我写了这个脚本，并根据需要缓慢地对其进行了完善。

它依赖 Vim 和 rlwrap，并使用 Apache 2.0 许可证开源。要使用该脚本，请将它放到 PATH 中，然后在文本目录下运行：

grepgitvi <grep options> <grep/vim search pattern>

它将返回搜索结果的编号列表，并提示你输入结果编号并打开 Vim。退出 Vim 后，它将再次显示列表，直到你输入除结果编号以外的任何内容。你也可以使用向上和向下箭头键选择一个文件。（这对我来说）更容易找到我已经看过的结果。

与现代 IDE 甚至与 Vim 的更复杂的用法相比，它简单而原始，但它对我有用。

脚本

#!/bin/bash

# grepgitvi - grep source files, interactively open vim on results
# Doesnt really have to do much with git, other than ignoring .git
#
# Copyright Yedidyah Bar David 2019
#
# SPDX-License-Identifier: Apache-2.0
#
# Requires vim and rlwrap
#
# Usage: grepgitvi <grep options> <grep/vim pattern>
#

TMPD=$(mktemp -d /tmp/grepgitvi.XXXXXX)
UNCOLORED=${TMPD}/uncolored
COLORED=${TMPD}/colored

RLHIST=${TMPD}/readline-history

[ -z "${DIRS}" ] && DIRS=.

cleanup() {
        rm -rf "${TMPD}"
}

trap cleanup 0

find ${DIRS} -iname .git -prune -o \! -iname "*.min.css*" -type f -print0 > ${TMPD}/allfiles

cat ${TMPD}/allfiles | xargs -0 grep --color=always -n -H "$@" > $COLORED
cat ${TMPD}/allfiles | xargs -0 grep -n -H "$@" > $UNCOLORED

max=`cat $UNCOLORED | wc -l`
pat="${@: -1}"

inp=''
while true; do
        echo "============================ grep results ==============================="
        cat $COLORED | nl
        echo "============================ grep results ==============================="
        prompt="Enter a number between 1 and $max or anything else to quit: "
        inp=$(rlwrap -H $RLHIST bash -c "read -p \"$prompt\" inp; echo \$inp")
        if ! echo "$inp" | grep -q '^[0-9][0-9]*$' || [ "$inp" -gt "$max" ]; then
                break
        fi

        filename=$(cat $UNCOLORED | awk -F: "NR==$inp"' {print $1}')
        linenum=$(cat $UNCOLORED | awk -F: "NR==$inp"' {print $2-1}')
        vim +:"$linenum" +"norm zz" +/"${pat}" "$filename"
done

via: https://opensource.com/article/20/2/no-ide-script

作者：Yedidyah Bar David 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用 dig 命令挖掘域名解析信息

Sandra Henry-Stocker 发布于 2020-02-26
另请参阅: 技术,dig
评论

命令行工具 dig 是用于解析域名和故障排查的一个利器。

从主要功能上来说，dig 和 nslookup 之间差异不大，但 dig 更像一个加强版的 nslookup，可以查询到一些由域名服务器管理的信息，这在排查某些问题的时候非常有用。总的来说，dig 是一个既简单易用又功能强大的命令行工具。（LCTT 译注：dig 和 nslookup 行为的主要区别来自于 dig 使用是是操作系统本身的解析库，而 nslookup 使用的是该程序自带的解析库，这有时候会带来一些行为差异。此外，从表现形式上看，dig 返回是结果是以 BIND 配置信息的格式返回的，也带有更多的技术细节。）

dig 最基本的功能就是查询域名信息，因此它的名称实际上是“ 域名信息查询工具 Domain Information Groper ”的缩写。dig 向用户返回的内容可以非常详尽，也可以非常简洁，展现内容的多少完全由用户在查询时使用的选项来决定。

我只需要查询 IP 地址

如果只需要查询某个域名指向的 IP 地址，可以使用 +short 选项：

$ dig facebook.com +short
31.13.66.35

在查询的时候发现有的域名会指向多个 IP 地址？这其实是网站提高其可用性的一种措施。

$ dig networkworld.com +short
151.101.2.165
151.101.66.165
151.101.130.165
151.101.194.165

也正是由于这些网站通过负载均衡实现高可用，在下一次查询的时候，或许会发现这几个 IP 地址的排序有所不同。（LCTT 译注：浏览器等应用默认会使用返回的第一个 IP 地址，因此这样实现了一种简单的负载均衡。）

$ dig networkworld.com +short
151.101.130.165
151.101.194.165
151.101.2.165
151.101.66.165

标准返回

dig 的标准返回内容则包括这个工具本身的一些信息，以及请求域名服务器时返回的响应内容：

$ dig networkworld.com

; <<>> DiG 9.11.5-P4-5.1ubuntu2.1-Ubuntu <<>*gt; networkworld.com
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 39932
;; flags: qr rd ra; QUERY: 1, ANSWER: 4, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 65494
;; QUESTION SECTION:
;networkworld.com.              IN      A

;; ANSWER SECTION:
networkworld.com.       300     IN      A       151.101.194.165
networkworld.com.       300     IN      A       151.101.130.165
networkworld.com.       300     IN      A       151.101.66.165
networkworld.com.       300     IN      A       151.101.2.165

;; Query time: 108 msec
;; SERVER: 127.0.0.53#53(127.0.0.53)
;; WHEN: Thu Feb 13 13:49:53 EST 2020
;; MSG SIZE  rcvd: 109

由于域名服务器有缓存机制，返回的内容可能是之前缓存好的信息。在这种情况下，dig 最后显示的查询时间 Query time 会是 0 毫秒（0 msec）：

;; Query time: 0 msec        <==
;; SERVER: 127.0.0.53#53(127.0.0.53)
;; WHEN: Thu Feb 13 15:30:09 EST 2020
;; MSG SIZE  rcvd: 109

向谁查询？

在默认情况下，dig 会根据 /etc/resolv.conf 这个文件的内容决定向哪个域名服务器获取查询结果。你也可以使用 @ 来指定 dig 请求的域名服务器。

在下面的例子中，就指定了 dig 向 Google 的域名服务器 8.8.8.8 查询域名信息。

$ dig @8.8.8.8 networkworld.com

; <<>> DiG 9.11.5-P4-5.1ubuntu2.1-Ubuntu <<>> @8.8.8.8 networkworld.com
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 21163
;; flags: qr rd ra; QUERY: 1, ANSWER: 4, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
;; QUESTION SECTION:
;networkworld.com.              IN      A

;; ANSWER SECTION:
networkworld.com.       299     IN      A       151.101.130.165
networkworld.com.       299     IN      A       151.101.66.165
networkworld.com.       299     IN      A       151.101.194.165
networkworld.com.       299     IN      A       151.101.2.165

;; Query time: 48 msec
;; SERVER: 8.8.8.8#53(8.8.8.8)
;; WHEN: Thu Feb 13 14:26:14 EST 2020
;; MSG SIZE  rcvd: 109

想要知道正在使用的 dig 工具的版本，可以使用 -v 选项。你会看到类似这样：

$ dig -v
DiG 9.11.5-P4-5.1ubuntu2.1-Ubuntu

或者这样的返回信息：

$ dig -v
DiG 9.11.4-P2-RedHat-9.11.4-22.P2.el8

如果你觉得 dig 返回的内容过于详细，可以使用 +noall（不显示所有内容）和 +answer（仅显示域名服务器的响应内容）选项，域名服务器的详细信息就会被忽略，只保留域名解析结果。

$ dig networkworld.com +noall +answer

; <<>> DiG 9.11.5-P4-5.1ubuntu2.1-Ubuntu <<>> networkworld.com +noall +answer
;; global options: +cmd
networkworld.com.       300     IN      A       151.101.194.165
networkworld.com.       300     IN      A       151.101.130.165
networkworld.com.       300     IN      A       151.101.66.165
networkworld.com.       300     IN      A       151.101.2.165

批量查询域名

如果你要查询多个域名，可以把这些域名写入到一个文件内（domains），然后使用下面的 dig 命令遍历整个文件并给出所有查询结果。

$ dig +noall +answer -f domains
networkworld.com.       300     IN      A       151.101.66.165
networkworld.com.       300     IN      A       151.101.2.165
networkworld.com.       300     IN      A       151.101.130.165
networkworld.com.       300     IN      A       151.101.194.165
world.std.com.          77972   IN      A       192.74.137.5
uushenandoah.org.       1982    IN      A       162.241.24.209
amazon.com.             18      IN      A       176.32.103.205
amazon.com.             18      IN      A       176.32.98.166
amazon.com.             18      IN      A       205.251.242.103

你也可以在上面的命令中使用 +short 选项，但如果其中有些域名指向多个 IP 地址，就无法看出哪些 IP 地址对应哪个域名了。在这种情况下，更好地做法应该是让 awk 对返回内容进行处理，只留下第一列和最后一列：

$ dig +noall +answer -f domains | awk '{print $1,$NF}'
networkworld.com. 151.101.66.165
networkworld.com. 151.101.130.165
networkworld.com. 151.101.194.165
networkworld.com. 151.101.2.165
world.std.com. 192.74.137.5
amazon.com. 176.32.98.166
amazon.com. 205.251.242.103
amazon.com. 176.32.103.205

via: https://www.networkworld.com/article/3527430/digging-up-ip-addresses-with-the-dig-command.html

作者：Sandra Henry-Stocker 选题：lujun9972 译者：HankChow 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

利用 Tmux 和 kubectl 解决 Kubernetes 故障

Abhishek Tamrakar 发布于 2020-02-25
另请参阅: 容器与云,Tmux, kubectl
评论

一个使用 tmux 的 kubectl 插件可以使 Kubernetes 疑难问题变得更简单。

Kubernetes 是一个活跃的开源容器管理平台，它提供了可扩展性、高可用性、健壮性和富有弹性的应用程序管理。它的众多特性之一是支持通过其主要的二进制客户端 kubectl 运行定制脚本或可执行程序，kubectl 很强大的，允许用户在 Kubernetes 集群上用它直接做很多事情。

使用别名进行 Kubernetes 的故障排查

使用 Kubernetes 进行容器编排的人都知道由于设计上原因带来了其功能的复杂性。举例说，迫切需要以更快的速度并且几乎不需要手动干预的方式来简化 Kubernetes 中的故障排除（除过特殊情况）。

在故障排查功能方面，有很多场景需要考虑。在一种场景下，你知道你需要运行什么，但是这个命令的语法（即使作为一个单独的命令运行）过于复杂，或需要一、两次交互才能起作用。

例如，如果你需要经常进入一个系统命名空间中运行的容器，你可能发现自己在重复地键入：

kubectl --namespace=kube-system exec -i -t <your-pod-name>

为了简化故障排查，你可以用这些指令的命令行别名。比如，你可以增加下面命令到你的隐藏配置文件（.bashrc 或 .zshrc）：

alias ksysex='kubectl --namespace=kube-system exec -i -t'

这是来自于 Kubernetes 常见别名存储库的一个例子，它展示了一种简化 kubectl 中的功能的方法。像这种场景下的简单情形，使用别名很有用。

切换到 kubectl 插件

更复杂的故障排查场景是需要一个一个的执行很多命令，调查环境，最后得出结论。仅仅用别名方法是不能解决这种情况的；你需要知道你所部署的 Kubernetes 之间逻辑和相关性，你真正需要的是自动化，以在更短的时间内输出你想要的。

考虑到你的集群有 10 ~ 20 或 50 ~ 100 个命名空间来提供不同的微服务。一般在进行故障排查时，什么对你有帮助？

你需要能够快速分辨出抛出错误的是哪个命名空间的哪个 Pod 的东西。
你需要一些可监视一个命名空间的所有 Pod 日志的东西。
你可能也需要监视特定命名空间的出现错误的某个 Pod 的日志。

涵盖这些要点的解决方案对于定位生产环境的问题有很大的帮助，以及在开发和测试环节中也很有用。

你可以用 kubectl 插件创建比简单的别名更强大的功能。插件类似于其它用任何语言编写的独立脚本，但被设计为可以扩充 Kubernetes 管理员的主要命令。

创建一个插件，你必须用 kubectl-<your-plugin-name> 的正确的语法来拷贝这个脚本到 $PATH 中的导出目录之一，并需要为其赋予可执行权限（chmod +x）。

创建插件之后将其移动到路径中，你可以立即运行它。例如，我的路径下有一个 kubectl-krawl 和 kubectl-kmux：

$ kubectl plugin list
The following compatible plugins are available:

/usr/local/bin/kubectl-krawl
/usr/local/bin/kubectl-kmux

$ kubectl kmux

现在让我们见识下带有 tmux 的 Kubernetes 的有多强大。

驾驭强大的 tmux

Tmux 是一个非常强大的工具，许多管理员和运维团队都依赖它来解决与易操作性相关的问题：通过将窗口分成多个窗格以便在多台计算机上运行并行的调试来监视日志。它的主要的优点是可在命令行或自动化脚本中使用。

我创建一个 kubectl 插件，使用 tmux 使故障排查更加简单。我将通过注释来解析插件背后的逻辑（插件的完整代码留待给你实现）：

# NAMESPACE 是要监控的名字空间
# POD 是 Pod 名称
# Containers 是容器名称

# 初始化一个计数器 n 以计算循环计数的数量，
# 之后 tmux 使用它来拆分窗格。
n=0;

# 在 Pod 和容器列表上开始循环
while IFS=' ' read -r POD CONTAINERS
do
    # tmux 为每个 Pod 创建一个新窗口
    tmux neww $COMMAND -n $POD 2>/dev/null
    # 对运行中的 Pod 中 的所有容器启动循环
    for CONTAINER in ${CONTAINERS//,/ }
    do
        if [ x$POD = x -o x$CONTAINER = x ]; then
            # 如果任何值为 null，则退出。
                     warn "Looks like there is a problem getting pods data."
            break
        fi
           
        # 设置要执行的命令
        COMMAND=”kubectl logs -f $POD -c $CONTAINER -n $NAMESPACE”
        # 检查 tmux 会话
        if tmux has-session -t <会话名> 2>/dev/null;
        then
            <设置会话退出>
        else
            <创建会话>
        fi
        # 在当前窗口为每个容器切分窗格
        tmux selectp -t $n \; \
        splitw $COMMAND \; \
        select-layout tiled \;
        # 终止容器循环
    done
    
    # 用 Pod 名称重命名窗口以识别
    tmux renamew $POD 2>/dev/null
    
    # 增加计数器
    ((n+=1))

# 终止 Pod 循环
done<<(<从 kubernetes  集群获取 Pod 和容器的列表>)

# 最后选择窗口并附加会话
tmux selectw -t <会话名>:1 \; \
attach-session -t <会话名>\;

运行插件脚本后，将产生类似于下图的输出。每个 Pod 有一个自己的窗口，每个容器（如果有多个）被分割到其窗口中 Pod 窗格中，并在日志到达时输出。Tmux 之美如下可见；通过正确的配置，你甚至会看到哪个窗口正处于激活运行状态（可看到标签是白色的）。

总结

别名是在 Kubernetes 环境下常见的也有用的简易故障排查方法。当环境变得复杂，用高级脚本生成的kubectl 插件是一个更强大的方法。至于用哪个编程语言来编写 kubectl 插件是没有限制。唯一的要求是该名字在路径中是可执行的，并且不能与已知的 kubectl 命令重复。

要阅读完整的插件源码，或试试我创建的插件，请查看我的 kube-plugins-github 存储库。欢迎提交提案和补丁。

via: https://opensource.com/article/20/2/kubernetes-tmux-kubectl

作者：Abhishek Tamrakar 选题：lujun9972 译者：guevaraya 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

如何在 Ubuntu 上安装最新版本的 Git

Abhishek Prakash 发布于 2020-02-25
另请参阅: 技术,Git
评论

在 Ubuntu 上安装 Git 非常容易。它存在于 Ubuntu 的主仓库中，你可以像这样使用 apt 命令安装它：

sudo apt install git

很简单？是不是？

只有一点点小问题（这可能根本不是问题），就是它安装的 Git 版本。

在 LTS 系统上，软件稳定性至关重要，这就是为什么 Ubuntu 18.04 和其他发行版经常提供较旧但稳定的软件版本的原因，它们都经过发行版的良好测试。

这就是为什么当你检查 Git 版本时，会看到安装的版本会比 Git 网站上当前最新 Git 版本旧：

$ git --version
git version 2.17.1

在编写本教程时，网站上提供的版本为 2.25。那么，如何在 Ubuntu 上安装最新的 Git？

在基于 Ubuntu 的 Linux 发行版上安装最新的 Git

一种方法是从源代码安装。这种很酷又老派的方法不适合所有人。值得庆幸的是，Ubuntu Git 维护团队提供了 PPA，莫可以使用它轻松地安装最新的稳定 Git 版本。

sudo add-apt-repository ppa:git-core/ppa
sudo apt update
sudo apt install git

即使你以前使用 apt 安装了 Git，它也将更新为最新的稳定版本。

$ git --version
git version 2.25.0

使用PPA 的好处在于，如果发布了新的 Git 稳定版本，那么就可以通过系统更新获得它。仅更新 Ubuntu 来获取最新的 Git 稳定版本。

配置 Git （推荐给开发者）

如果你出于开发目的安装了 Git，你会很快开始克隆仓库，进行更改并提交更改。

如果你尝试提交代码，那么你可能会看到 “Please tell me who you are” 这样的错误：

$ git commit -m "update readme"

*** Please tell me who you are.

Run

  git config --global user.email "[email protected]"
  git config --global user.name "Your Name"

to set your account's default identity.
Omit --global to set the identity only in this repository.

fatal: unable to auto-detect email address (got 'abhishek@itsfoss.(none)')

这是因为你还没配置必要的个人信息。

正如错误已经暗示的那样，你可以像这样设置全局 Git 配置：

git config --global user.name "Your Name"
git config --global user.email "[email protected]"

你可以使用以下命令检查 Git 配置：

git config --list

它应该显示如下输出：

[email protected]
user.name=Your Name

配置保存在 ~/.gitconfig 中。你可以手动修改配置。

结尾

我希望这个小教程可以帮助你在 Ubuntu 上安装 Git。使用 PPA，你可以轻松获得最新的 Git 版本。

如果你有任何疑问或建议，请随时在评论部分提问。也欢迎直接写“谢谢” :)

via: https://itsfoss.com/install-git-ubuntu/

作者：Abhishek Prakash 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

12 种自然语言处理的开源工具

Dan Barker 发布于 2020-02-25
另请参阅: 软件开发,NLP
评论

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。

在过去的几年里，自然语言处理（NLP）推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP 工具来帮助你制定开发下一个基于语音或文本的应用程序的计划。

尽管我并不熟悉所有工具，但我将从我所熟悉的编程语言出发来介绍这些工具（对于我不熟悉的语言，我无法找到大量的工具）。也就是说，出于各种原因，我排除了三种我熟悉的语言之外的工具。

R 语言可能是没有被包含在内的最重要的语言，因为我发现的大多数库都有一年多没有更新了。这并不一定意味着它们没有得到很好的维护，但我认为它们应该得到更多的更新，以便和同一领域的其他工具竞争。我还选择了最有可能用在生产场景中的语言和工具（而不是在学术界和研究中使用），而我主要是使用 R 作为研究和发现工具。

我也惊讶地发现 Scala 的很多库都没有更新了。我上次使用 Scala 已经过去了两年了，当时它非常流行。但是大多数库从那个时候就再没有更新过，或者只有少数一些有更新。

最后，我排除了 C++。这主要是因为我上次使用 C++ 编写程序已经有很多年了，而我所工作的组织还没有将 C++ 用于 NLP 或任何数据科学方面的工作。

Python 工具

自然语言工具包（NLTK）

毋庸置疑，自然语言工具包（NLTK）是我调研过的所有工具中功能最完善的一个。它几乎实现了自然语言处理中多数功能组件，比如分类、令牌化、词干化、标注、分词和语义推理。每一个都有多种不同的实现方式，所以你可以选择具体的算法和方式。同时，它也支持不同的语言。然而，它以字符串的形式表示所有的数据，对于一些简单的数据结构来说可能很方便，但是如果要使用一些高级的功能来说就可能有点困难。它的使用文档有点复杂，但也有很多其他人编写的使用文档，比如这本很棒的书。和其他的工具比起来，这个工具库的运行速度有点慢。但总的来说，这个工具包非常不错，可以用于需要具体算法组合的实验、探索和实际应用当中。

SpaCy

SpaCy 可能是 NLTK 的主要竞争者。在大多数情况下都比 NLTK 的速度更快，但是 SpaCy 的每个自然语言处理的功能组件只有一个实现。SpaCy 把所有的东西都表示为一个对象而不是字符串，从而简化了应用构建接口。这也方便它与多种框架和数据科学工具的集成，使得你更容易理解你的文本数据。然而，SpaCy 不像 NLTK 那样支持多种语言。它确实接口简单，具有简化的选项集和完备的文档，以及用于语言处理和分析各种组件的多种神经网络模型。总的来说，对于需要在生产中表现出色且不需要特定算法的新应用程序，这是一个很不错的工具。

TextBlob

TextBlob 是 NLTK 的一个扩展库。你可以通过 TextBlob 用一种更简单的方式来使用 NLTK 的功能，TextBlob 也包括了 Pattern 库中的功能。如果你刚刚开始学习，这将会是一个不错的工具，可以用于对性能要求不太高的生产环境的应用。总体来说，TextBlob 适用于任何场景，但是对小型项目尤佳。

Textacy

这个工具是我用过的名字最好听的。先重读“ex”再带出“cy”，多读“Textacy”几次试试。它不仅仅是名字读起来好，同时它本身也是一个很不错的工具。它使用 SpaCy 作为它自然语言处理核心功能，但它在处理过程的前后做了很多工作。如果你想要使用 SpaCy，那么最好使用 Textacy，从而不用去编写额外的附加代码就可以处理不同种类的数据。

PyTorch-NLP

PyTorch-NLP 才出现短短的一年，但它已经有一个庞大的社区了。它适用于快速原型开发。当出现了最新的研究，或大公司或者研究人员推出了完成新奇的处理任务的其他工具时，比如图像转换，它就会被更新。总体来说，PyTorch 的目标用户是研究人员，但它也能用于原型开发，或使用最先进算法的初始生产载荷中。基于此基础上的创建的库也是值得研究的。

Node.js 工具

Retext

Retext 是 Unified 集合的一部分。Unified 是一个接口，能够集成不同的工具和插件以便它们能够高效的工作。Retext 是 Unified 工具中使用的三种语法之一，另外的两个分别是用于 Markdown 的 Remark 和用于 HTML 的 Rehype。这是一个非常有趣的想法，我很高兴看到这个社区的发展。Retext 没有涉及很多的底层技术，更多的是使用插件去完成你在 NLP 任务中想要做的事情。拼写检查、字形修复、情绪检测和增强可读性都可以用简单的插件来完成。总体来说，如果你不想了解底层处理技术又想完成你的任务的话，这个工具和社区是一个不错的选择。

Compromise

Compromise 显然不是最复杂的工具，如果你正在找拥有最先进的算法和最完备的系统的话，它可能不适合你。然而，如果你想要一个性能好、功能广泛、还能在客户端运行的工具的话，Compromise 值得一试。总体来说，它的名字（“折中”）是准确的，因为作者更关注更具体功能的小软件包，而在功能性和准确性上有所折中，这些小软件包得益于用户对使用环境的理解。

Natural

Natural 包含了常规自然语言处理库所具有的大多数功能。它主要是处理英文文本，但也包括一些其它语言，它的社区也欢迎支持其它的语言。它能够进行令牌化、词干化、分类、语音处理、词频-逆文档频率计算（TF-IDF）、WordNet、字符相似度计算和一些变换。它和 NLTK 有的一比，因为它想要把所有东西都包含在一个包里头，但它更易于使用，而且不一定专注于研究。总的来说，这是一个非常完整的库，目前仍在活跃开发中，但可能需要对底层实现有更多的了解才能完全发挥效力。

Nlp.js

Nlp.js 建立在其他几个 NLP 库之上，包括 Franc 和 Brain.js。它为许多 NLP 组件提供了一个很好的接口，比如分类、情感分析、词干化、命名实体识别和自然语言生成。它也支持一些其它语言，在你处理英语之外的语言时能提供一些帮助。总之，它是一个不错的通用工具，并且提供了调用其他工具的简化接口。在你需要更强大或更灵活的工具之前，这个工具可能会在你的应用程序中用上很长一段时间。

Java 工具

OpenNLP

OpenNLP 是由 Apache 基金会管理的，所以它可以很方便地集成到其他 Apache 项目中，比如 Apache Flink、Apache NiFi 和 Apache Spark。这是一个通用的 NLP 工具，包含了所有 NLP 组件中的通用功能，可以通过命令行或者以包的形式导入到应用中来使用它。它也支持很多种语言。OpenNLP 是一个很高效的工具，包含了很多特性，如果你用 Java 开发生产环境产品的话，它是个很好的选择。

Stanford CoreNLP

Stanford CoreNLP 是一个工具集，提供了统计 NLP、深度学习 NLP 和基于规则的 NLP 功能。这个工具也有许多其他编程语言的版本，所以可以脱离 Java 来使用。它是由高水平的研究机构创建的一个高效的工具，但在生产环境中可能不是最好的。此工具采用双许可证，具有可以用于商业目的的特定许可证。总之，在研究和实验中它是一个很棒的工具，但在生产系统中可能会带来一些额外的成本。比起 Java 版本来说，读者可能对它的 Python 版本更感兴趣。同样，在 Coursera 上最好的机器学习课程之一是斯坦福教授提供的，点此访问其他不错的资源。

CogCompNLP

CogCompNLP 由伊利诺斯大学开发的一个工具，它也有一个相似功能的 Python 版本。它可以用于处理文本，包括本地处理和远程处理，能够极大地缓解你本地设备的压力。它提供了很多处理功能，比如令牌化、词性标注、断句、命名实体标注、词型还原、依存分析和语义角色标注。它是一个很好的研究工具，你可以自己探索它的不同功能。我不确定它是否适合生产环境，但如果你使用 Java 的话，它值得一试。

你最喜欢的开源 NLP 工具和库是什么？请在评论区分享文中没有提到的工具。

via: https://opensource.com/article/19/3/natural-language-processing-tools

作者：Dan Barker 选题：lujun9972 译者：zxp 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

通过 Org 模式管理 Chromium 和 Firefox 会话

Sanel Z 发布于 2020-02-24
另请参阅: 桌面应用,浏览器, Org模式
评论

我是会话管理器的铁粉，它是 Chrome 和 Chromium 的小插件，可以保存所有打开的选项卡，为会话命名，并在需要时恢复会话。

它非常有用，特别是如果你像我一样，白天的时候需要在多个“思维活动”之间切换——研究、开发或者阅读新闻。或者你只是单纯地希望记住几天前的工作流（和选项卡）。

在我决定放弃 chromium 上除了 uBlock Origin 之外的所有扩展后，就必须寻找一些替代品了。我的主要目标是使之与浏览器无关，同时会话链接必须保存在文本文件中，这样我就可以享受所有纯文本的好处了。还有什么比 org 模式更好呢 ;)

很久以前我就发现了这个小诀窍：通过命令行获取当前在谷歌 Chrome 中打开的标签再加上些 elisp 代码：

(require 'cl-lib)

(defun save-chromium-session ()
  "Reads chromium current session and generate org-mode heading with items."
  (interactive)
  (save-excursion
    (let* ((cmd "strings ~/'.config/chromium/Default/Current Session' | 'grep' -E '^https?://' | sort | uniq")
           (ret (shell-command-to-string cmd)))
      (insert
       (concat
        "* "
        (format-time-string "[%Y-%m-%d %H:%M:%S]")
        "\n"
        (mapconcat 'identity
                   (cl-reduce (lambda (lst x)
                                (if (and x (not (string= "" x)))
                                    (cons (concat "  - " x) lst)
                                  lst))
                              (split-string ret "\n")
                              :initial-value (list))
                   "\n"))))))

(defun restore-chromium-session ()
  "Restore session, by openning each link in list with (browse-url).
Make sure to put cursor on date heading that contains list of urls."
  (interactive)
  (save-excursion
    (beginning-of-line)
    (when (looking-at "^\\*")
      (forward-line 1)
      (while (looking-at "^[ ]+-[ ]+\\(http.?+\\)$")
        (let* ((ln (thing-at-point 'line t))
               (ln (replace-regexp-in-string "^[ ]+-[ ]+" "" ln))
               (ln (replace-regexp-in-string "\n" "" ln)))
          (browse-url ln))
        (forward-line 1)))))

那么，它的工作原理是什么呢？

运行上述代码，打开一个新 org 模式文件并调用 M-x save-chromium-session。它会创建类似这样的东西：

* [2019-12-04 12:14:02]
  - https://www.reddit.com/r/emacs/comments/...
  - https://www.reddit.com/r/Clojure
  - https://news.ycombinator.com

也就是任何在 chromium 实例中运行着的 URL。要还原的话，则将光标置于所需日期上然后运行 M-x restore-chromium-session。所有标签都应该恢复了。

以下是我的使用案例，其中的数据是随机生成的：

#+TITLE: Browser sessions

* [2019-12-01 23:15:00]...
* [2019-12-02 18:10:20]...
* [2019-12-03 19:00:12]
  - https://www.reddit.com/r/emacs/comments/...
  - https://www.reddit.com/r/Clojure
  - https://news.ycombinator.com

* [2019-12-04 12:14:02]
  - https://www.reddit.com/r/emacs/comments/...
  - https://www.reddit.com/r/Clojure
  - https://news.ycombinator.com

请注意，用于读取 Chromium 会话的方法并不完美：strings 将从二进制数据库中读取任何类似 URL 字符串的内容，有时这将产生不完整的 URL。不过，你可以很方便地地编辑它们，从而保持会话文件简洁。

为了真正打开标签，elisp 代码中使用到了 browse-url，它可以通过 browse-url-browser-function 变量进一步定制成运行 Chromium、Firefox 或任何其他浏览器。请务必阅读该变量的相关文档。

别忘了把会话文件放在 git、mercurial 或 svn 中，这样你就再也不会丢失会话历史记录了 :)

那么 Firefox 呢？

如果你正在使用 Firefox（最近的版本），并且想要获取会话 URL，下面是操作方法。

首先，下载并编译 lz4json，这是一个可以解压缩 Mozilla lz4json 格式的小工具，Firefox 以这种格式来存储会话数据。会话数据（在撰写本文时）存储在 $HOME/.mozilla/firefox/<unique-name>/sessionstore-backup /recovery.jsonlz4 中。

如果 Firefox 没有运行，则没有 recovery.jsonlz4，这种情况下用 previous.jsonlz4 代替。

要提取网址，尝试在终端运行：

$ lz4jsoncat recovery.jsonlz4 | grep -oP '"(http.+?)"' | sed 's/"//g' | sort | uniq

然后更新 save-chromium-session 为：

(defun save-chromium-session ()
  "Reads chromium current session and converts it to org-mode chunk."
  (interactive)
  (save-excursion
    (let* ((path "~/.mozilla/firefox/<unique-name>/sessionstore-backups/recovery.jsonlz4")
           (cmd (concat "lz4jsoncat " path " | grep -oP '\"(http.+?)\"' | sed 's/\"//g' | sort | uniq"))
           (ret (shell-command-to-string cmd)))
...
;; rest of the code is unchanged

更新本函数的文档字符串、函数名以及进一步的重构都留作练习。

via: https://acidwords.com/posts/2019-12-04-handle-chromium-and-firefox-sessions-with-org-mode.html

作者：Sanel Z 选题：lujun9972 译者：lujun9972 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出