标签 Jupyter 下的文章

使用 Jupyter Notebooks 构建一个远程管理控制台

Moshe Zadka 发布于 2020-09-12
另请参阅: 技术,Jupyter
评论

把 Jupyter 变成一个远程管理控制台。

SSH 是一个强大的远程管理工具，但有些细节还不够好。编写一个成熟的远程管理控制台听起来好像是一件很费劲的事情。当然，开源社区中肯定有人已经写了一些东西吧？

是的，他们已经写出来了，它的名字是 Jupyter。你可能会认为 Jupyter 是那些数据科学家用来分析一周内的广告点击趋势之类的工具。这并没有错，它确实是的，而且它是一个很好的工具。但这仅仅刻画是它的表面。

关于 SSH 端口转发

有时，你可以通过 22 端口进入一台服务器。一般你也连接不到其他端口。也许你是通过另一个有更多访问权限的“堡垒机”，或者限制主机或端口的网络防火墙访问 SSH。当然，限制访问的 IP 范围是有充分理由的。SSH 是远程管理的安全协议，但允许任何人连接到任何端口是相当不必要的。

这里有一个替代方案：运行一个简单的 SSH 端口转发命令，将本地端口转发到一个“远程”本地连接上。当你运行像 -L 8111:127.0.0.1:8888 这样的 SSH 端口转发命令时，你是在告诉 SSH 将你的本地端口 8111 转发到它认为的“远程”主机 127.0.0.1:8888。远程主机认为 127.0.0.1 就是它本身。

就像在《芝麻街》节目一样，“这里”是一个微妙的词。

地址 127.0.0.1 就是你告诉网络的“这里”。

实际动手学习

这可能听起来很混乱，但运行比解释它更简单。

$ ssh -L 8111:127.0.0.1:8888 [email protected]
Linux 6ad096502e48 5.4.0-40-generic #44-Ubuntu SMP Tue Jun 23 00:01:04 UTC 2020 x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
Last login: Wed Aug  5 22:03:25 2020 from 172.17.0.1
$ jupyter/bin/jupyter lab --ip=127.0.0.1
[I 22:04:29.771 LabApp] JupyterLab application directory is /home/moshez/jupyter/share/jupyter/lab
[I 22:04:29.773 LabApp] Serving notebooks from local directory: /home/moshez
[I 22:04:29.773 LabApp] Jupyter Notebook 6.1.1 is running at:
[I 22:04:29.773 LabApp] http://127.0.0.1:8888/?token=df91012a36dd26a10b4724d618b2e78cb99013b36bb6a0d1
<删节>

端口转发 8111 到 127.0.0.1，并在远程主机上启动 Jupyter，它在 127.0.0.1:8888 上监听。

现在你要明白，Jupyter 在撒谎。它认为你需要连接到 8888 端口，但你把它转发到 8111 端口。所以，当你把 URL 复制到浏览器后，但在点击回车之前，把端口从 8888 修改为 8111。

title=

这就是你的远程管理控制台。如你所见，底部有一个“终端”图标。点击它可以启动一个终端。

title=

你可以运行一条命令。创建一个文件会在旁边的文件浏览器中显示出来。你可以点击该文件，在本地的编辑器中打开它。

title=

你还可以下载、重命名或删除文件：

title=

点击上箭头就可以上传文件了。那就上传上面的截图吧。

title=

最后说个小功能，Jupyter 可以让你直接通过双击远程图像查看。

哦，对了，如果你想用 Python 做系统自动化，还可以用 Jupyter 打开笔记本。

所以，下次你需要远程管理防火墙环境的时候，为什么不使用 Jupyter 呢？

via: https://opensource.com/article/20/9/remote-management-jupyter

作者：Moshe Zadka 选题：lujun9972 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

在 Fedora 上搭建 Jupyter 和数据科学环境

Avi Alkalay 发布于 2019-07-08
另请参阅: 软件开发,Jupyter
2 条评论

在过去，神谕和魔法师被认为拥有发现奥秘的力量，国王和统治者们会借助他们预测未来，或者至少是听取一些建议。如今我们生活在一个痴迷于将一切事情量化的社会里，这份工作就交给数据科学家了。

数据科学家通过使用统计模型、数值分析，以及统计学之外的高级算法，结合数据库里已经存在的数据，去发掘、推断和预测尚不存在的数据（有时是关于未来的数据）。这就是为什么我们要做这么多的预测分析和规划分析。

下面是一些可以借助数据科学家回答的问题：

哪些学生有旷课倾向？每个人旷课的原因分别是什么？
哪栋房子的售价比合理价格要高或者低？一栋房子的合理价格是多少？
如何将我们的客户按照潜在的特质进行分组？
这个孩子的早熟可能会在未来引发什么问题？
我们的呼叫中心在明天早上 11 点 43 分会接收到多少次呼叫？
我们的银行是否应该向这位客户发放贷款？

请注意，这些问题的答案是在任何数据库里都查询不到的，因为它们尚不存在，需要被计算出来才行。这就是我们数据科学家从事的工作。

在这篇文章中你会学习如何将 Fedora 系统打造成数据科学家的开发环境和生产系统。其中大多数基本软件都有 RPM 软件包，但是最先进的组件目前只能通过 Python 的 pip 工具安装。

Jupyter IDE

大多数现代数据科学家使用 Python 工作。他们工作中很重要的一部分是探索性数据分析 Exploratory Data Analysis （EDA）。EDA 是一种手动进行的、交互性的过程，包括提取数据、探索数据特征、寻找相关性、通过绘制图形进行数据可视化并理解数据的分布特征，以及实现原型预测模型。

Jupyter 是能够完美胜任该工作的一个 web 应用。Jupyter 使用的 Notebook 文件支持富文本，包括渲染精美的数学公式（得益于 mathjax）、代码块和代码输出（包括图形输出）。

Notebook 文件的后缀是 .ipynb，意思是“交互式 Python Notebook”。

搭建并运行 Jupyter

首先，使用 sudo 安装 Jupyter 核心软件包：

$ sudo dnf install python3-notebook mathjax sscg

你或许需要安装数据科学家常用的一些附加可选模块：

$ sudo dnf install python3-seaborn python3-lxml python3-basemap python3-scikit-image python3-scikit-learn python3-sympy python3-dask+dataframe python3-nltk

设置一个用来登录 Notebook 的 web 界面的密码，从而避免使用冗长的令牌。你可以在终端里任何一个位置运行下面的命令：

$ mkdir -p $HOME/.jupyter
$ jupyter notebook password

然后输入你的密码，这时会自动创建 $HOME/.jupyter/jupyter_notebook_config.json 这个文件，包含了你的密码的加密后版本。

接下来，通过使用 SSLby 为 Jupyter 的 web 服务器生成一个自签名的 HTTPS 证书：

$ cd $HOME/.jupyter; sscg

配置 Jupyter 的最后一步是编辑 $HOME/.jupyter/jupyter_notebook_config.json 这个文件。按照下面的模版编辑该文件：

{
   "NotebookApp": {
     "password": "sha1:abf58...87b",
     "ip": "*",
     "allow_origin": "*",
     "allow_remote_access": true,
     "open_browser": false,
     "websocket_compression_options": {},
     "certfile": "/home/aviram/.jupyter/service.pem",
     "keyfile": "/home/aviram/.jupyter/service-key.pem",
     "notebook_dir": "/home/aviram/Notebooks"
   }
}

/home/aviram/ 应该替换为你的文件夹。sha1:abf58...87b 这个部分在你创建完密码之后就已经自动生成了。service.pem 和 service-key.pem 是 sscg 生成的和加密相关的文件。

接下来创建一个用来存放 Notebook 文件的文件夹，应该和上面配置里 notebook_dir 一致：

$ mkdir $HOME/Notebooks

你已经完成了配置。现在可以在系统里的任何一个地方通过以下命令启动 Jupyter Notebook：

$ jupyter notebook

或者是将下面这行代码添加到 $HOME/.bashrc 文件，创建一个叫做 jn 的快捷命令：

alias jn='jupyter notebook'

运行 jn 命令之后，你可以通过网络内部的任何一个浏览器访问 <https://your-fedora-host.com:8888> （LCTT 译注：请将域名替换为服务器的域名），就可以看到 Jupyter 的用户界面了，需要使用前面设置的密码登录。你可以尝试键入一些 Python 代码和标记文本，看起来会像下面这样：

Jupyter with a simple notebook

除了 IPython 环境，安装过程还会生成一个由 terminado 提供的基于 web 的 Unix 终端。有人觉得这很实用，也有人觉得这样不是很安全。你可以在配置文件里禁用这个功能。

JupyterLab：下一代 Jupyter

JupyterLab 是下一代的 Jupyter，拥有更好的用户界面和对工作空间更强的操控性。在写这篇文章的时候 JupyterLab 还没有可用的 RPM 软件包，但是你可以使用 pip 轻松完成安装：

$ pip3 install jupyterlab --user
$ jupyter serverextension enable --py jupyterlab

然后运行 jupiter notebook 命令或者 jn 快捷命令。访问 <http://your-linux-host.com:8888/lab> （LCTT 译注：将域名替换为服务器的域名）就可以使用 JupyterLab 了。

数据科学家使用的工具

在下面这一节里，你将会了解到数据科学家使用的一些工具及其安装方法。除非另作说明，这些工具应该已经有 Fedora 软件包版本，并且已经作为前面组件所需要的软件包而被安装了。

Numpy

Numpy 是一个针对 C 语言优化过的高级库，用来处理大型的内存数据集。它支持高级多维矩阵及其运算，并且包含了 log()、exp()、三角函数等数学函数。

Pandas

在我看来，正是 Pandas 成就了 Python 作为数据科学首选平台的地位。Pandas 构建在 Numpy 之上，可以让数据准备和数据呈现工作变得简单很多。你可以把它想象成一个没有用户界面的电子表格程序，但是能够处理的数据集要大得多。Pandas 支持从 SQL 数据库或者 CSV 等格式的文件中提取数据、按列或者按行进行操作、数据筛选，以及通过 Matplotlib 实现数据可视化的一部分功能。

Matplotlib

Matplotlib 是一个用来绘制 2D 和 3D 数据图像的库，在图象注解、标签和叠加层方面都提供了相当不错的支持。

matplotlib pair of graphics showing a cost function searching its optimal value through a gradient descent algorithm

Seaborn

Seaborn 构建在 Matplotlib 之上，它的绘图功能经过了优化，更加适合数据的统计学研究，比如说可以自动显示所绘制数据的近似回归线或者正态分布曲线。

Linear regression visualised with SeaBorn

StatsModels

StatsModels 为统计学和经济计量学的数据分析问题（例如线形回归和逻辑回归）提供算法支持，同时提供经典的时间序列算法家族 ARIMA。

Normalized number of passengers across time (blue) and ARIMA-predicted number of passengers (red)

Scikit-learn

作为机器学习生态系统的核心部件，Scikit 为不同类型的问题提供预测算法，包括回归问题（算法包括 Elasticnet、Gradient Boosting、随机森林等等）、分类问题和聚类问题（算法包括 K-means 和 DBSCAN 等等），并且拥有设计精良的 API。Scikit 还定义了一些专门的 Python 类，用来支持数据操作的高级技巧，比如将数据集拆分为训练集和测试集、降维算法、数据准备管道流程等等。

XGBoost

XGBoost 是目前可以使用的最先进的回归器和分类器。它并不是 Scikit-learn 的一部分，但是却遵循了 Scikit 的 API。XGBoost 并没有针对 Fedora 的软件包，但可以使用 pip 安装。使用英伟达显卡可以提升 XGBoost 算法的性能，但是这并不能通过 pip 软件包来实现。如果你希望使用这个功能，可以针对 CUDA （LCTT 译注：英伟达开发的并行计算平台）自己进行编译。使用下面这个命令安装 XGBoost：

$ pip3 install xgboost --user

Imbalanced Learn

Imbalanced-learn 是一个解决数据欠采样和过采样问题的工具。比如在反欺诈问题中，欺诈数据相对于正常数据来说数量非常小，这个时候就需要对欺诈数据进行数据增强，从而让预测器能够更好地适应数据集。使用 pip 安装：

$ pip3 install imblearn --user

NLTK

Natural Language toolkit（简称 NLTK）是一个处理人类语言数据的工具，举例来说，它可以被用来开发一个聊天机器人。

SHAP

机器学习算法拥有强大的预测能力，但并不能够很好地解释为什么做出这样或那样的预测。SHAP 可以通过分析训练后的模型来解决这个问题。

Where SHAP fits into the data analysis process

使用 pip 安装：

$ pip3 install shap --user

Keras

Keras 是一个深度学习和神经网络模型的库，使用 pip 安装：

$ sudo dnf install python3-h5py
$ pip3 install keras --user

TensorFlow

TensorFlow 是一个非常流行的神经网络模型搭建工具，使用 pip 安装：

$ pip3 install tensorflow --user

Photo courtesy of FolsomNatural on Flickr (CC BY-SA 2.0).

via: https://fedoramagazine.org/jupyter-and-data-science-in-fedora/

作者：Avi Alkalay 选题：lujun9972 译者：chen-ni 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

对 Python 开发者而言，IPython 仍然是 Jupyter Notebook 的核心

Matthew Broberg 发布于 2019-07-06
另请参阅: 观点,Jupyter
2 条评论

Jupyter 项目提供的魔法般的开发体验很大程度上得益于它的 IPython 基因。

最近刚刚写过我为什么觉得觉得 Jupyter 项目（特别是 JupyterLab）提供了一种魔法般的 Python 开发体验。在研究这些不同项目之间的关联的时候，我回顾了一下 Jupyter 最初从 IPython 分支出来的这段历史。正如 Jupyter 项目的大拆分™ 声明所说:

“如果你不明白 Jupyter 是什么，这么说吧，它拥有和 IPython 同样的代码，并且是由同一批人开发的，只不过取了一个新名字、安了一个新家。”

下面这个注脚进一步说明了这一点：

“我从声明中解读出来的信息是，‘Jupyter 和 IPython 非常相似，但是拥有多种语言’，这也可以很好地解释为什么这个项目的名字已经不再需要包含 Python，因为当时它已经支持多种语言了。”

我明白 Jupyter Notebook 和 IPython 都是从同样的源代码里分支出来的，但是不太清楚 IPython 项目的现状。在大拆分™ 之后它是已经不再被需要了，还是在以另一种方式延续着？

后来我惊讶地发现，IPython 仍然不断在为 Python 使用者提供价值，它正是 Jupyter 体验的核心部分。下面是 Jupyter 常见问题页面的一段截取：

有什么语言是需要预装的吗？
是的，安装 Jupyter Notebook 会首先安装 IPython 内核。这样我们就可以在 notebook 上运行 Python 语言了。

现在我明白了，在 JupyterLab（以及 Jupyter Notebook）上编写 Python 程序仍然需要依赖 IPython 内核的持续开发。不仅如此，IPython 还充当了最为强大的默认内核的角色，根据这份文档，它是其它语言内核之间的枢纽，节省了很多开发时间和精力。

现在唯一的问题是，IPython 本身可以做什么呢？

IPython 如今的作用

IPython 提供了一个强大的、交互性的 Python shell，以及 Jupyter 的内核。安装完成之后，我可以在任何命令行运行 ipython 本身，将它当作一个（比默认 Python shell 好太多的）Python shell 来使用：

$ ipython
Python 3.7.3 (default, Mar 27 2019, 09:23:15)
Type 'copyright', 'credits' or 'license' for more information
IPython 7.4.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]: import numpy as np
In [2]: example = np.array([5, 20, 3, 4, 0, 2, 12])
In [3]: average = np.average(example)
In [4]: print(average)
6.571428571428571

这就让我们发现了一个更为重要的问题：是 IPython 让 JupyterLab 可以在项目中执行代码，并且支持了一系列被称为 Magic 的功能（感谢 Nicholas Reith 在我上一篇文章的评论里提到这点）。

IPython 让魔法成为现实

JupyterLab 和其它使用 IPython 的前端工具可以让你感觉像是在最喜欢的 IDE 或者是终端模拟器的环境下工作。我非常喜欢点文件快捷键功能，Magic 也有类似点文件的特征。比如说，可以试一下 %bookmark 这个命令。我把默认开发文件夹 ~/Develop 关联到了一个可以在任何时候直接跳转的快捷方式上。

title=

%bookmark、%cd，以及我在前一篇文章里介绍过的 ! 操作符，都是由 IPython 支持的。正如这篇文档所说：

Jupyter 用户你们好：Magic 功能是 IPython 内核提供的专属功能。一个内核是否支持 Magic 功能是由该内核的开发者针对该内核所决定的。

写在最后

作为一个好奇的新手，我之前并不是特别确定 IPython 是否仍然和 Jupyter 生态还有任何联系。现在我对 IPython 的持续开发有了新的认识和，并且意识到它正是 JupyterLab 强大的用户体验的来源。这也是相当有才华的一批贡献者进行最前沿研究的成果，所以如果你在学术论文中使用到了 Jupyter 项目的话别忘了引用他们。为了方便引用，他们还提供了一个现成的引文。

如果你在考虑参与哪个开源项目的贡献的话，一定不要忘了 IPython 哦。记得看看最新发布说明，在这里可以找到 Magic 功能的完整列表。

via: https://opensource.com/article/19/6/ipython-still-heart-jupyterlab

作者：Matthew Broberg 选题：lujun9972 译者：chen-ni 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

Jupyter Notebooks 入门

Don Watkins 发布于 2018-05-21
另请参阅: 分享,笔记, IPython, Jupyter
评论

通过 Jupyter 使用实时代码、方程式和可视化及文本创建交互式的共享笔记本。

自从有了纸莎草纸以来，出版人们一直在努力以吸引读者的方式来格式化数据。尤其是在数学、科学、和编程领域，设计良好的图表、插图和方程式可以成为帮助人们理解技术信息的关键。

Jupyter Notebook 通过重新构想我们如何制作教学文本来解决这个问题。Jupyter （我在 2017 年 10 月在 All Things Open 上首次了解到）是一款开源应用程序，它使用户能够创建包含实时代码、方程式、可视化和文本的交互式共享笔记本。

Jupyter 从 IPython 项目发展而来，它是个具有交互式 shell 和基于浏览器的笔记本，支持代码、文本和数学表达式。Jupyter 支持超过 40 种编程语言，包括 Python、R 和 Julia，其代码可以导出为 HTML、LaTeX、PDF、图像和视频，或者作为 IPyhton 笔记本与其他用户共享。

一个有趣的事实是：“Jupyter” 是 “Julia、Python 和 R” 的缩写。

根据 Jupyter 项目网站介绍，它的一些用途包括“数据清理和转换，数值模拟，统计建模，数据可视化，机器学习等等”。科学机构正在使用 Jupyter Notebooks 来解释研究结果。代码可以来自实际数据，可以调整和重新调整以可视化成不同的结果和情景。通过这种方式，Jupyter Notebooks 变成了生动的文本和报告。

安装并开始 Jupyter

Jupyter 软件是开源的，其授权于修改过的 BSD 许可证，它可以安装在 Linux、MacOS 或 Windows 上。有很多种方法可以安装 Jupyter；我在 Linux 和 MacOS 上试过 PIP 和 Anaconda 安装方式。PIP 安装要求你的计算机上已经安装了 Python；Jupyter 推荐 Python 3。

由于 Python 3 已经安装在我的电脑上，我通过在终端（在 Linux 或 Mac 上）运行以下命令来安装 Jupyter：

$ python3 -m pip install --upgrade pip
$ python3 -m pip install jupyter

在终端提示符输入以下命令立即启动应用程序：

$ jupyter notebook

很快，我的浏览器打开并显示了我在 http://localhost:8888 的 Jupyter Notebook 服务器。（支持的浏览器有 Google Chrome、Firefox 和 Safari）

在右上角有一个标有 “New” 的下拉菜单，它使我能够根据自己的指示和代码快速创建新的笔记本。请注意，我的新笔记本默认为 Python 3，这是我目前的环境。

一个带有一些默认值的新笔记本，它可以被改变（包括笔记本的名字），已打开。

笔记本有两种不同的模式：“命令模式”和“编辑模式”。命令模式允许你添加或删除单元格。你可以通过按下 Escape 键进入命令模式，按 Enter 键或单击单元格进入编辑模式。

单元格周围的绿色高亮显示你处于编辑模式，蓝色高亮显示你处于命令模式。以下笔记本处于命令模式并准备好执行单元中的 Python 代码。注意，我已将笔记本的名称更改为 “First Notebook”。

使用 Jupyter

Jupyter Notebooks 的强大之处在于除了能够输入代码之外，你还可以用 Markdown 添加叙述性和解释性文本。我想添加一个标题，所以我在代码上面添加了一个单元格，并以 Markdown 输入了一个标题。当我按下 Ctrl+Enter 时，我的标题转换为 HTML。（LCTT 译注：或者可以按下 Run 按钮。）

我可以通过在命令前追加 ! 来添加 Bash 命令或脚本的输出。

我也可以利用 IPython 的 line magic 和 cell magic 命令。你可以通过在代码单元内附加 % 或 %% 符号来列出魔术命令。例如，%lsmagic 将输出所有可用于 Jupyter notebooks 的魔法命令。

这些魔术命令的例子包括 %pwd——它输出当前工作目录（例如 /Users/YourName）和 %ls——它列出当前工作目录中的所有文件和子目录。另一个神奇命令显示从笔记本中的 matplotlib 生成的图表。%%html 将该单元格中的任何内容呈现为 HTML，这对嵌入视频和链接很有用，还有 JavaScript 和 Bash 的单元魔术命令。

如果你需要更多关于使用 Jupyter Notebooks 和它的特性的信息，它的帮助部分是非常完整的。

人们用许多有趣的方式使用 Jupyter Notebooks；你可以在这个展示栏目里找到一些很好的例子。你如何使用 Jupyter 笔记本？请在下面的评论中分享你的想法。

via: https://opensource.com/article/18/3/getting-started-jupyter-notebooks

作者：Don Watkins 选题：lujun9972 译者：MjSeven 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出