分类软件开发下的文章

Python 处理错误的原则

Moshe Zadka 发布于 2021-01-28
另请参阅: 软件开发,错误, 异常
评论

这是 Python 之禅特别系列的一部分，重点是第十和第十一条原则：沉默的错误（或不沉默）。

title=

处理“异常情况”是编程中争论最多的问题之一。这可能是因为风险很大：处理不当的错误值甚至可以使庞大的系统瘫痪。由于“异常情况”从本质上来说，是测试不足的，但发生的频率却令人不快，因此，是否正确处理它们往往可以将一个噩梦般的系统与一个“可以工作”的系统区分开来。

从 Java 的 checked 异常，到 Erlang 的故障隔离，再到 Haskell 的 Maybe，不同的语言对错误处理的态度截然不同。

这两条 Python 之禅是 Python 对这个话题的冥思。

错误绝不应该悄悄传递... Errors should never pass silently…

当 Python 之禅在 Tim Peters 眼里闪烁而出之前，在维基百科被俗称为“维基”之前，第一个维基网站 C2 就已经存在了，它是一个编程指南的宝库。这些原则大多来自于 Smalltalk 编程社区。Smalltalk 的思想影响了许多面向对象的语言，包括 Python。

C2 维基定义了武士原则 Samurai Principle ：“胜利归来，要么不归。”用 Python 人的术语来说，它鼓励摒弃哨兵值 sentinel value ，比如用返回 None 或 -1 来表示无法完成任务，而是采用引发异常的方式。一个 None 是无声的：它看起来像一个值，可以放在一个变量中，然后到处传递。有时，它甚至是一个有效的返回值。

这里的原则是，如果一个函数不能完成它的契约，它应该“高调失败”：引发一个异常。所引发的异常永远不会看起来像是一个可能的值。它将跳过 returned_value = call_to_function(parameter) 行，并上升到调用栈中，可能使程序崩溃。

崩溃的调试是很直接的：有一个堆栈跟踪来指示问题以及调用堆栈。崩溃可能意味着程序的必要条件没有满足，需要人为干预。它可能意味着程序的逻辑有问题。无论是哪种情况，高调失败都比一个隐藏的、“缺失”的值要好。用 None 来感染程序的有效数据，直到它被用在某个地方，就如你可能已经知道的，错误信息会说 “None 没有方法进行拆分”。

除非显式消除 Unless explicitly silenced

有时需要显式地捕获异常。我们可能会预见到文件中的某些行格式错误，并希望以特殊的方式来处理它们，也许可以把它们放在一个“需要人来看看的行”的文件中，而不是让整个程序崩溃。

Python 允许我们用 except 来捕获异常。这意味着错误可以被显式消除。这种明确性意味着 except 行在代码审查中是可见的。质疑为什么应该在这里显式消除异常并从异常中恢复，是有意义的。自问一下我们是否捕获了太多或太少的异常也是有意义的。

因为这些全都是明确的，所以有人可以阅读代码并了解哪些异常是可以恢复的。

via: https://opensource.com/article/19/12/zen-python-errors

作者：Moshe Zadka 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

编写 Python 代码时要有所取舍

Moshe Zadka 发布于 2021-01-26
另请参阅: 软件开发,python
评论

本文是 Python 之禅特别系列的一部分，重点此篇着眼于第七、八、九条原则：可读性、特殊情况和实用性。

title=

软件开发是一门充满了取舍的学科。每一个选择，都有一个同样合理但相反的选择。将一个方法私有化？你在鼓励复制粘贴。将一个方法公开？你在过早地对一个接口做出承诺。

软件开发者每时每刻都在做艰难的选择。虽然 Python 之禅中的所有原则都在一定程度上涵盖了权衡，但下面的原则对一些权衡进行了最艰难、最冷酷的审视。

可读性很重要 Readability counts

从某种意义上说，这一中间原则确实是整个 Python 之禅的中心。这条原则与编写高效的程序无关。在大多数情况下，它甚至与编写健壮的程序也无关。它讲的是编写出别人能读懂的程序。

阅读代码，就其本质而言，发生在代码被添加到系统中之后。通常，它会发生在很久很久以后。忽略可读性是最简单的选择，因为它对现在没有伤害。无论添加新代码的原因是什么，它都会对现在造成影响，无论是一个令人痛苦的 bug 还是一个被强烈要求的功能。

如果面对巨大的压力，把可读性扔到一边，只管“解决问题”，而 Python 之禅提醒我们：可读性很重要。编写代码让它适合阅读，无论是对自己还是他人，都是一种慈悲。

特殊情况不足以违反规则 Special cases aren't special enough to break the rules

总是有各种借口：这个 bug 特别麻烦，先简单处理一下吧；这个功能特别紧急，别管美观了；这种情况下所涉及的领域规则特别复杂，嵌套深点也没关系。

一旦我们对特例的借口妥协，大坝就会破裂，就丧失了原则；事情就会演变成一个疯狂麦克斯的荒诞症，每个程序员都会为自己试图找到最好的借口。

纪律需要承诺。只有当事情艰辛、有强烈的诱惑时，才是对一个软件开发人员的考验。总是有合理的借口来破坏规则，这就是为什么必须坚守规矩的原因。纪律就是向例外说不的艺术。没有任何解释可以改变这一点。

虽然，实用性胜过纯洁性 Although, practicality beats purity

“如果你只想着击打、弹跳、撞击、触碰敌人，你将无法真正打倒他。” —— 《宫本武藏：水之卷》

归根结底，软件开发是一门实用的学科。它的目标是解决真实的人所面临的实际问题。实用性比纯粹性更重要：首先，我们必须解决问题。如果我们只考虑可读性、简单性或美观性，我们将无法真正解决问题。

正如宫本武藏所说的，每一次代码修改的首要目标应该是解决问题。这个问题需要我们心心念念地去解决它。如果我们不以解决问题为目标，只想着 Python 之禅，我们就辜负了这些原则。这是 Python 之禅所固有的另一种矛盾。

via: https://opensource.com/article/19/12/zen-python-trade-offs

作者：Moshe Zadka 选题：lujun9972 译者：wxy 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

利用 Python 爬取网站的新手指南

Julia Piaskowski 发布于 2021-01-24
另请参阅: 软件开发,爬取
评论

通过基本的 Python 工具获得爬取完整 HTML 网站的实践经验。

title=

有很多很棒的书可以帮助你学习 Python ，但是谁真正读了这那些大部头呢？（剧透：反正不是我）。

许多人觉得教学书籍很有用，但我通常不会从头到尾地阅读一本书来学习。我是通过做一个项目，努力的弄清楚一些内容，然后再读另一本书来学习。因此，暂时丢掉书，让我们一起学习 Python。

接下来是我的第一个 Python 爬取项目的指南。它对 Python 和 HTML 的假定知识要求很低。这篇文章旨在说明如何使用 Python 的 requests 库访问网页内容，并使用 BeatifulSoup4 库以及 JSON 和 pandas 库解析网页内容。我将简要介绍 Selenium 库，但我不会深入研究如何使用该库——这个主题值得有自己的教程。最终，我希望向你展示一些技巧和小窍门，以减少网页爬取过程中遇到的问题。

安装依赖

我的 GitHub 存储库中提供了本指南的所有资源。如果需要安装 Python3 的帮助，请查看 Linux、Windows 和 Mac 的教程。

$ python3 -m venv
$ source venv/bin/activate
$ pip install requests bs4 pandas

如果你喜欢使用 JupyterLab ，则可以使用 notebook 运行所有代码。安装 JupyterLab 有很多方法，这是其中一种：

# from the same virtual environment as above, run:
$ pip install jupyterlab

为网站抓取项目设定目标

现在我们已经安装了依赖项，但是爬取网页需要做什么？

让我们退一步，确保使目标清晰。下面是成功完成网页爬取项目需求列表：

我们收集的信息，是值得我们花大力气去建立一个有效的网页爬取器的。
我们所下载的信息是可以通过网页爬取器合法和道德地收集的。
对如何在 HTML 代码中找到目标信息有一定的了解。
利用恰当的工具：在此情况下，需要使用 BeautifulSoup 库和 requests 库。
知道（或愿意去学习）如何解析 JSON 对象。
有足够的 pandas 数据处理技能。

关于 HTML 的备注：HTML 是运行在互联网上的“猛兽”，但我们最需要了解的是标签的工作方式。标签是一对由尖括号包围关键词（一般成对出现，其内容在两个标签中间）。比如，这是一个假装的标签，称为 pro-tip：

<pro-tip> All you need to know about html is how tags work </pro-tip>

我们可以通过调用标签 pro-tip 来访问其中的信息（All you need to know…）。本教程将进一步介绍如何查找和访问标签。要进一步了解 HTML 基础知识，请查看本文。

网站爬取项目中要找的是什么

有些数据利用网站爬取采集比利用其他方法更合适。以下是我认为合适项目的准则：

没有可用于数据（处理）的公共 API。通过 API 抓取结构化数据会容易得多，（所以没有 API ）有助于澄清收集数据的合法性和道德性。而有相当数量的结构化数据，并有规律的、可重复的格式，才能证明这种努力的合理性。网页爬取可能会很痛苦。BeautifulSoup（bs4）使操作更容易，但无法避免网站的个别特殊性，需要进行定制。数据的相同格式化不是必须的，但这确实使事情变得更容易。存在的 “边际案例”（偏离规范）越多，爬取就越复杂。

免责声明：我没有参加过法律培训；以下内容无意作为正式的法律建议。

关于合法性，访问大量有价值信息可能令人兴奋，但仅仅因为它是可能的，并不意味着应该这样做。

值得庆幸的是，有一些公共信息可以指导我们的道德规范和网页爬取工具。大多数网站都有与该网站关联的 robots.txt 文件，指出允许哪些爬取活动，哪些不被允许。它主要用于与搜索引擎（网页抓取工具的终极形态）进行交互。然而，网站上的许多信息都被视为公共信息。因此，有人将 robots.txt 文件视为一组建议，而不是具有法律约束力的文档。 robots.txt 文件并不涉及数据的道德收集和使用等主题。

在开始爬取项目之前，问自己以下问题：

我是否在爬取版权材料？
我的爬取活动会危害个人隐私吗？
我是否发送了大量可能会使服务器超载或损坏的请求？
爬取是否会泄露出我不拥有的知识产权？
是否有规范网站使用的服务条款，我是否遵循了这些条款？
我的爬取活动会减少原始数据的价值吗？（例如，我是否打算按原样重新打包数据，或者可能从原始来源中抽取网站流量）？

当我爬取一个网站时，请确保可以对所有这些问题回答 “否”。

要深入了解这些法律问题，请参阅 2018 年出版的 Krotov 和 Silva 撰写的《Web 爬取的合法性和道德性》和 Sellars 的《二十年 Web 爬取和计算机欺诈与滥用法案》。

现在开始爬取网站

经过上述评估，我想出了一个项目。我的目标是爬取爱达荷州所有 Family Dollar 商店的地址。这些商店在农村地区规模很大，因此我想了解有多少家这样的商店。

起点是 Family Dollar 的位置页面

title=

首先，让我们在 Python 虚拟环境中加载先决条件。此处的代码将被添加到一个 Python 文件（如果你想要个名称，则为 scraper.py）或在 JupyterLab 的单元格中运行。

import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization

接下来，我们从目标 URL 中请求数据。

page = requests.get("https://locations.familydollar.com/id/")
soup = BeautifulSoup(page.text, 'html.parser')

BeautifulSoup 将 HTML 或 XML 内容转换为复杂树对象。这是我们将使用的几种常见对象类型。

BeautifulSoup —— 解析的内容
Tag —— 标准 HTML 标记，这是你将遇到的 bs4 元素的主要类型
NavigableString —— 标签内的文本字符串
Comment —— NavigableString 的一种特殊类型

当我们查看 requests.get() 输出时，还有更多要考虑的问题。我仅使用 page.text() 将请求的页面转换为可读的内容，但是还有其他输出类型：

page.text() 文本（最常见）
page.content() 逐字节输出
page.json() JSON 对象
page.raw() 原始套接字响应（对你没啥用）

我只在使用拉丁字母的纯英语网站上操作。 requests 中的默认编码设置可以很好地解决这一问题。然而，除了纯英语网站之外，就是更大的互联网世界。为了确保 requests 正确解析内容，你可以设置文本的编码：

page = requests.get(URL)
page.encoding = 'ISO-885901'
soup = BeautifulSoup(page.text, 'html.parser')

仔细研究 BeautifulSoup 标签，我们看到:

bs4 元素 tag 捕获的是一个 HTML 标记。
它具有名称和属性，可以像字典一样访问：tag['someAttribute']。
如果标签具有相同名称的多个属性，则仅访问第一个实例。
可通过 tag.contents 访问子标签。
所有标签后代都可以通过 tag.contents 访问。
你始终可以使用以下字符串：re.compile("your_string") 访问一个字符串的所有内容，而不是浏览 HTML 树。

确定如何提取相应内容

警告：此过程可能令人沮丧。

网站爬取过程中的提取可能是一个令人生畏的充满了误区的过程。我认为解决此问题的最佳方法是从一个有代表性的示例开始然后进行扩展（此原理对于任何编程任务都是适用的）。查看页面的 HTML 源代码至关重要。有很多方法可以做到这一点。

你可以在终端中使用 Python 查看页面的整个源代码（不建议使用）。运行此代码需要你自担风险：

print(soup.prettify())

虽然打印出页面的整个源代码可能适用于某些教程中显示的玩具示例，但大多数现代网站的页面上都有大量内容。甚至 404 页面也可能充满了页眉、页脚等代码。

通常，在你喜欢的浏览器中通过 “查看页面源代码” 来浏览源代码是最容易的（单击右键，然后选择 “查看页面源代码” ）。这是找到目标内容的最可靠方法（稍后我将解释原因）。

title=

在这种情况下，我需要在这个巨大的 HTML 海洋中找到我的目标内容 —— 地址、城市、州和邮政编码。通常，对页面源（ctrl+F）的简单搜索就会得到目标位置所在的位置。一旦我实际看到目标内容的示例（至少一个商店的地址），便会找到将该内容与其他内容区分开的属性或标签。

首先，我需要在爱达荷州 Family Dollar 商店中收集不同城市的网址，并访问这些网站以获取地址信息。这些网址似乎都包含在 href 标记中。太棒了！我将尝试使用 find_all 命令进行搜索：

dollar_tree_list = soup.find_all('href')
dollar_tree_list

搜索 href 不会产生任何结果，该死。这可能是因为 href 嵌套在 itemlist 类中而失败。对于下一次尝试，请搜索 item_list。由于 class 是 Python 中的保留字，因此使用 class_ 来作为替代。soup.find_all() 原来是 bs4 函数的瑞士军刀。

dollar_tree_list = soup.find_all(class_ = 'itemlist')
for i in dollar_tree_list[:2]:
  print(i)

有趣的是，我发现搜索一个特定类的方法一般是一种成功的方法。通过找出对象的类型和长度，我们可以了解更多有关对象的信息。

type(dollar_tree_list)
len(dollar_tree_list)

可以使用 .contents 从 BeautifulSoup “结果集” 中提取内容。这也是创建单个代表性示例的好时机。

example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)

使用 .attr 查找该对象内容中存在的属性。注意：.contents 通常会返回一个项目的精确的列表，因此第一步是使用方括号符号为该项目建立索引。

example_content = example.contents[0]
example_content.attrs

现在，我可以看到 href 是一个属性，可以像字典项一样提取它：

example_href = example_content['href']
print(example_href)

整合网站抓取工具

所有的这些探索为我们提供了前进的路径。这是厘清上面逻辑的一个清理版本。

city_hrefs = [] # initialise empty list

for i in dollar_tree_list:
    cont = i.contents[0]
    href = cont['href']
    city_hrefs.append(href)

#  check to be sure all went well
for i in city_hrefs[:2]:
  print(i)

输出的内容是一个关于抓取爱达荷州 Family Dollar 商店 URL 的列表。

也就是说，我仍然没有获得地址信息！现在，需要抓取每个城市的 URL 以获得此信息。因此，我们使用一个具有代表性的示例重新开始该过程。

page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, 'html.parser')

title=

地址信息嵌套在 type="application/ld+json" 里。经过大量的地理位置抓取之后，我开始认识到这是用于存储地址信息的一般结构。幸运的是，soup.find_all() 开启了利用 type 搜索。

arco = soup2.find_all(type="application/ld+json")
print(arco[1])

地址信息在第二个列表成员中！原来如此！

使用 .contents 提取（从第二个列表项中）内容（这是过滤后的合适的默认操作）。同样，由于输出的内容是一个列表，因此我为该列表项建立了索引：

arco_contents = arco[1].contents[0]
arco_contents

喔，看起来不错。此处提供的格式与 JSON 格式一致（而且，该类型的名称中确实包含 “json”）。 JSON 对象的行为就像是带有嵌套字典的字典。一旦你熟悉利用其去工作，它实际上是一种不错的格式（当然，它比一长串正则表达式命令更容易编程）。尽管从结构上看起来像一个 JSON 对象，但它仍然是 bs4 对象，需要通过编程方式转换为 JSON 对象才能对其进行访问：

arco_json =  json.loads(arco_contents)

type(arco_json)
print(arco_json)

在该内容中，有一个被调用的 address 键，该键要求地址信息在一个比较小的嵌套字典里。可以这样检索：

arco_address = arco_json['address']
arco_address

好吧，请大家注意。现在我可以遍历存储爱达荷州 URL 的列表：

locs_dict = [] # initialise empty list

for link in city_hrefs:
  locpage = requests.get(link)   # request page info
  locsoup = BeautifulSoup(locpage.text, 'html.parser')
      # parse the page's content
  locinfo = locsoup.find_all(type="application/ld+json")
      # extract specific element
  loccont = locinfo[1].contents[0]  
      # get contents from the bs4 element set
  locjson = json.loads(loccont)  # convert to json
  locaddr = locjson['address'] # get address
  locs_dict.append(locaddr) # add address to list

用 Pandas 整理我们的网站抓取结果

我们在字典中装载了大量数据，但是还有一些额外的无用项，它们会使重用数据变得比需要的更为复杂。要执行最终的数据组织，我们需要将其转换为 Pandas 数据框架，删除不需要的列 @type 和 country，并检查前五行以确保一切正常。

locs_df = df.from_records(locs_dict)
locs_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
locs_df.head(n = 5)

确保保存结果！！

df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)

我们做到了！所有爱达荷州 Family Dollar 商店都有一个用逗号分隔的列表。多令人兴奋。

Selenium 和数据抓取的一点说明

Selenium 是用于与网页自动交互的常用工具。为了解释为什么有时必须使用它，让我们来看一个使用 Walgreens 网站的示例。 “检查元素” 提供了浏览器显示内容的代码：

title=

虽然 “查看页面源代码” 提供了有关 requests 将获得什么内容的代码：

title=

如果这两个不一致，是有一些插件可以修改源代码 —— 因此，应在将页面加载到浏览器后对其进行访问。requests 不能做到这一点，但是 Selenium 可以做到。

Selenium 需要 Web 驱动程序来检索内容。实际上，它会打开 Web 浏览器，并收集此页面的内容。Selenium 功能强大 —— 它可以通过多种方式与加载的内容进行交互（请阅读文档）。使用 Selenium 获取数据后，继续像以前一样使用 BeautifulSoup：

url = "https://www.walgreens.com/storelistings/storesbycity.jsp?requestType=locator&state=ID"
driver = webdriver.Firefox(executable_path = 'mypath/geckodriver.exe')
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, 'html.parser')
store_link_soup = soup_ID.find_all(class_ = 'col-xl-4 col-lg-4 col-md-4')

对于 Family Dollar 这种情形，我不需要 Selenium，但是当呈现的内容与源代码不同时，我确实会保留使用 Selenium。

小结

总之，使用网站抓取来完成有意义的任务时：

耐心一点
查阅手册（它们非常有帮助）

如果你对答案感到好奇：

title=

美国有很多 Family Dollar 商店。

完整的源代码是：

import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as df

page = requests.get("https://www.familydollar.com/locations/")
soup = BeautifulSoup(page.text, 'html.parser')

# find all state links
state_list = soup.find_all(class_ = 'itemlist')

state_links = []

for i in state_list:
    cont = i.contents[0]
    attr = cont.attrs
    hrefs = attr['href']
    state_links.append(hrefs)

# find all city links
city_links = []

for link in state_links:
    page = requests.get(link)
    soup = BeautifulSoup(page.text, 'html.parser')
    familydollar_list = soup.find_all(class_ = 'itemlist')
    for store in familydollar_list:
        cont = store.contents[0]
        attr = cont.attrs
        city_hrefs = attr['href']
        city_links.append(city_hrefs)
# to get individual store links
store_links = []

for link in city_links:
    locpage = requests.get(link)
    locsoup = BeautifulSoup(locpage.text, 'html.parser')
    locinfo = locsoup.find_all(type="application/ld+json")
    for i in locinfo:
        loccont = i.contents[0]
        locjson = json.loads(loccont)
        try:
            store_url = locjson['url']
            store_links.append(store_url)
        except:
            pass

# get address and geolocation information
stores = []

for store in store_links:
    storepage = requests.get(store)
    storesoup = BeautifulSoup(storepage.text, 'html.parser')
    storeinfo = storesoup.find_all(type="application/ld+json")
    for i in storeinfo:
        storecont = i.contents[0]
        storejson = json.loads(storecont)
        try:
            store_addr = storejson['address']
            store_addr.update(storejson['geo'])
            stores.append(store_addr)
        except:
            pass

# final data parsing
stores_df = df.from_records(stores)
stores_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
stores_df['Store'] = "Family Dollar"

df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)

作者注释：本文改编自 2020 年 2 月 9 日在俄勒冈州波特兰的我在 PyCascades 的演讲。

via: https://opensource.com/article/20/5/web-scraping-python

作者：Julia Piaskowski 选题：lujun9972 译者：stevenzdg988 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用 Java 构建你自己的文本编辑器

Seth Kenlon 发布于 2021-01-21
另请参阅: 软件开发,编辑器
评论

有时候，除你自己外，没有人能制作你所梦想的工具。以下是如何开始构建你自己的文本编辑器。

title=

有很多文本编辑器。有运行在终端中、运行在 GUI 中、运行在浏览器和浏览器引擎中的。有很多是还不错，有一些则是极好的。但是有时候，毫无疑问，最令人满意的就是你自己构建的编辑器。

毫无疑问：构建一个真正优秀的文本编辑器比表面上看上去要困难得多。但话说回来，建立一个基本的文本编辑器也不像你担心的那样难。事实上，大多数编程工具包已经为你准备好了文本编辑器的大部分组件。围绕文本编辑的组件，例如菜单条，文件选择对话框等等，是很容易落到实处。因此，虽然是中级的编程课程，但构建一个基本的文本编辑器是出乎意料的有趣和简明。你可能会发现自己渴望使用一个自己构造的工具，而且你使用得越多，你可能会有更多的灵感来增加它的功能，从而更多地学习你正在使用的编程语言。

为了使这个练习切合实际，最好选择一种具有令人满意的 GUI 工具箱的语言。有很多种选择，包括 Qt 、FLTK 或 GTK ，但是一定要先评审一下它的文档，以确保它有你所期待的功能。对于这篇文章来说，我使用 Java 以及其内置的 Swing 小部件集。如果你想使用一种不同的语言或者一种不同的工具集，这篇文章在如何帮你处理这种问题的方面也仍然是有用的。

不管你选择哪一种，在任何主要的工具箱中编写一个文本编辑器都是惊人的相似。如果你是 Java 新手，需要更多关于开始的信息，请先阅读我的猜谜游戏文章。

工程设置

通常，我使用并推荐像 Netbeans 或 Eclipse 这样的 IDE，但我发现，当学习一种新的语言时，手工做一些工作是很有帮助的，这样你就能更好地理解使用 IDE 时被隐藏起来的东西。在这篇文章中，我假设你正在使用文本编辑器和终端进行编程。

在开始前，为你自己的工程创建一个工程目录。在工程文件夹中，创建一个名称为 src 的目录来容纳你的源文件。

$ mkdir -p myTextEditor/src
$ cd myTextEditor

在你的 src 目录中创建一个名称为 TextEdit.java 的空白的文件：

$ touch src/TextEditor.java

在你最喜欢的文本编辑器中打开这个空白的文件（我的意思是除你自己编写之外的最喜欢的一款文本编辑器），然后准备好编码吧！

包和导入

为确保你的 Java 应用程序有一个唯一的标识符，你必须声明一个 package 名称。典型的格式是使用一个反向的域名，如果你真的有一个域名的话，这就特别容易了。如果你没有域名的话，你可以使用 local 作为最顶层。像 Java 和很多语言一样，行以分号结尾。

在命名你的 Java 的 package 后，你必须告诉 Java 编译器（javac）使用哪些库来构建你的代码。事实上，这通常是你边编写代码边添加的内容，因为你很少事先知道你自己所需要的库。然而，这里有一些库是显而易见的。例如，你知道这个文本编辑器是基于 Swing GUI 工具箱的，因此，导入 javax.swing.JFrame 和javax.swing.UIManager 和其它相关的特定库。

package com.example.textedit;

import javax.swing.JFileChooser;
import javax.swing.JFrame;
import javax.swing.JMenu;
import javax.swing.JMenuBar;
import javax.swing.JMenuItem;
import javax.swing.JOptionPane;
import javax.swing.JTextArea;
import javax.swing.UIManager;
import javax.swing.UnsupportedLookAndFeelException;
import javax.swing.filechooser.FileSystemView;
import java.awt.Component;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Scanner;
import java.util.logging.Level;
import java.util.logging.Logger;

对于这个练习的目标，你可以提前预知你所需要的所有的库。在真实的生活中，不管你喜欢哪一种语言，你都将在研究如何解决一些问题的时候发现库，然后，你将它导入到你的代码中，并使用它。不需要担心 —— 如果你忘记包含一个库，你的编译器或解释器将警告你！

主窗口

这是一个单窗口应用程序，因此这个应用程序的主类是一个 JFrame ，其附带有一个捕捉菜单事件的 ActionListener 。在 Java 中，当你使用一个现有的小部件元素时，你可以使用你的代码“扩展”它。这个主窗口需要三个字段：窗口本身（一个 JFrame 的实例）、一个用于文件选择器返回值的标识符和文本编辑器本身（JTextArea）。

public final class TextEdit extends JFrame implements ActionListener {
private static JTextArea area;
private static JFrame frame;
private static int returnValue = 0;

令人惊奇的是，这数行代码完成了实现一个基本文本编辑器的 80% 的工作，因为 JtextArea 是 Java 的文本输入字段。剩下的 80 行代码大部分用于处理辅助功能，比如保存和打开文件。

构建一个菜单

JMenuBar 小部件被设计到 JFrame 的顶部，它为你提供你想要的很多菜单项。Java 不是一种拖放式的编程语言，因此，对于你所添加的每一个菜单，你都还必须编写一个函数。为保持这个工程的可控性，我提供了四个函数：创建一个新的文件，打开一个现有的文件，保存文本到一个文件，和关闭应用程序。

在大多数流行的工具箱中，创建一个菜单的过程基本相同。首先，你创建菜单条本身，然后创建一个顶级菜单（例如 “File” ），再然后创建子菜单项（例如，“New”、“Save” 等）。

public TextEdit() { run(); }

public void run() {
    frame = new JFrame("Text Edit");

    // Set the look-and-feel (LNF) of the application
    // Try to default to whatever the host system prefers
    try {
      UIManager.setLookAndFeel(UIManager.getSystemLookAndFeelClassName());
    } catch (ClassNotFoundException | InstantiationException | IllegalAccessException | UnsupportedLookAndFeelException ex) {
      Logger.getLogger(TextEdit.class.getName()).log(Level.SEVERE, null, ex);
    }

    // Set attributes of the app window
    area = new JTextArea();
    frame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
    frame.add(area);
    frame.setSize(640, 480);
    frame.setVisible(true);

    // Build the menu
    JMenuBar menu_main = new JMenuBar();

    JMenu menu_file = new JMenu("File");

    JMenuItem menuitem_new = new JMenuItem("New");
    JMenuItem menuitem_open = new JMenuItem("Open");
    JMenuItem menuitem_save = new JMenuItem("Save");
    JMenuItem menuitem_quit = new JMenuItem("Quit");

    menuitem_new.addActionListener(this);
    menuitem_open.addActionListener(this);
    menuitem_save.addActionListener(this);
    menuitem_quit.addActionListener(this);

    menu_main.add(menu_file);

    menu_file.add(menuitem_new);
    menu_file.add(menuitem_open);
    menu_file.add(menuitem_save);
    menu_file.add(menuitem_quit);

    frame.setJMenuBar(menu_main);
    }

现在，所有剩余的工作是实施菜单项所描述的功能。

编程菜单动作

你的应用程序响应菜单选择，是因为你的 JFrame 有一个附属于它的 ActionListener 。在 Java 中，当你实施一个事件处理程序时，你必须“重写”其内建的函数。这只是听起来可怕。你不是在重写 Java；你只是在实现已经被定义但尚未实施事件处理程序的函数。

在这种情况下，你必须重写 actionPerformed方法。因为在 “File” 菜单中的所有条目都与处理文件有关，所以在我的代码中很早就定义了一个 JFileChooser 。代码其它部分被划分到一个 if 语句的子语句中，这起来像接收到什么事件就相应地执行什么动作。每个子语句都与其它的子语句完全不同，因为每个项目都标示着一些完全唯一的东西。最相似的是 “Open” 和 “Save”，因为它们都使用 JFileChooser 选择文件系统中的一个位置来获取或放置数据。

“New” 菜单会在没有警告的情况下清理 JTextArea ，“Quit” 菜单会在没有警告的情况下关闭应用程序。这两个 “功能” 都是不安全的，因此你应该想对这段代码进行一点改善，这是一个很好的开始。在内容还没有被保存前，一个友好的警告是任何一个好的文本编辑器都必不可少的一个功能，但是在这里为了简单，这是未来的一个功能。

@Override
public void actionPerformed(ActionEvent e) {
    String ingest = null;
    JFileChooser jfc = new JFileChooser(FileSystemView.getFileSystemView().getHomeDirectory());
    jfc.setDialogTitle("Choose destination.");
    jfc.setFileSelectionMode(JFileChooser.FILES_AND_DIRECTORIES);

    String ae = e.getActionCommand();
    if (ae.equals("Open")) {
        returnValue = jfc.showOpenDialog(null);
        if (returnValue == JFileChooser.APPROVE_OPTION) {
        File f = new File(jfc.getSelectedFile().getAbsolutePath());
        try{
            FileReader read = new FileReader(f);
            Scanner scan = new Scanner(read);
            while(scan.hasNextLine()){
                String line = scan.nextLine() + "\n";
                ingest = ingest + line;
        }
            area.setText(ingest);
        }
    catch ( FileNotFoundException ex) { ex.printStackTrace(); }
}
    // 保存
    } else if (ae.equals("Save")) {
        returnValue = jfc.showSaveDialog(null);
        try {
            File f = new File(jfc.getSelectedFile().getAbsolutePath());
            FileWriter out = new FileWriter(f);
            out.write(area.getText());
            out.close();
        } catch (FileNotFoundException ex) {
            Component f = null;
            JOptionPane.showMessageDialog(f,"File not found.");
        } catch (IOException ex) {
            Component f = null;
            JOptionPane.showMessageDialog(f,"Error.");
        }
    } else if (ae.equals("New")) {
        area.setText("");
    } else if (ae.equals("Quit")) { System.exit(0); }
  }
}

从技术上来说，这就是这个文本编辑器的全部。当然，并没有真正做什么，除此之外，在这里仍然有测试和打包步骤，因此仍然有很多时间来发现缺少的必需品。假设你没有注意到提示：在这段代码中肯定缺少一些东西。你现在知道缺少的是什么吗？（在猜谜游戏文章中被大量的提到。）

测试

你现在可以测试你的应用程序。从终端中启动你所编写的文本编辑器：

$ java ./src/TextEdit.java
error: can’t find main(String[]) method in class: com.example.textedit.TextEdit

它看起来像在代码中没有获得 main 方法。这里有一些方法来修复这个问题：你可以在 TextEdit.java 中创建一个 main 方法，并让它运行一个 TextEdit 类实例，或者你可以创建一个单独的包含 main 方法的文件。两种方法都可以工作，但从大型工程的预期来看，使用后者更为明智，因此，使用单独的文件与其一起工作使之成为一个完整的应用程序的方法是值得使用的。

在 src 中创建一个 Main.java 文件，并在最喜欢的编辑器中打开：

package com.example.textedit;

public class Main {
  public static void main(String[] args) {
  TextEdit runner = new TextEdit();
  }
}

你可以再次尝试，但是现在有两个相互依赖的文件要运行，因此你必须编译代码。Java 使用 javac 编译器，并且你可以使用 -d 选项来设置目标目录：

$ javac src/*java -d .

这会在你的软件包名称 com/example/textedit 后创建一个准确地模型化的新的目录结构。这个新的类路径包含文件 Main.class 和 TextEdit.class ，这两个文件构成了你的应用程序。你可以使用 java 并通过引用你的 Main 类的位置和名称（非文件名称）来运行它们：

$ java info/slackermedia/textedit/Main`

你的文本编辑器打开了，你可以在其中输入文字，打开文件，甚至保存你的工作。

title=

以 Java 软件包的形式分享你的工作

虽然一些程序员似乎看起来认可以各种各样的源文件的形式分发软件包，并鼓励其他人来学习如何运行它，但是，Java 让打包应用程序变得真地很容易，以至其他人可以很容易的运行它。你已经有了必备的大部分结构体，但是你仍然需要一些元数据到一个 Manifest.txt 文件中：

$ echo "Manifest-Version: 1.0" > Manifest.txt

用于打包的 jar 命令，与 tar 命令非常相似，因此很多选项对你来说可能会很熟悉。要创建一个 JAR 文件：

$ jar cvfme TextEdit.jar
Manifest.txt
com.example.textedit.Main
com/example/textedit/*.class

根据命令的语法，你可以推测出它会创建一个新的名称为 TextEdit.jar 的 JAR 文件，它所需要的清单数据位于 Manifest.txt 中。它的主类被定义为软件包名称的一个扩展，并且类自身是 com/example/textedit/Main.class 。

你可以查看 JAR 文件的内容：

$ jar tvf TextEdit.jar
0 Wed Nov 25 META-INF/
105 Wed Nov 25 META-INF/MANIFEST.MF
338 Wed Nov 25 com/example/textedit/textedit/Main.class
4373 Wed Nov 25 com/example/textedit/textedit/TextEdit.class

如果你想看看你的元数据是如何被集成到 MANIFEST.MF 文件中的，你甚至可以使用 xvf 选项来提取它。

使用 java 命令来运行你的 JAR 文件：

$ java -jar TextEdit.jar

你甚至可以创建一个桌面文件，这样，在单击应用程序菜单中的图标时，应用程序就会启动。

改进它

在当前状态下，这是一个非常基本的文本编辑器，最适合做快速笔记或简短自述文档。一些改进（比如添加垂直滚动条）只要稍加研究就能快速简单地完成，而另一些改进（比如实现一个广泛的偏好系统）则需要真正的工作。

但如果你一直在想学一种新的语言，这可能是一个完美的自我学习实用工程。创建一个文本编辑器，如你所见，它在代码方面并不难对付，它在一定范围是可控的。如果你经常使用文本编辑器，那么编写你自己的文本编辑器可能会使你满意和乐趣。因此打开你最喜欢的文本编辑器（你写的那个），开始添加功能吧！

via: https://opensource.com/article/20/12/write-your-own-text-editor

作者：Seth Kenlon 选题：lujun9972 译者：robsean 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

利用 ONLYOFFICE 将在线文档编辑器集成到 Python Web 应用程序中

Aashima Sharma 发布于 2021-01-21
另请参阅: 软件开发,ONLYOFFICE
评论

title=

ONLYOFFICE 是根据 GNU AGPL v.3 许可证条款分发的开源协作办公套件。它包含三个用于文本文档、电子表格和演示文稿的编辑器，并具有以下功能:

查看，编辑和协同编辑 .docx、.xlsx、.pptx 文件。OOXML 作为一种核心格式，可确保与 Microsoft Word、Excel 和 PowerPoint 文件的高度兼容性。
通过内部转换为 OOXML，编辑其他流行格式（.odt、.rtf、.txt、.html、.ods、.csv、.odp）。
熟悉的选项卡式界面。
协作工具：两种协同编辑模式（快速和严谨），跟踪更改，评论和集成聊天。
灵活的访问权限管理：完全访问权限、只读、审阅、表单填写和评论。
使用 API 构建附加组件。
250 种可用语言和象形字母表。

通过 API，开发人员可以将 ONLYOFFICE 编辑器集成到网站和利用程序设计语言编写的应用程序中，并能配置和管理编辑器。

要集成 ONLYOFFICE 编辑器，我们需要一个集成应用程序来连接编辑器（ONLYOFFICE 文档服务器）和服务。要在你的界面中使用编辑器，因该授予 ONLYOFFICE 以下权限：

添加并执行自定义代码。
用于下载和保存文件的匿名访问权限。这意味着编辑器仅与服务器端的服务通信，而不包括客户端的任何用户授权数据（浏览器 cookies）。
在用户界面添加新按钮（例如，“在 ONLYOFFICE 中打开”、“在 ONLYOFFICE 中编辑”）。
开启一个新页面，ONLYOFFICE 可以在其中执行脚本以添加编辑器。
能够指定文档服务器连接设置。

流行的协作解决方案的成功集成案例有很多，如 Nextcloud、ownCloud、Alfresco、Confluence 和 SharePoint，都是通过 ONLYOFFICE 提供的官方即用型连接器实现的。

实际的集成案例之一是 ONLYOFFICE 编辑器与以 C＃编写的开源协作平台的集成。该平台具有文档和项目管理、CRM、电子邮件聚合器、日历、用户数据库、博客、论坛、调查、Wiki 和即时通讯程序的功能。

将在线编辑器与 CRM 和项目模块集成，你可以：

文档关联到 CRM 时机和容器、项目任务和讨论，甚至创建一个单独的文件夹，其中包含与项目相关的文档、电子表格和演示文稿。
直接在 CRM 或项目模块中创建新的文档、工作表和演示文稿。
打开和编辑关联的文档，或者下载和删除。
将联系人从 CSV 文件批量导入到 CRM 中，并将客户数据库导出为 CSV 文件。

在“邮件”模块中，你可以关联存储在“文档模块”中的文件，或者将指向所需文档的链接插入到邮件正文中。当 ONLYOFFICE 用户收到带有附件的文档的消息时，他们可以：下载附件、在浏览器中查看文件、打开文件进行编辑或将其保存到“文档模块”。如上所述，如果格式不同于 OOXML ，则文件将自动转换为 .docx、.xlsx、.pptx，并且其副本也将以原始格式保存。

在本文中，你将看到 ONLYOFFICE 与最流行的编程语言之一的 Python 编写的文档管理系统的集成过程。以下步骤将向你展示如何创建所有必要的部分，以使在 DMS（文档管理系统 Document Management System ）界面内的文档中可以进行协同工作成为可能：查看、编辑、协同编辑、保存文件和用户访问管理，并可以作为服务的示例集成到 Python 应用程序中。

1、前置需求

首先，创建集成过程的关键组件：ONLYOFFICE 文档服务器和用 Python 编写的文件管理系统。

1.1、ONLYOFFICE 文档服务器

要安装 ONLYOFFICE 文档服务器，你可以从多个安装选项中进行选择：编译 GitHub 上可用的源代码，使用 .deb 或 .rpm 软件包亦或 Docker 镜像。

我们推荐使用下面这条命令利用 Docker 映像安装文档服务器和所有必需的依赖。请注意，选择此方法，你需要安装最新的 Docker 版本。

docker run -itd -p 80:80 onlyoffice/documentserver-de

1.2、利用 Python 开发 DMS

如果已经拥有一个，请检查它是否满足以下条件：

包含需要打开以查看/编辑的保留文件
允许下载文件

对于该应用程序，我们将使用 Bottle 框架。我们将使用以下命令将其安装在工作目录中：

pip install bottle

然后我们创建应用程序代码 main.py 和模板 index.tpl。

我们将以下代码添加到 main.py 文件中：

from bottle import route, run, template, get, static_file # connecting the framework and the necessary components
@route('/') # setting up routing for requests for /
def index():
    return template('index.tpl') # showing template in response to request

run(host="localhost", port=8080) # running the application on port 8080

一旦我们运行该应用程序，点击 http://localhost:8080 就会在浏览器上呈现一个空白页面。为了使文档服务器能够创建新文档，添加默认文件并在模板中生成其名称列表，我们应该创建一个文件夹 files 并将3种类型文件（.docx、.xlsx 和 .pptx）放入其中。

要读取这些文件的名称，我们使用 listdir 组件（模块）：

from os import listdir

现在让我们为文件夹中的所有文件名创建一个变量：

sample_files = [f for f in listdir('files')]

要在模板中使用此变量，我们需要通过 template 方法传递它：

def index():
    return template('index.tpl', sample_files=sample_files)

这是模板中的这个变量：

% for file in sample_files:
  <div>
    <span>{{file}}</span>
  </div>
% end

我们重新启动应用程序以查看页面上的文件名列表。

使这些文件可用于所有应用程序用户的方法如下：

@get("/files/<filepath:re:.*\.*>")
def show_sample_files(filepath):
    return static_file(filepath, root="files")

2、查看文档

所有组件准备就绪后，让我们添加函数以使编辑者可以利用应用接口操作。

第一个选项使用户可以打开和查看文档。连接模板中的文档编辑器 API ：

<script type="text/javascript" src="editor_url/web-apps/apps/api/documents/api.js"></script>

editor_url 是文档编辑器的链接接口。

打开每个文件以供查看的按钮：

<button onclick="view('files/{{file}}')">view</button>

现在我们需要添加带有 id 的 div 标签，打开文档编辑器：

<div id="editor"></div>

要打开编辑器，必须调用调用一个函数：

<script>
function view(filename) {
    if (/docx$/.exec(filename)) {
        filetype = "text"
    }
    if (/xlsx$/.exec(filename)) {
        filetype = "spreadsheet"
    }
    if (/pptx$/.exec(filename)) {
        filetype = "presentation",
        title: filename
    }

    new DocsAPI.DocEditor("editor",
        {
            documentType: filetype,
            document: {
                url: "host_url" + '/' + filename,
                title: filename
            },
            editorConfig: {mode: 'view'}
        });
  }
</script>

DocEditor 函数有两个参数：将在其中打开编辑器的元素 id 和带有编辑器设置的 JSON。在此示例中，使用了以下必需参数：

documentType 由其格式标识（.docx、.xlsx、.pptx 用于相应的文本、电子表格和演示文稿）
document.url 是你要打开的文件链接。
editorConfig.mode。

我们还可以添加将在编辑器中显示的 title。

接下来，我们可以在 Python 应用程序中查看文档。

3、编辑文档

首先，添加 “Edit”（编辑）按钮：

<button onclick="edit('files/{{file}}')">edit</button>

然后创建一个新功能，打开文件进行编辑。类似于查看功能。

现在创建 3 个函数：

<script>
    var editor;
    function view(filename) {
        if (editor) {
            editor.destroyEditor()
        }
        editor = new DocsAPI.DocEditor("editor",
            {
                documentType: get_file_type(filename),
                document: {
                    url: "host_url" + '/' + filename,
                    title: filename
                },
                editorConfig: {mode: 'view'}
            });
    }

    function edit(filename) {
        if (editor) {
            editor.destroyEditor()
        }
        editor = new DocsAPI.DocEditor("editor",
            {
                documentType: get_file_type(filename),
                document: {
                    url: "host_url" + '/' + filename,
                    title: filename
                }
            });
    }

    function get_file_type(filename) {
        if (/docx$/.exec(filename)) {
            return "text"
        }
        if (/xlsx$/.exec(filename)) {
            return "spreadsheet"
        }
        if (/pptx$/.exec(filename)) {
            return "presentation"
        }
    }
</script>

destroyEditor 被调用以关闭一个打开的编辑器。

你可能会注意到，edit() 函数中缺少 editorConfig 参数，因为默认情况下它的值是：{"mode":"edit"}。

现在，我们拥有了打开文档以在 Python 应用程序中进行协同编辑的所有功能。

4、如何在 Python 应用中利用 ONLYOFFICE 协同编辑文档

通过在编辑器中设置对同一文档使用相同的 document.key 来实现协同编辑。如果没有此键值，则每次打开文件时，编辑器都会创建编辑会话。

为每个文档设置唯一键，以使用户连接到同一编辑会话时进行协同编辑。密钥格式应为以下格式：filename +"_key"。下一步是将其添加到当前文档的所有配置中。

document: {
    url: "host_url" + '/' + filepath,
    title: filename,
    key: filename + '_key'
},

5、如何在 Python 应用中利用 ONLYOFFICE 保存文档

每次我们更改并保存文件时，ONLYOFFICE 都会存储其所有版本。让我们仔细看看它是如何工作的。关闭编辑器后，文档服务器将构建要保存的文件版本并将请求发送到 callbackUrl 地址。该请求包含 document.key和指向刚刚构建的文件的链接。

document.key 用于查找文件的旧版本并将其替换为新版本。由于这里没有任何数据库，因此仅使用 callbackUrl 发送文件名。

在 editorConfig.callbackUrl 的设置中指定 callbackUrl 参数并将其添加到 edit() 方法中：

 function edit(filename) {
        const filepath = 'files/' + filename;
        if (editor) {
            editor.destroyEditor()
        }
        editor = new DocsAPI.DocEditor("editor",
            {
                documentType: get_file_type(filepath),
                document: {
                    url: "host_url" + '/' + filepath,
                    title: filename, 
                    key: filename + '_key'
                }
                ,
                editorConfig: {
                    mode: 'edit',
                    callbackUrl: "host_url" + '/callback' + '&amp;filename=' + filename  // add file name as a request parameter
                }
            });
    }

编写一种方法，在获取到 POST 请求发送到 /callback 地址后将保存文件：

@post("/callback") # processing post requests for /callback
def callback():
    if request.json['status'] == 2:
        file = requests.get(request.json['url']).content
        with open('files/' + request.query['filename'], 'wb') as f:
            f.write(file)
    return "{\"error\":0}"

# status 2 是已生成的文件，当我们关闭编辑器时，新版本的文件将保存到存储器中。

6、管理用户

如果应用中有用户，并且你需要查看谁在编辑文档，请在编辑器的配置中输入其标识符（id和name）。

在界面中添加选择用户的功能：

<select id="user_selector" onchange="pick_user()">
    <option value="1" selected="selected">JD</option>
    <option value="2">Turk</option>
    <option value="3">Elliot</option>
    <option value="4">Carla</option>
</select>

如果在标记 <script> 的开头添加对函数 pick_user() 的调用，负责初始化函数自身 id 和 name 变量。

function pick_user() {
    const user_selector = document.getElementById("user_selector");
    this.current_user_name = user_selector.options[user_selector.selectedIndex].text;
    this.current_user_id = user_selector.options[user_selector.selectedIndex].value;
}

使用 editorConfig.user.id 和 editorConfig.user.name 来配置用户设置。将这些参数添加到文件编辑函数中的编辑器配置中。

function edit(filename) {
    const filepath = 'files/' + filename;
    if (editor) {
        editor.destroyEditor()
    }
    editor = new DocsAPI.DocEditor("editor",
        {
            documentType: get_file_type(filepath),
            document: {
                url: "host_url" + '/' + filepath,
                title: filename
            },
            editorConfig: {
                mode: 'edit',
                callbackUrl: "host_url" + '/callback' + '?filename=' + filename,
                user: {
                    id: this.current_user_id,
                    name: this.current_user_name
                }
            }
        });
}

使用这种方法，你可以将 ONLYOFFICE 编辑器集成到用 Python 编写的应用程序中，并获得用于在文档上进行协同工作的所有必要工具。有关更多集成示例（Java、Node.js、PHP、Ruby），请参考官方的 API 文档。

via: https://opensourceforu.com/2019/09/integrate-online-documents-editors-into-a-python-web-app-using-onlyoffice/

作者：Aashima Sharma 选题：lujun9972 译者：stevenzdg988 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

通过创建视频游戏来学习 Python

Seth Kenlon 发布于 2021-01-19
另请参阅: 软件开发,python, Pygame
评论

使用我们的新电子书中的分步说明，以有趣的方式了解 Python。

title=

Python 是目前最流行的程序设计语言之一。不管是为了工作还是娱乐为目的学习 Python，它都是一门功能强大且非常有用的编程语言。你可以创建应用程序来帮助你完成日常任务，创建你和朋友们喜欢玩的游戏，创建用于处理数据的脚本，创建用于生成或分析信息的应用程序等等。

无论你计划使用程序设计语言做什么，我们都认为通过创建游戏来学习比通过处理数字或变换字符串来学习更为有趣。然而，如果你完全是一个编程的新手，当你能看到代码在视频游戏等熟悉的环境中工作时，你会更容易理解为什么要用代码做某事。

你可能不会选择 Python 作为最好的编程语言（每个人对此都有自己的答案），但它不是一门令人恐惧的编程语言。 Python 可以使用很多关键字（例如 is 和 is not）代替符号（例如 = 和 !=）。它还能管理许多低级任务，因此你通常不必担心数据类型和垃圾收集之类的事情。通常，这意味着你马上就可以开始编写代码，而不会像在 C 或 Java 那样的复杂编程语言面前遇到挫折。

为了帮助你学习 Python，我们编写了一本电子书，教你如何使用 Python 创建平台类视频游戏。在制作视频游戏的同时逐步通过课程学习 Python。另外一个好处是，你还将学习编程逻辑、语法、运算符等更多的内容。你可以在学习过程中立即看到结果，因此你学到的所有内容都会得到及时巩固。

一分钟上手 Python

Python 是一种用途广泛的编程语言，这意味着它（与大多数语言一样）提供了函数来对数字和字符做处理的“简单技巧”。Linux 操作系统用户已经安装了 Python。 Mac 操作系统用户使用的是较旧版本的 Python，但是你可以从 Python.org 网站安装最新版本。Windows 操作系统用户可以从这篇在 Windows 上安装 Python 的文章中学习如何安装 Python。

安装完成后，你可以启动交互式 Python Shell 进行算术运算：

$ python3
>>> 5+6
11
>>> 11/2
5.5
>>> 11//2
5
>>> 11%2
1

从该示例可以了解，需要一些特殊的符号，但学过数学的人都最熟悉不过了。也许你不喜欢数字，而更喜欢字母：

$ python3
>>> string = "hello world"
>>> print(string)
hello world
>>> print(string.upper())
HELLO WORLD
>>> print(string[0])
h
>>> print(string[1])
e
>>> print(string[2])
l
>>> print(string[3])
l
>>> print(string[4])
o

同样，相对地说基础的任务有特殊的符号表示法，但是即使没有说明，你也可能已经发现 [0] 和 [1] 符号表示法是将数据“切片”并且利用 print 函数将其中的数据显示在屏幕上。

五分钟用上 Pygame

如果你只想使用 Python 来创建一个视频游戏或任何超越基本计算的项目，这可能需要投入大量的学习、努力和时间。幸运的是，Python 诞生已有二十年了，开发者已经开发了代码库来帮助你（相对）轻松地完成典型的程序壮举。Pygame 是一套用于创建视频游戏的代码模块。它不是唯一的这种类库，但是它是最古老的（不论好坏），因此在线上有很多文档和示例。

首先学习推荐的 Python 虚拟环境工作流程：

$ python3 -m venv mycode/venv
$ cd mycode
$ source ./venv/bin/activate
(venv)$

进入虚拟环境后，可以安全地将 Pygame 安装到项目文件夹中：

(venv)$ echo "pygame" >> requirements.txt
(venv)$ python -m pip install -r requirements.txt
[...] Installing collected packages: pygame
Successfully installed pygame-x.y.z

现在你已经安装了 Pygame，就可以创建一个简单的演示应用程序。它比你想象的要容易。Python 可以进行所谓的面向对象编程（OOP），这是一个漂亮的计算机科学术语，用于描述当代码结构化时，就像你在使用代码创建物理对象一样。然而，程序员并没有受到迷惑。他们知道在编写代码时并不是真的在制造物理对象，但是这样有助于想象，因为这样你就可以了解编程世界的局限性。

例如，如果你被困在一个荒岛上并想要一杯咖啡，那么你就必须收集一些黏土，做一个杯子，然后烘烤它。如果你足够聪明，先创建一个模具，以便每当需要另一个杯子时，都可以从模板中快速创建一个新杯子。即使每个杯子都来自相同的模板，它们在物理上也是独立的：如果一个杯子破裂，你还会有另一个杯子。你可以通过添加颜色或蚀刻使每个咖啡杯显得独一无二。

在 Pygame 和许多编程任务中，你都会使用类似的逻辑。在定义之前，它不会出现在你的编程项目中。下面是如何在 Python 和 Pygame 程序中让咖啡杯出现。

使用 Pygame 进行面向对象编程

创建一个名为 main.py 的文件，并输入以下代码用以启动 Pygame 模块，并使用 Pygame 模板创建一个窗口：

import pygame

pygame.init()

screen = pygame.display.set_mode((960,720))

就像你可能在现实生活中使用模板来创建对象一样，你也可以使用 Pygame 提供的模板来创建一个妖精 sprite （这是 Pygame 的视觉游戏对象术语）。在面向对象的编程中，class 表示对象的模板。在你的文档中输入以下代码：

class Cup(pygame.sprite.Sprite):
    def __init__(self):
        pygame.sprite.Sprite.__init__(self)

        # image
        img = pygame.image.load('coffeecup.png').convert()
        self.image = img

        # volume
        self.rect = self.image.get_rect()
        self.rect.x = 10
        self.rect.y = 10

该代码块使用 Pygame 的 sprite 模板设计一个咖啡杯子妖精。由于 self.image 的存在，你的咖啡杯妖精有一个图像，而 self.rect 则赋予了它体积（宽度和高度）。这些是 Pygame 期望妖精拥有的属性，但是如果你要创建一个可玩的视频游戏，则可以为其指定任何其他所需的属性，例如健康点和得分。

到目前为止，你所要做的就是创建一个窗口和一个用于咖啡杯的模板。你的游戏实际上还没有一个杯子。

你的代码的最后一部分必须使用模板来生成杯子并将其添加到游戏世界中。如你所知，计算机运行速度非常快，因此从技术上讲，你到目前为止创建的代码只会运行一毫秒左右。编写图形计算机应用程序时，无论计算机是否认为已完成规定的任务，都必须强制其保持打开状态。程序员使用 无限循环 来执行此操作，该循环在 Python 中由 while True 语句表示（True 始终为真，因此循环永远不会结束）。

无限循环可以确保你的应用程序保持打开状态足够长的时间，以使计算机用户可以查看和使用该应用程序：

cup = Cup()

while True:
    pygame.display.update()
    screen.blit(cup.image, cup.rect)

此代码示例从模板 Cup 创建杯子，然后使用 Pygame 函数更新显示。最后，使用 Pygame 的 blit 函数在其边框内绘制杯子的图像。

获取图形

在成功运行代码之前，你需要为咖啡杯准备一个图形。你可以在 FreeSVG.org 上找到许多公用创作咖啡杯图形。我用了这个。将图形保存在项目目录中，并将其命名为 coffeecup.png。

运行游戏

启动应用程序：

(venv)$ python ./main.py

title=

下载 Python 游戏电子书

Pygame 是一个功能强大的框架，除了在屏幕上绘制咖啡杯之外，你还可以做更多的事情。下载我们的免费电子书更好地了解 Pygame 和 Python。

via: https://opensource.com/article/20/10/learn-python-ebook

作者：Seth Kenlon 选题：lujun9972 译者：stevenzdg988 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出