Python 开拓者在迁移到 Go 前需要知道的工作

这是一篇记录了我们把一大段 Python/Cython 代码迁移到 Go语言经验的（长）博客。假如你但愿相识整个故事、配景等所有的内容，请接着读。假如只对 Python 开拓者进入之前需要知道的对象感乐趣，点击下面的链接：

从 Python 迁移到 Go 的提示与能力

配景

我们在 Repustate 技能上最大的成就就是实现了阿拉伯语感情阐明。阿拉伯语真是一个难啃的骨头，它的单词语法形态太巨大了。阿拉伯语的分词（tokenization，把一个句子分成独立的词语）对比诸如英语更难，因为阿拉伯语单词内部大概包括空格（譬喻，aleph内的位置）。这个不需要保密，那就是 Repustate 利用了支持向量机（SVM）来获得句子最大概的意思，然后在此基本上阐明感情。我们总共用了 22 个模子（22 个支持向量机），文档中的每个单词城市被阐明。也就是说，假如一篇文档包括 500 词的话，将会有一万次以上的支持向量机的较量操纵。

Python

Repustate险些是彻底用 Python 实现的，因为我们利用了 Django 作为应用措施接口和网站架构。所以只能保持代码的统一，同时用 Python 实现整个阿拉伯语感情引擎。原型与实现的进程中，Python 照旧很不错的。很是强的表达本领，强大的第三方库资源。假如你只是处事于网页的话，照旧很完美的。可是，当你需要举办底层计较，需要在散列表（Python 中的字典）长举办大量的较量运算的时候，速度就慢下来了。我们每秒钟只能处理惩罚2到3篇阿拉伯语文档，这太慢了。比拟我们的英语感情引擎，每秒钟能处理惩罚 500 篇文档。

瓶颈

于是，我们启动了 Python 阐明器，研究哪部门执行得慢。还记得我说过我们会用 22 个支持向量机处理惩罚每一个单词吗？这些处理惩罚都是串行的，没有并行操纵。好，我们第一个想法是把这个改成雷同 map/reduce 的操纵。长话短说：Python 中不适合利用 map/reduce。当你需要并发性的时候，Python 一点都欠好用。2013 年的 PyCon 大会上，Guido 提到了 Tulip，他试图办理这个问题的新项目，可是还需要一段时间才气推出。假如已经有更好的选择，我们为什么还要等它呢。

换 Go 语言照旧回家耕田

我在 Mozilla 的伴侣汇报我，Mazilla 处事中日志架构的大部门代码已经切换成 Go 了，部门原因是 goroutine（Go 线程）的强大。Go 是 Google 的一群人设计的，它把并行性作为一级观念，而不像 Python 的差异办理方案做的过后增补。于是，我们开始着手把 Python 换成 Go。

尽量 Go 代码还没到达产物级别，其功效已经很是令人激昂了。我们到达了每秒 1000 文档的速度，利用了更少的内存，还不消去处理惩罚用 Python 时遇到的多历程/gevent/“为什么 Ctrl+C 杀掉了我的历程”代码等讨厌的问题。

我们为什么爱上了Go

只要知道一点儿编程语言事情道理的人，（大白表明和编译以及动态与静态的区别），就会说：“老兄，Go 显然会更快”。没错，我们也可以把整个对象用 Java 来重写，而且获得雷同的机能，但这不是 Go 胜出的原因。你用 Go 写出代码来就很容易是正确的。我也说不清楚怎么回事，可是一旦代码编译通过（编译速度还很快），你就感受到它可以事情了（不可是运行不提示错误，而是逻辑上就是对的）。我知道这听起来很玄乎，但确实是事实。这就像 Python 办理冗余问题（可能说无冗余），它把函数作为一级工具，从而函数编程可以轻松的举办。go线程和通道（channel）让你的糊口如此轻松。你还可以获得静态范例带来的机能晋升，更准确的节制内存分派，却不会因此损失表达性。

我们早该知道的工作

撤除那些歌咏之词，用 Go 的时候需要一种差异于用 Python 时的心态。下面是一些迁移时候的条记，把 Python 转成 Go 时随机跃入我脑筋的对象：

没有内建的荟萃范例（需要利用 map 然后查抄存在性）

由于没有荟萃范例，需要本身实现交集、并集等要领

没有元组（tuple），需要设计本身的布局（struct）可能利用slice（雷同数组）

没有雷同 __getattr_() 的要领，需要你查抄存在性而不能配置缺省值，譬喻 Python 中，你可以这么写：value = dict.get("a_key", "default_value")

需要查抄错误（可能至少显式的忽略它们）

不可以或许有未利用的变量和包，需要时不时的注释掉一些代码

在 []byte 和 string 之间切换，正则处理惩罚（regexp）利用 []byte（可改写的）。这是对的，但转换来转换去照旧很贫苦

Python 语法更宽松。你可以用超出范畴的索引取字符串的片断而不堕落，也可以利用负数取片断。Go 就不可。

#p#分页标题#e#

无法利用殽杂范例的数据布局。这大概不必然符合，可是 Python 中有时候我会有一个取值可以是字符串和列表殽杂的字典。Go 里不可，你必需清理里的数据布局可能自界说布局*

没法把元组可能列表分派身分隔的变量（譬喻，x, y, x = [1, 2, 3]）

驼峰式巨细写习惯（首字母不大写的函数/布局不会袒露给其他包）。我更喜欢 Python 的小写加下划线的习惯。

必需显式的查抄错误是否为空，不像 Python 中许多范例都可以像布尔范例一样的用（0，空串，None都可以作为布尔“假”）

一些模块（如 crypo/md5）的文档不敷，可是 IRC 上的 go-nutes 很锋利，有强大的支持

数字转字符串（int64->string）与 []byte 转字符串（只要 string([]byte)）差异，需要挪用 strconv

读 Go 的代码绝对像是编程语言，而 Python 可以写成像是伪代码一样。Go 利用更多的非英文数字字符，利用 || 和 && 而不是 or 和 and。

写文件会有 File.Write([]byte) 和 File.WriteString(string)，与 Python 开拓者的一种步伐办理问题的信条纷歧致。

字符串插入欠好用，必需常常利用 fmt.Sprintf

没有结构函数，凡是的习惯是写一个 NewType() 函数返回你要的布局

Else（可能 else if）得正确的名目化，else 得和与 if 配对的大括号在一行。奇怪。

函数表里利用差异的赋值操纵符，= 和 := （译者注：此为作者的误解，= 和 := 的区别是显式界说范例照旧自动范例推导，而函数外的变量只能用 =）

假如我只想要键值（dict.keys()）或取值（dict.values()）的列表，可能元组的列表（dict.items()），Go 中没有对应的函数，只能本身迭代

当前位置：以往代写 > Python教程 >Python 开拓者在迁移到 Go 前需要知道的工作