Python 开发者在迁移到 Go(lang) 时需要知道哪些事？

【编者按】本文最早由 Repustate 发布，主要介绍将代码迁移至 Go(lang) 时的注意事项。文章系国内 ITOM 管理平台 OneAPM 编译呈现，以下为正文。

这是一篇讲述将大块 Python/Cython 代码迁移到 Go 的长文章。如果你想了解整个事情的经过、背景等所有信息，请读下去。如果你只对 Python 开发者需要了解的事感兴趣，请下拉到早该知道的事板块。

背景

我们在 Repustate 最大的技术成果就是实现了阿拉伯语情感分析。阿拉伯语是个难啃的硬骨头，因为阿拉伯语词汇的形式非常复杂。阿拉伯语的标记化（把一句话拆分成单个单词）也比英语要难得多，因为阿拉伯单词内部可能会包含空格（例如单词内部“aleph”的位置）。在不泄露机密的情况下，Repustate 利用支持向量机（SVM）来获取一个句子最可能的意思，并且以此来推断句子的情感。我们一共采用了22种模型（22个支持向量机），文档中的每个词都会被分析。也就是说，如果一个文档包含500个词，就会与支持向量机进行10000多次对比。

Python

Repustate 几乎完全是用 Python 搭建的，我们使用 Django 来搭建 API 接口和网站架构。因此，为了保持代码一致性，使用 Python 来实现所有阿拉伯语情感引擎才说得通。就原型设计和实现流程而言，Python 依然是一个很好的选择：表现能力优秀，又有强大的第三方库资源，等等。如果是服务于网页，它就是最佳选择。如果是稍低级别的运算，需要与哈希表（Python 中的字典）进行大量对比时，运行速度就会慢下来。我们一秒钟只能处理2到3个阿拉伯语单词，这种速度太慢了。相比之下，我们的英语情感引擎每秒能处理500个单词。

瓶颈

因此，我们启动了 Python 分析器，开始调查速度慢的原因。还记得上文提到我们有22个支持向量机，每个单词都会通过它们处理吗？原来这个过程是按顺序进行，而不是并行的。好了，第一个想法是换成类似分布式计算系统（map/reduce）的处理器。长话短说：Python 不适合用 map/reduce。当你需要并发性的时候，Python 并不能帮上忙。在 Pycon 2013大会中，Guido 谈到了 Tulip，他希望用来解决这个问题的一个新项目，但是还要过一段时间才能发布。可是，如果已经有了更好的选择，为什么还要苦等下去呢？

选择 Golang 还是回老家(Go Home)

在 Mozilla 的朋友告诉笔者，Mozilla 服务的日志架构大部分代码都已迁移到 Go，部分原因是 goroutines 超级便利。Go 是由谷歌员工开发的，设计之初就将并发需求列为一级理念，而不是像 Python 的众多解决方案一样在做事后补救。因此我们开始着手实现从 Python 到 Go 的迁移。

虽然 Go 代码还没实现大规模产出，得到的结果已经非常振奋人心。我们现在一秒钟能处理1000个文档，使用的内存大大减少，而且也不用再去调试和解决使用 Python 时会遇到的多进程/协程（gevent）/“为什么 Control-C 杀死了我的进程”等问题。

喜欢 Go 的原因

任何略懂编程语言的人（明白解释与编译、动态与静态区别）都会说：“哈，显然 Go 要快多了。”没错，我们是可以用 Java 重写所有内容，并且取得类似的效果，但是这并不是 Go 胜出的原因。你用 Go 写的代码似乎一出来是正确的。笔者也说不清楚，但是不知怎么的，一旦代码被编译（编译过程非常迅速），你就会感觉它能工作了（不只是运行不出错，而且还逻辑正确）。这听起来很含糊，但是它是真的。在冗余或无冗余方面，它跟 Python 相似，它把函数当做一级对象，因此函数编程很方便。而且毋庸置疑，goroutines 和 channels 会让你更加省心省力。静态类型还会带来极大的性能提升，以及更精确的内存分配控制，但是又不会损失太多表达性。

早该知道的事

除去溢美之词，跟 Go 打交道需要与 Python 完全不同的一套思维模式。以下列出的是笔者在迁移时做的一些笔记——都是在从 Python 迁移到 Go 时随机想到的一些东西：

没有内建的集合类型（需要使用 map，然后测试存在性）
由于没有集合类型，需要自己写代码来实现交集、并集等方法
无元组（tuple），必须自己写架构或使用切片（slice）（数组）
没有类似 getattr_() 的方法，因此需要不断检查存在性，而不能像在 Python 中那样设置缺省值：value = dict.get(“a_key”, “default_value”)
必须不断检查错误（至少需要显式忽略它们）
不能包含未使用的变量或包，因此有时候如果要测试一些简单问题，需要给代码添加注释
在 []byte 和 string 之间切换。正则表达（regexp）使用 []byte （可变）。这说得通，但是在一些变量之间来回切换还是很烦人
Python 更为宽松。你可以用超出范围的索引来索取字符串片段，也不会有什么问题，还可以提取负值片段，但是 Go 就不行
不能使用混合类型的数据结构。也许不合规定，但是有时候在 Python 可以使用混合字符串和列表的字典。在 Go 就不行，要么清理干净数据结构，要么自定义结构。感谢 Ralph Corderoy 向笔者展示了如何正确操作（用这个界面，卢克）
http://play.golang.org/p/SUgl7wd9tk
不能把元组或列表分解成分开的变量（如 x,y,x = [1,2,3]）
驼峰字规则（UpperCamelCase）（如果一个包中的函数或结构首字母未大写，就不会暴露给其他包）。笔者更喜欢 Python 的小写加下划线格式（lower_case_with_underscores）
需要显式检查错误是否为 != nil，不像 Python 有很多类型可以用于布尔型检查（0，“”，None 都会被解读为“假”）
某些模块（如 crypto/md5）的文档不足，但是 IRC 上面的 go-nuts 非常棒，拥有特别好的支持
从数字到字符串的类型转换（int64 -> 字符串）跟[]byte -> 字符串（只用字符串（[]byte））不同，需要用到 strconv
Go 的代码读起来更像是编程语言，而 Python写出来更像伪代码。Go 包含更多非数字字母字符，用 || 和 && 来表示“或”与“和”
写文件会有 File.Write([]byte) 和File.WriteString(string)，这会让习惯了 Python
只有一种做事方法的开发者们有些不适应
字符串插入很麻烦，不得不经常使用 fmt.Sprintf
没有构造函数，常见的做法是创建 NewType() 函数，来返回你需要的结构
Else 或 else if 必须格式正确，else 得跟 if 从句的大括号在一行。这很奇怪。
根据函数内外位置，使用不同的赋值操作符，例如 = 和 :=
如果只想要类似dict.keys() 或dict.values()得到的键值或取值列表，或者通过
dict.items()得到的元祖列表，在 Go 里面是无法实现的，只能自行迭代 map，然后创建自己的列表
笔者习惯建立一个取值为函数的字典，并通过键值调用函数。你可以在 Go
里面这么做，但是所有的函数都得接受和返回同样的东西，也就是说，必须具备同样的方法签名
如果你是用 JSON，而且是混合类型的 JSON，那么你还是自求多福吧。你得创建一个能够匹配你的 JSON 二进制大对象（blob）格式的个性化结构，然后解组（Unmarshall）原始 JSON 成为你的个性化架构的一个用例。比起在 Python 中的一句“obj = json.loads(json_blob)”要费更多功夫

这么折腾值得吗？

值，一百万个值，超值。速度的提升不容忽视。而且笔者认为这也是促使 Go 成为流行语言的重要原因。因此在招聘时，笔者认为把 Go 当成 Python 开发者的必备技能也很重要。

OneAPM 能帮你查看 Python 应用程序的方方面面，不仅能够监控终端的用户体验://blog.oneapm.com/tags-%E7%94%A8%E6%88%B7%E4%BD%93%E9%AA%8C.html，还能监控服务器性能，同时还支持追踪数据库、第三方 API 和 Web 服务器的各种问题。想阅读更多技术文章，请访问 OneAPM 官方技术博客。

本文转自 OneAPM 官方博客

原文地址： https://blog.repustate.com/migrating-code-from-python-to-golang-what-you-need-to-know/

最后编辑于：2017.12.03 05:49:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343