Python 不是 C

英文原文：Python Is Not C http://www.oschina.net/translate/python_is_not_c

我一直使用 Python，用它处理各种数据科学项目。 Python 以易用闻名。有编码经验者学习数天就能上手（或有效使用它）。

听起来很不错，不过，如果你既用 Python，同时也是用其他语言，比如说 C 的话，或许会存在一些问题。

给你举个我自己经历的例子吧。我精通命令式语言，如 C 和 C++。对古老经典的语言如Lisp 和 Prolog 能熟练使用。另外，我也用过Java，Javascript 和 PHP 一段时间。（那么，学习） Python 对我来讲不是很简单吗？事实上，只是看起来容易，我给自己挖了个坑：我像用 C 一样去用 Python。

具体情况，请向下看。

一个最近的项目中，需要处理地理空间数据。给出（任务）是 gps 追踪 25,000 个左右位置点，需要根据给定的经纬度，重复定位距离最短的点。我第一反应是，翻查（已经实现的）计算已知经纬度两点间距离的代码片段。代码可以在 John D. Cook 写的这篇code available in the public domain中找得到。

万事俱备! 只要写一段 Python 函数，返回与输入坐标距离最短的点索引（25,000 点数组中的索引），就万事大吉了：

def closest_distance(lat,lon,trkpts):

d = 100000.0

best = -1

r = trkpts.index

for i in r:

lati = trkpts.ix[i,'Lat']

loni = trkpts.ix[i,'Lon']

md = distance_on_unit_sphere(lat, lon, lati, loni)

if d > md

best = i

d = md

return best

其中，distance_on_unit_sphere是 John D. Cook's 书中的函数，trkpts是数组，包含 gps 追踪的点坐标（实际上，是pandas 中的数据帧，注，pandas 是 python 第三方数据分析扩展包）。

上述函数与我以前用 C 实现的函数基本相同。它遍历（迭代）trkpts数组，将迄今为止（距离给定坐标位置）的距离最短的点索引值，保存到本地变量best中。

目前为止，情况还不错，虽然 Python 语法与 C 有很多差别，但写这段代码，并没有花去我太多时间。

代码写起来快，但执行起来却很慢。例如，我指定428 个点，命名为waypoints（导航点，路点，导航路线中的关键点）。导航时，我要为每个导航点 waypoint 找出距离最短的点。为428 个导航点 waypoint 查找距离最短点的程序，在我的笔记本上运行了3 分 6 秒。

之后，我改为查询计算曼哈坦距离，这是近似值。我不再计算两点间的精确距离，而是计算东西轴距离和南北轴距离。计算曼哈坦距离的函数如下:

def manhattan_distance(lat1, lon1, lat2, lon2):

lat = (lat1+lat2)/2.0

return abs(lat1-lat2)+abs(math.cos(math.radians(lat))*(lon1-lon2))

实际上，我用了一个更简化的函数，忽略一个因素，即维度曲线上 1 度差距比经度曲线上的 1 度差距要大得多。简化函数如下：

def manhattan_distance1(lat1, lon1, lat2, lon2):

return abs(lat1-lat2)+abs(lon1-lon2)

closest 函数修改为:

def closest_manhattan_distance1(lat,lon,trkpts):

d = 100000.0

best = -1

r = trkpts.index

for i in r:

lati = trkpts.ix[i,'Lat']

loni = trkpts.ix[i,'Lon']

md = manhattan_distance1(lat, lon, lati, loni)

if d > md

best = i

d = md

return best

如果将 Manhattan_distance 函数体换进来，速度还可以快些：

def closest_manhattan_distance2(lat,lon,trkpts):

d = 100000.0

best = -1

r = trkpts.index

for i in r:

lati = trkpts.ix[i,'Lat']

loni = trkpts.ix[i,'Lon']

md = abs(lat-lati)+abs(lon-loni)

if d > md

best = i

d = md

return best

在计算的最短距离点上，用这个函数与用 John's 的函数效果相同。我希望我的直觉是对的。越简单就越快。现在这个程序用了 2 分 37 秒。提速了 18%。很好，但还不够激动人心。

我决定正确使用 Python。这意味着要利用 pandas 支持的数组运算。这些数组运算操作源于numpy包。通过调用这些数组操作，代码实现更简练：

def closest(lat,lon,trkpts):

cl = numpy.abs(trkpts.Lat - lat) + numpy.abs(trkpts.Lon - lon)

return cl.idxmin()

该函数与之前函数的返回结果相同。在我的笔记本上运行时间花费了 0.5 秒。整整快了 300 倍! 300 倍，,也即30,000 %。不可思议。提速的原因是 numpy 数组操作运算用 C 实现。因此，我们将最好的两面结合起来了：我们得到 C 的速度和 Python 的简洁性。

教训很明确：别用 C 的方式写 Python 代码。用 numpy 数组运算，不要用数组遍历。对我来说，这是思维上的转变。

Update on July 2, 2015。文章讨论在Hacker News。一些评论没有注意到（missed ）我用到了 pandas 数据帧的情况。主要是它在数据分析中很常用。如果我只是要快速的查询最短距离点，且我时间充分，我可以使用 C 或 C++ 编写四叉树（实现）。

Second update on July 2, 2015。有个评论提到numba也能对代码提速。我就试了一下。

这是我的做法，与你的情况不一定相同。首先，要说明的是，不同的 python 安装版，实验的结果不一定相同。我的实验环境是 windows 系统上安装 Anaconda，同时也安装了一些扩展包。可能这些包和 numba 存在干扰。.

首先，输入下面的安装命令，安装 numba：

$ conda install numba

这是我命令行界面上的反馈：

之后我发现，numba 在 anaconda 安装套件中已存在。也可能安装指令有变更也说不定。

推荐的 numba 用法：

@jit

def closest_func(lat,lon,trkpts,func):

d = 100000.0

best = -1

r = trkpts.index

for i in r:

lati = trkpts.ix[i,'Lat']

loni = trkpts.ix[i,'Lon']

md = abs(lat - lati) + abs(lon - loni)

if d > md:

#print d, dlat, dlon, lati, loni

best = i

d = md

return best

我没有发现运行时间提高。我也尝试了更积极的编译参数设置：

@jit(nopython=True)

def closest_func(lat,lon,trkpts,func):

d = 100000.0

best = -1

r = trkpts.index

for i in r:

lati = trkpts.ix[i,'Lat']

loni = trkpts.ix[i,'Lon']

md = abs(lat - lati) + abs(lon - loni)

if d > md:

#print d, dlat, dlon, lati, loni

best = i

d = md

return best

这次运行代码时，出现一个错误：

看来，pandas 比 numba 处理代码更智能。

当然，我也能花时间修改数据结构，使 numba 能正确编译（compile）。可是，我为什么要这么干呢? 用 numpy 写的代码运行的足够快了。反正，我一直在用 numpy 和 pandas 。为什么不继续用呢?

也有建议我用pypy。这当然有意义，不过...我用的是托管服务器上的Jupyter notebooks（注，在线浏览器的 python 交互式开发环境）。我用的是它提供的 python 内核，也即，官方的（regular）Python 2.7.x 内核。并没有提供 Pypy 选择。

也有建议用Cython。好吧，如果我回头要编译代码，那我干脆直接用 C 和 C++ 就好了。我用 python，是因为，它提供了基于 notebooks（注：网页版在线开发环境）的交互式特性，可以快速原型实现。这却不是 Cython 的设计目标。

最后编辑于：2017.11.27 03:21:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

Python 不是 C

推荐阅读更多精彩内容