Python 适合大数据量的处理吗？

python 能处理数据库中百万行级的数据吗？

处理大规模数据时有那些常用的python库，他们有什么优缺点？适用范围如何？

王守崑，推荐系统，数据挖掘

需要澄清两点之后才可以比较全面的看这个问题：

1. 百万行级不算大数据量，以目前的互联网应用来看，大数据量的起点是10亿条以上。

2. 处理的具体含义，如果是数据载入和分发，用python是很高效的；如果是求一些常用的统计量和求一些基本算法的结果，python也有现成的高效的库，C实现的和并行化的；如果是纯粹自己写的算法，没有任何其他可借鉴的，什么库也用不上，用纯python写是自讨苦吃。

python的优势不在于运行效率，而在于开发效率和高可维护性。针对特定的问题挑选合适的工具，本身也是一项技术能力。

发布于 2011-04-215 条评论

Xiaoyu Ma，大数据平台码农

我们公司每天处理数以P记的数据，有个并行grep的平台就是python做的。当初大概是考虑快速成型而不是极限速度，但是事实证明现在也跑得杠杠的。大数据很多时候并不考虑太多每个节点上的极限速度，当然速度是越快越好，但是再更高层次做优化（比如利用data locality减少传输，建索引快速join，做sample优化partition，用bloomfilter快速测试等等），把python换成C并不能很大程度上提升效率。

死跑龙套的，死跑龙套的http://www.sobuhu.com

这要看具体的应用场景，从本质上来说，我们把问题分解为两个方面：

1、CPU密集型操作

即我们要计算的大数据，大部分时间都在做一些数据计算，比如求逆矩阵、向量相似度、在内存中分词等等，这种情况对语言的高效性非常依赖，Python做此类工作的时候必然性能低下。

2、IO密集型操作

假如大数据涉及到频繁的IO操作，比如从数据流中每次读取一行，然后不做什么复杂的计算，频繁的输入输出到文件系统，由于这些操作都是调用的操作系统接口，所以用什么语言已经不在重要了。

结论

用Python来做整个流程的框架，然后核心的CPU密集操作部分调用C函数，这样开发效率和性能都不错，但缺点是对团队的要求又高了(尤其涉及到Python+C的多线程操作)...所以...鱼与熊掌不可兼得。如果一定要兼得，必须得自己牛逼。

发布于 2012-12-241 条评论

我很喜欢用python，用python处理数据是家常便饭，从事的工作涉及nlp，算法，推荐，数据挖掘，数据清洗，数据量级从几十k到几T不等，我来说说吧

百万级别数据是小数据，python处理起来不成问题，python处理数据还是有些问题的

Python处理大数据的劣势：

1. python线程有gil，通俗说就是多线程的时候只能在一个核上跑，浪费了多核服务器。在一种常见的场景下是要命的：并发单元之间有巨大的数据共享或者共用（例如大dict），多进程会导致内存吃紧，多线程则解决不了数据共享的问题，单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦

2. python执行效率不高，在处理大数据的时候，效率不高，这是真的，pypy（一个jit的python解释器，可以理解成脚本语言加速执行的东西）能够提高很大的速度，但是pypy不支持很多python经典的包，例如numpy（顺便给pypy做做广告，土豪可以捐赠一下PyPy - Call for donations）

3. 绝大部分的大公司，用java处理大数据不管是环境也好，积累也好，都会好很多

Python处理数据的优势（不是处理大数据）：

1. 异常快捷的开发速度，代码量巨少

2. 丰富的数据处理包，不管正则也好，html解析啦，xml解析啦，用起来非常方便

3. 内部类型使用成本巨低，不需要额外怎么操作（java，c++用个map都很费劲）

4. 公司中，很大量的数据处理工作工作是不需要面对非常大的数据的

5. 巨大的数据不是语言所能解决的，需要处理数据的框架（hadoop， mpi。。。。）虽然小众，但是python还是有处理大数据的框架的，或者一些框架也支持python

6. 编码问题处理起来太太太方便了

综上所述：

1. python可以处理大数据

2. python处理大数据不一定是最优的选择

3. python和其他语言（公司主推的方式）并行使用是非常不错的选择

4. 因为开发速度，你如果经常处理数据，而且喜欢linux终端，而且经常处理不大的数据（100m一下），最好还是学一下python

python数据处理的包：

1. 自带正则包，文本处理足够了

2. cElementTree, lxml 默认的xml速度在数据量过大的情况下不足

3. beautifulsoup 处理html

4. hadoop(可以用python) 并行处理，支持python写的map reduce，足够了，顺便说一下阿里巴巴的odps，和hadoop一样的东西，支持python写的udf，嵌入到sql语句中

5. numpy, scipy, scikit-learn 数值计算，数据挖掘

6. dpark(搬楼上的答案）类似hadoop一样的东西

1，2，3，5是处理文本数据的利器（python不就处理文本数据方便嘛），4，6是并行计算的框架（大数据处理的效率在于良好的分布计算逻辑，而不是什么语言）

暂时就这些，最好说一个方向，否则不知道处理什么样的数据也不好推荐包，所以没有头绪从哪里开始介绍这些包

编辑于 2014-09-16 1 条评论

kinglon，信息安全

使用python可以，但对速度要求较高的关键模块，还是要用C重写。

发布于 2011-04-21 添加评论

陈木生，人生苦短我用python:)

王子健、王枫、李小坏等人赞同

大量數據處理的瓶頸是在IO，而不是在哪個語言。語言選擇真的是要看個人口味、品味。

发布于 2012-06-13 1 条评论

可以看看 Douban 的DPark

发布于 2013-11-23 1 条评论

Vitas Liu，搜索研发工程师

码代码比程序时间复杂度更cost

发布于 2014-09-15 添加评论

Levi.Wang，是的，我喜欢帅气的女子亥纸

Hadoop在大数据处理领域应用广泛，而它官方默认的程序示例是用java写的，其实大数据处理的今天，语言的快慢已经不足以影响到速度了. java跟python的速度跟C没有可比性，但他们的高开发效率和越来越好的解释器会让他们在数据处理领域大放异彩.

发布于 2013-05-28 添加评论

牟小峰，数据挖掘

什么叫处理？ 100万的数据，如果只是传输的话，python和c/c++差不多；如果用来计算话题模型的话，python的速度为c/c++的1/10，内存消耗为10倍多。

发布于 2012-12-25 添加评论

zxskzxsk h，太低调了也不好……

使用Python调用vtk库对100万行的数据进行可视化，结果内存爆满，使用C++就没有问题，Python很占内存，不知道为什么……

发布于 2013-01-04 1 条评论

yishen chen，我是

很多python库的实现都是用其他语言写的(C比较多)，只是用Python做了个包装而已。库的效率本身不低。

编辑于 2013-11-21 添加评论

Xiang Zhang

Python调用vtk库对面片数量我测试过是没有限制的好像，你所说的100万多数据是不是都是存入了python的list中，list是有上限限制的。如果不存入list，应该是没有渲染上限的。

最后编辑于：2017.11.27 03:12:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

Python 适合大数据量的处理吗？

推荐阅读更多精彩内容