[presto]近实时运算的利器---presto在公司实践

近实时运算的利器---presto在公司实践 - joomlaer的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/joomlaer/article/details/45889759

1.起因

公司Hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨，平日工作时间负载不是很高。但在工作时间内，公司业务人员有实时查询需求，现在主要

借助于Hive提供业务人员日常查询。总所周知，hive是一个基于MR的类SQL查询工具，它会把输入的查询SQL解释为MapReduce，能极大的降低使用大数据查询的门槛，

让一般的业务人员也可以直接对大数据进行查询。但一个弊病也是很明显，它的查询速度由于基于MR，会是非常的让人着急。

在Spark,Storm横行的时代，spark由于耗用内存高而很难满足这种改良的需求，Storm由于和hive不是一个套路，本身实时流处理的思路也和我们的需求差距较大，所以，

寻求一个能提供类似SQL查询接口，并且速度比较接近于实时，能利用现有集群硬件的实时SQL查询引擎成为一个现有hive的替代查询引擎。如果有这个引擎，可以利用

datanode,tasktracker上空闲的内存构成一个分布式的“数据加载内存池”，将数据加载到内存后，再进行计算，这样无疑会提高大数据查询的速度。

幸好，创造了hive的facebook,不负众望，创造了这么一款神器---presto。下面我们来看presto能给我们带来什么。

插图:日常各个dn和tt的节点的内存使用情况,白天有比较多的空闲时段

2.presto的介绍

英文出处：Martin Traverso(Facebook)。

Presto是一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。

Presto的运行模型和Hive或MapReduce有着本质的区别。Hive将查询翻译成多阶段的MapReduce任务，一个接着一个地运行。每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。然而Presto引擎没有使用MapReduce。它使用了一个定制的查询和执行引擎和响应的操作符来支持SQL的语法。除了改进的调度算法之外，所有的数据处理都是在内存中进行的。不同的处理端通过网络组成处理的流水线。这样会避免不必要的磁盘读写和额外的延迟。这种流水线式的执行模型会在同一时间运行多个数据处理段，一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。这样的方式会大大的减少各种查询的端到端响应时间。

3.presto部署

首先安装jdk 1.8,下载jdk 1.8后，解压

[html] view plain copy 在CODE上查看代码片派生到我的代码片
tar zxf jdk1.8.0_45.tar.gz

设置1.8为默认的jdk
[html] view plain copy 在CODE上查看代码片派生到我的代码片
rm /usr/java/latest
ln -s /usr/java/jdk1.8.0_45 /usr/java/latest

在/etc/profile里设置
export JAVA_HOME=/usr/Java/default

然后运行:

[html] view plain copy 在CODE上查看代码片派生到我的代码片
source /etc/profile
生效设置。
下载presto。

[html] view plain copy 在CODE上查看代码片派生到我的代码片
wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.100/presto-server-0.100.tar.gz

解压presto
[html] view plain copy 在CODE上查看代码片派生到我的代码片
tar zxf presto-server-0.100.tar.gz

由于presto有个调度节点和工作节点的区别，所以，我们先配置调度节点。可以在部署后，就用单节点模式，即调度和工作节点为同一台服务器来进行测试。
首先配置etc/catalog/hive.properties

[html] view plain copy 在CODE上查看代码片派生到我的代码片
connector.name=hive-hadoop2
hive.metastore.uri=thrift://192.168.1.xxx:10001
hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml
说明：
connector.name是当前集群是hadoop版本，有hadoop1,hadoop2,cdh4,cdh5等可选，详细可以参考plugin目录里支持类型。

hive.metasore.uri是对应hive数据源提供的thrift接口，不然presto怎么有元数据呢？

[html] view plain copy 在CODE上查看代码片派生到我的代码片
hive.config.resources是对应hadoop配置。

然后配置：etc/node.properties

[html] view plain copy 在CODE上查看代码片派生到我的代码片
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffffnode-103-15
node.data-dir=/opt/presto/data

重要的，每个节点都有自己唯一id，不然不好协同工作了。
所以，node.id一定是一个唯一的id

node.data-dir是本机的一个presto数据文件目录。

最后配置:etc/config.properties

coordinator=true

[html] view plain copy 在CODE上查看代码片派生到我的代码片
node-scheduler.include-coordinator=true
http-server.http.port=1089
task.max-memory=1GB
discovery-server.enabled=true
discovery.uri=http://node-103-15:1089
[html] view plain copy 在CODE上查看代码片派生到我的代码片
http-server.http.port指明调度节点的端口，很重要啊，presto集群的机器都得和这个端口通讯。
[html] view plain copy 在CODE上查看代码片派生到我的代码片
discovery.uri=http://node-103-15:1089 也很重要，调度节点的地址，端口，好好指定，集群唯一的。

4.遇到问题解决

首先遇到问题就是jdk的兼容，由于presto只兼容1.8以上jdk，以前hadoop的1.6,1.7都不行。

所以要将presto部署好，势必和以前hadoop环境的jdk有冲突。所以，干脆将系统jdk升级到1.8.

然后stop tasktracker,stop datanode,最后又重启datanode,tasktracker.最后启动presto.

[html] view plain copy 在CODE上查看代码片派生到我的代码片
./launcher start

最后启动presto cli进行查询
[html] view plain copy 在CODE上查看代码片派生到我的代码片
./presto-cli --server node-103-15:1089 --catalog hive --schema default

注意，presto-cli是将presto-cli-excute.jar进行重命名，并且chmod后而来的。
最后比较尴尬的是，presto对lzo支持不好，特别是分片的lzo，基本就不支持，这个没办法，presto本身就讲明了

不支持。哎，哪位有办法，可以联系下我。

5.presto和hive的性能比较

用同一个SQL做查询，3台服务器presto是:

采用hive查询是:

基本上查询速度快了10倍。

综上所述，presto是一个部署容易，又能较好利用空闲内存的近实时查询引擎。

最后编辑于：2017.12.04 20:12:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

[presto]近实时运算的利器---presto在公司实践

推荐阅读更多精彩内容