flink集成yarn(flink on yarn)

一:组件

     1、hadoop(包含了yarn和hdfs),hadoop 2.8.5版本

     2、flink,版本 flink-1.7.2-bin-hadoop28-scala_2.11.tgz

    3、centos7   

二:步骤。

     1、自行安装hadoop集群,很多帖子,随意找。

     1)关于配置  core-site.xml

<configuration>

<property>

  <name>fs.defaultFS</name>

  <value>hdfs://master:8020</value>

</property>

 <!-- 指定tmp文件夹路径 -->

<property>

  <name>hadoop.tmp.dir</name>

  <value>/data/hadoop/data/tmp</value>

</property>

</configuration>

2)关于配置hadoop-env.sh

export JAVA_HOME=/data/soft/jdk1.8.0_181

3)关于配置hdfs-site.xml

<configuration>

<!--副本数 -->

<property>

  <name>dfs.replication</name>

  <value>1</value>

</property>

<!--指定 secondaryNamenode地址及启动机器-->

<property>

  <name>dfs.namenode.secondary.http-address</name>

  <value>slave2:50090</value>

</property>

<property>

  <name>dfs.namenode.name.dir</name>

  <value>/data/hadoop/data/dfs/namenode</value>

</property>

<property>

  <name>dfs.datanode.data.dir</name>

  <value>/data/hadoop/data/dfs/datanode</value>

</property>

</configuration>

4)关于配置mapred-env.sh

export JAVA_HOME=/data/soft/jdk1.8.0_181

5)关于配置 mapred-site.xml

mapred-site.xml文件默认是没有的,需要cp  mapred-site.xml.template  mapred-site.xml

<configuration>

<!--设置mapreduce任务运行在yarn上-->

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

<!--是设置mapreduce的历史服务器安装在master机器上(可设置可不设置)-->

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>master:10020</value>

</property>

<!--是设置历史服务器的web页面地址和端口号(可设置可不设置)-->

<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>master:19888</value>

</property>

<!--设置map阶段内存,默认是1024,此设置可解决一个启动报错问题-->

<property>

    <name>mapreduce.map.memory.mb</name>

    <value>2048</value>

</property>

</configuration>

报错如下:

Diagnostics: Container [pid=16377,containerID=container_1533988876407_0004_02_000001] is running beyond virtual memory limits. Current usage: 59.9 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.


6)关于配置slaves(此时把master也当做一个slave了)

vim  slaves   

master

slave1

slave2

7)关于配置 yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<!--指定resourcemanager服务器-->

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

</property>

<!--配置是否启用日志聚集功能-->

<property>

    <name>yarn.log-aggregation-enable</name>

    <value>true</value>

</property>

<!--配置聚集的日志在HDFS上最多保存多长时间-->

<property>

    <name>yarn.log-aggregation.retain-seconds</name>

    <value>106800</value>

</property>

<!--NodeManager总的可用虚拟CPU个数-->

<property>

    <name>yarn.nodemanager.resource.cpu-vcores</name>

    <value>8</value>

</property>

<property>

  <name>yarn.log-aggregation-enable</name>

  <value>true</value>

</property>

<property>

  <name>yarn.log.server.url</name>

  <value>http://master:19888/jobhistory/logs/</value>

</property>

<!--此配置为了解决上文说的报错-->

<property>

    <name>yarn.nodemanager.vmem-pmem-ratio</name>

    <value>5</value>

</property>

</configuration>

注:日志聚集功能不配置


这点点进去会报错。

三:flink部署

下载flink包

1)配置flink-conf.yaml

#Jobmanager的IP地址,即master地址。

jobmanager.rpc.address: master

#每一个TaskManager的堆大小(单位是MB),由于每个taskmanager要运行operator的各种函数(Map、Reduce、CoGroup等,包含sorting、hashing、caching),因此这个值应该尽可能的大。如果集群仅仅跑Flink的程序,建议此值等于机器的内存大小减去1、2G,剩余的1、2GB用于操作系统。如果是Yarn模式,这个值通过指定tm参数来分配给container,同样要减去操作系统可以容忍的大小(1、2GB)。

#本地方设置6G

taskmanager.heap.size: 6144

#每个TaskManager的并行度。一个slot对应一个core,默认值是1.一个并行度对应一个线程。总的内存大小要且分给不同的线程使用。

taskmanager.numberOfTaskSlots: 4

#启动job默认用的parallelism数量

parallelism.default:8

#临时目录

taskmanager.tmp.dirs: /tmp

#JobManager的堆大小(单位是MB)。当长时间运行operator非常多的程序时,需要增加此值。具体设置多少只能通过测试不断调整。

jobmanager.heap.size: 2048

#jobmanager.web.port: 8081

#JobMamanger的端口,默认是6123。

jobmanager.rpc.port: 6123

state.backend: filesystem

state.backend.fs.checkpointdir: hdfs:///flink/checkpoints

fs.hdfs.hadoopconf: /var/apps/hadoop285/etc/hadoop

注:如果配置高可用,这里面少了zookeeper的配置

2)配置master

vim masters

master:8081

3)配置slaves

vim slaves

slave1

slave2


三:启动yarn  和flink

四:提交任务。

./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 -d -c com.xxxxx.flink.app.xxxxxFlinkData  /var/apps/xxxx-xxxxx.jar

页面如下:



完成!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容

  • 一、系统参数配置优化 1、系统内核参数优化配置 修改文件/etc/sysctl.conf,添加如下配置,然后执行s...
    张伟科阅读 3,716评论 0 14
  • 1、Standalone 软件要求: Java 1.8.x or higher ssh JAVA_HOME配置 Y...
    JACKbayue阅读 17,211评论 0 6
  • --------"道路是曲折的,前途是光明的。"最近又涉及到了hadoop以及spark的安装,之前课题设计中有要...
    九七学姐阅读 3,007评论 3 5
  • apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(...
    生活的探路者阅读 1,473评论 3 8
  • 第一章 别用你的个性 挑战姐的脾气 “快来人呐,快,逮住这个小杂种”,声音尖锐的有些刺耳,伴随着踉...
    流淌的忧郁阅读 229评论 0 0