Streamsets简介及概述
StreamSets Data Collector是一个功能强大的企业级流处理平台,可以使用该平台来接入数据,处理数据,输出数据,支持来自各种数据源的实时流处理和批处理数据。Data Collector可以执行流处理中的各种数据增强,数据转换和数据清理,然后将数据写入HDFS,Solr,Kafka或Kudu等存储框架,而无需编写任何代码。对于更复杂的数据处理,可以使用以下受支持的语言和框架之一编写代码:Java,JavaScript,Jython(Python),Groovy,Java Expression Language(EL)和Spark。加我微信 bigdata_work,拉你进群,一起学习streamsts
从https://streamsets.com/官网上可以看出,Data Collector简称DC,是整个产品架构中的一个:
Data Collector:轻松地从任何来源获取数据到任何目的地。
Transformer:利用Apache Spark在ETL和机器学习方面的强大功能。
Control Hub:设计、部署、监控和管理大规模的智能数据管道。
安装
在centos7虚拟机上安装Data Collector
下载安装包
此时会提示你:使用账号登录,如果没有账号,请注册一个。需要注意的是:注册账号过程中使用的邮箱地址,必须可用,因为后续会将注册码发送到注册邮箱。
登录后,如果没有跳转到下图界面,则再次点击上图中的 Download Now。
点击上图中的 Download按钮,显示下图界面,自动下载:
注意:此种方式下载的安装包,只包含了部分组件,如果想要完整组件的安装包,请移步如下地址下载:https://archives.streamsets.com
安装JDK8和文件描述符限制设置为至少32768。
[root@localhost bin]# java -version
openjdk version "1.8.0_282"
OpenJDK Runtime Environment (build 1.8.0_282-b08)
OpenJDK 64-Bit Server VM (build 25.282-b08, mixed mode)
[root@localhost bin]# ulimit -n
1024000
将安装包拷贝到centos7虚拟机上,如/opt/目录,解压:
#注意:此处使用的是root用户,如果是其他用户,请注意权限问题。
[root@localhost ~]# cd /opt/
[root@localhost opt]# tar -zxvf streamsets-datacollector-common-3.19.0.tgz
进入解压后的bin目录,可以看到启动脚本streamsets:
[root@localhost bin]# cd /opt/streamsets-datacollector-3.19.0/bin
启动streamset dc
[root@localhost bin]# ./streamsets dc
Java 1.8 detected; adding $SDC_JAVA8_OPTS of "-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144" to $SDC_JAVA_OPTS
Activation enabled, activation is not valid#没有激活
Logging initialized @5054ms to org.eclipse.jetty.util.log.Slf4jLog
Running on URI : 'http://localhost:18630'
从宿主机上使用chrome浏览器访问http://localhost:18630,localhost改为虚拟机IP地址。因为没有激活软件,所以访问地址后,会跳转到登录界面(注意:此页面显示时间可能较长)。
使用前面所述的注册账户登录后,显示如下界面:
修改sdc.properties文件中的登录方式,aster改为form
[root@localhost bin]# vim ../etc/sdc.properties
关闭DC,启动DC--后端启动
[root@localhost bin]# ./streamsets dc #nohup ./streamsets dc &
Java 1.8 detected; adding $SDC_JAVA8_OPTS of "-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144" to $SDC_JAVA_OPTS
Activation enabled, activation is valid and it does not expire#已激活
Logging initialized @1795ms to org.eclipse.jetty.util.log.Slf4jLog
Running on URI : 'http://localhost:18630'
从宿主机上使用chrome浏览器访问http://localhost:18630,localhost改为虚拟机IP地址。默认用户名密码都是admin。
创建一个名为test的pipeline:
至此,安装完成。