kafka 知识整理 kafka介绍 kafka是一种分布式的基于发布/订阅的消息系统。具有如下特征: 以时间复杂度为O(1)的方式提供消息...
Hive性能优化: hive分配map和reduce数量 m,r数据量,对效率影响较大,因为在启动和初始化阶段是很耗费时间和资源的。 (1)控制...
Kylin知识整理与归纳 1. kyliy的介绍及说明 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口...
kettle配置远程连接服务 (1)下载kettle安装包,在Linux服务器上进行解压 unzippdi-ce-7.0.0.0-25.zip ...
在工作中难免会遇到需要迁移大数据库,这时候就涉及到迁移hive等HDFS文件 解决方案: 采用hadoop distcp 来整体迁移 #!/...
在安装完linux系统后,执行yum,发现报错,不能正常使用。解决方法如下: 1.查看系统中是否有安装yum rpm -qa | grep yu...
大数据集群搭建 主要基于ambari来同一管理监控集群 主要安装步骤: 准备机器,修改hostname,固定ip等 机器间免密码登录 host机...
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkS...
Scala学习笔记: 1.1 scala的基础语法 声明与定义(赋值):声明变量时可以指定类型,不指定也可以自动识别数值类型 ØVal常量val...