创建maven项目file>new>project2.添加依赖的jar包,第一次添加可能有点慢 导入完毕后左边多出很多jar包,右边则没有红色横杠 3.开始开发在java下新...
准备工作 首先在你的GitHub上创建一个仓库,然后什么都不用做。 然后本地打开终端输入: 到这里其实就已经把云图床存储搭建好了。 绑定之后基本就完成了图床的云存储了,免费又...
今天在安装一个第三方库时报如下错误 pip install --upgrade baostock Could not fetch URL https://pypi.org/s...
环境说明 macOS Sierra 10.12.6 JDK 1.8.0_101 hadoop 3.1.1 homebrew homebrew安装 HomeBrew 是OSX中...
1. 安装Eclipse前,先确认Mac上是否已安装java运行环境。 进入终端,输入 java -version , 如果返回了java版本号则说明已安装,否则,先安装ja...
简单粗略的截屏吴恩达课程的PPT的内容,以后有时间了再回来补充一些细节。 一、引言(Introduction) 监督学习 无监督学习 二、单变量线性回归(Linear reg...
本文结构如下: 基本概念 基本模块 基本架构 一、基本概念 RDD(Resilient Distributed Datasets):弹性分布式数据集,只读分区记录的集合,Sp...
公众号开了快一年了,名字叫学一学大数据。但是一直没有分享关于大数据的文章,如是就抽出时间来给大家分享下大数据整理的技术路线及生态全景。 导读 第一章:初识Hadoop 第二章...
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,...
Storm学习笔记总结 Storm概述 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数...
Hive 提供了 Transform 这一关键字,使用 python 脚本处理hive 的数据,实现 Map/Reduce 的效果,在一些场景下,相比直接编写 Hadoop ...
0. 普通分布式文件系统设计思路 文件以多副本的方式,整个文件存放到单机中。 缺点:文件不管有多大都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能就称为网络...
博客原文一博客原文二 翻译作品,水平有限,如有错误,烦请留言指正。原文请见 官网英文文档 起步 Elasticsearch 是一个大规模开源的全文搜索和分析引擎,你可以用它来...
一、Flume简介 flume 是一个cloudera提供的 高可用高可靠,分布式的海量日志收集聚合传输系统。原名是 Flume OG (original generatio...
问题背景 在日常商城需求中我们经常会接到一些分析需求,分析维度可能会有: 商家id,是否跨店,订单是否有效,订单是否冻结等信息(目前并不记录在我们的确认订单模型) 其实订单接...