作业脚本采用Python语言编写,Spark为Python开发者提供了一个API-----PySpark,利用PySpark可以很方便的连接Hi...
学习大数据技术有一段时间了,之前也写过一些零零散散的博客,作为自己学习的一些记录,不过每篇博客都只是涵盖部分技术。这次想写一篇比较完整的博客,记...
背景介绍 遇到一个需求,用 Spark SQL 查询每个分组的前 top n 个数据。由于一开始不知道 Spark SQL 有 row_numb...
最近上海好像有举行个什么维吾尔族的秘密时装秀,很好看的样子,不过我还没时间看。但是微博上已经吵翻了天,原因是 好吧,这不是我们关心的,我的心里只...
在 yarn-site.xml 中添加 8031 是默认端口,可以改为其他非占用端口,所有节点都需要照此修改。 Nodemanager 为每个节...
对于大数据方向我还是个新手,本篇博客仅用于个人学习记录,所以大家看看就好。 正常的Hadoop业务的开发流程应该是这样的 但是我偷了个懒,省去了...
本篇博客改编自实验楼 通过本篇博客,你可以将你喜欢的任意图片转换成对应的字符画 最终效果 原理介绍 字符画是一系列字符组合成的文本,看起来就像一...
Scrapy是一个纯Python语言写的爬虫框架,本次用它来爬取豆瓣图书的数据。 准备工作 没有安装Scrapy的同学需要安装一下,有两种方式安...
需要用到的 js 文件:china.js , echarts.min.js , jquery-*.min.js