240 发简信
IP属地:天津
  • Resize,w 360,h 240
    markdown快速入门

    https://www.jianshu.com/p/q81RER 一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 无序列表 java...

  • Resize,w 360,h 240
    阿里云主机购买及网站域名绑定教程

    网站上线步骤 购买云服务器主机购买域名ICP备案系统安装及环境配置网站安装部署域名解析及端口映射 购买云服务器主机 目前,云计算近年以每年32%...

  • Resize,w 360,h 240
    Spark项目之简书百万用户动态分析与查询展示

    先看下数据分析的结果大概长什么样! 这个项目主要是对简书所有用户的动态做分析。 0.分析什么 说是对动态做分析,啥是动态?就像你微信朋友圈的发表...

  • 简书用户动态信息爬虫

    第一步 爬取简书推荐用户 爬取简书推荐用户,加入到用户信息表(第一批用户) 第二步 从推荐用户出发,爬取每个推荐用户的全部粉丝,加入到用户信息表...

  • Resize,w 360,h 240
    Spark性能调优-数据倾斜调优

    1. 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之...

  • Resize,w 360,h 240
    Spark性能调优-数据本地化调优

    1. task数据本地化级别 (1) PROCESS_LOCAL:进程本地化 (2) NODE_LOCAL:节点本地化 (3) NO_PREF:...

  • Resize,w 360,h 240
    Spark性能调优-代码调优

    1. 概述 代码调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发...

  • Resize,w 360,h 240
    Spark性能调优-资源调优

    1. 概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置...

  • Resize,w 360,h 240
    Spark中广播变量和累加器

    一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 累...