240 发简信
IP属地:广东
  • Tensorflow四种Cross Entropy交叉熵算法实现

    1. softmax_cross_entropy_with_logits 方法定义: 计算方式: 2. sparse_softmax_cross...

  • Resize,w 360,h 240
    7.Spark数据读取与保存

    1. 常见数据源 文件格式与文件系统对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark ...

  • 6. Spark数据分区示例:PageRank

    1. 算法简介 PageRank 是执行多次连接的一个迭代算法,因此它是RDD 分区操作的一个很好的用例。算法会维护两个数据集: 一个由(pag...

  • Resize,w 360,h 240
    5. 第四章 键值对操作

    1. 创建Pair RDD 当用Scala 和Python 从一个内存中的数据集创建pair RDD 时,只需要对这个由二元组组成的集合调用Sp...

  • Resize,w 360,h 240
    4. 第三章 RDD编程

    Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。 总的来说,每个Spar...

  • Resize,w 360,h 240
    3. 第二章 Spark入门示例

    1. Spark文件目录简介 1.1 README.md包含用来入门Spark的简单的使用说明。1.2 bin包含可以用来和Spark 进行各种...

  • Resize,w 360,h 240
    2. 第一章 Spark导论

    1. Spark 简介 Spark是一个用来实现快速而通用的集群计算的平台。Spark 不仅可以将任何Hadoop 分布式文件系统(HDFS)上...

  • Resize,w 360,h 240
    1. Spark概述

    1.Spark介绍 Spark,是一种通用的大数据计算框架。正如Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎。...

  • Java网页正文提取工具

    最近做一个项目,其中涉及到网页信息采集,随后对相关的技术进行了学习与研发,网页正文提取技术常用的有joyhtml、boilerpipe、cx-e...