泊牧 - 简书

泊牧

IP属地：广东

Tensorflow四种Cross Entropy交叉熵算法实现
1. softmax_cross_entropy_with_logits 方法定义：计算方式： 2. sparse_softmax_cross...

3023 2 0
7.Spark数据读取与保存
1. 常见数据源文件格式与文件系统对于存储在本地文件系统或分布式文件系统（比如NFS、HDFS、Amazon S3 等）中的数据，Spark ...

12758 1 1

6. Spark数据分区示例：PageRank
1. 算法简介 PageRank 是执行多次连接的一个迭代算法，因此它是RDD 分区操作的一个很好的用例。算法会维护两个数据集：一个由(pag...

875 0 1
5. 第四章键值对操作
1. 创建Pair RDD 当用Scala 和Python 从一个内存中的数据集创建pair RDD 时，只需要对这个由二元组组成的集合调用Sp...

699 1 0
4. 第三章 RDD编程
Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。总的来说，每个Spar...

577 0 2
3. 第二章 Spark入门示例
1. Spark文件目录简介 1.1 README.md包含用来入门Spark的简单的使用说明。1.2 bin包含可以用来和Spark 进行各种...

256 0 0
2. 第一章 Spark导论
1. Spark 简介 Spark是一个用来实现快速而通用的集群计算的平台。Spark 不仅可以将任何Hadoop 分布式文件系统（HDFS）上...

212 0 1

1. Spark概述
1.Spark介绍 Spark，是一种通用的大数据计算框架。正如Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎。...

246 0 1
Java网页正文提取工具
最近做一个项目，其中涉及到网页信息采集，随后对相关的技术进行了学习与研发，网页正文提取技术常用的有joyhtml、boilerpipe、cx-e...

0.1 3123 0 2