lalalllalallal
从零开始AB测试1. AB测试简介 1.1 什么是AB测试 A/B测试[https://zh.wikipedia.org/wiki/A/B%E6%B8%AC%E8%A9%A6]为一种随机测...
lalalllalallal
从零开始AB测试1. AB测试简介 1.1 什么是AB测试 A/B测试[https://zh.wikipedia.org/wiki/A/B%E6%B8%AC%E8%A9%A6]为一种随机测...
在了解U统计量与AUC之间的关系前,先复习一下Mann-Whitney U Test首先放上AUC在统计上的意义: 随机选取一个正例和一个负例,分类器给正例的打分大于分类器给...
Hassan Kibirige[https://github.com/has2k1]开发的plydata[https://github.com/has2k1/plydata]...
1. 基本概念 决策树模型为非参数监督模型,该模型为根据一系列的if-else逻辑组合而成。树可以看作是一个分段函数,并且树的层数越深,就会更贴合数据(fitted)。 显然...
评估方法 留出法 Hold-out“留出法”将两个数据集拆分为两个互斥的集,一般训练集为70%,测试集为30%。这样使用测试集得出的测试误差(testing error)更具...
collect, collect_list, collect_set collect常用的有两个函数:collect_list(不去重)和collect_set(去重) co...
Catalyst Optimizers是Spark SQL的一个重要功能,他会将数据查询转换为执行计划。他分为四个步骤: 分析 逻辑优化 物理规划 生成代码 例子: M&Ms...
哥哥你好厉害
Learning Spark [4] - Spark SQLSpark SQL为Spark提供了以下几个特性: 提供高级结构框架的API(见Learning Spark [3]) 允许读取不同格式的数据(json, hive, tab...
术语: Application(应用程序):用户使用API所构建的Spark程序,包含了Driver(驱动)和Executor(执行单元)。 SparkSession(Spa...
Spark SQL为Spark提供了以下几个特性: 提供高级结构框架的API(见Learning Spark [3]) 允许读取不同格式的数据(json, hive, tab...
今天在知乎上看了一个问题,发现结果与自己起初的直觉大相径庭,同时回忆起了以前的一些统计知识。 问题 房间内有 100 人,每人有 100 块,每次随机给另一个人 1 块,最后...