240 发简信
IP属地:江苏
  • 后面怎么不更新了

    Plotly(三)基本图形(2):线图

    下面是本系列分享的第二篇,关于线图的分享。 事实上计划中线图和点图应该在一篇中介绍完毕,因为线图内容也不少还有其他拓展,所以就单独介绍一下。 线图的接口与点图基本类似,同样的...

  • 评分卡之特征选取

    简单评分卡可能有几十个特征,多的可能有几百个,所以必须减少这个数量,否则分析任务太重,因为模型的分类是一个不断尝试优化的过程,并且对计算的要求很高,逻辑回归和决策树尤其高,所...

  • 2020-05-18

    礼拜天晚上,我们从咸阳回西安,儿子在车上说,妈妈,你回去以后不要加班好不好。我也不能保证啊,我只能说,我尽量吧。儿子说。妈妈,我害怕你去加班不回来,我就再也见不到你了……说的...

  • 120
    机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

    同见博客:http://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/(对Latex公式支持更好) 在分类任...

  • 120
    Python 绘图,我只用 Matplotlib(二)

    上篇文章,我们了解到 Matplotlib 是一个风格类似 Matlab 的基于 Python 的绘图库。它提供了一整套和matlab相似的命令API,十分适合交互式地进行制...

  • Python计算量化策略评估指标

    量化评估 年化收益率 年化收益率是把当前收益率(日收益率、周收益率、月收益率)换算成年收益率来计算的,是一种理论收益率,并不是真正的已取得的收益率。因为年化收益率是变动的,所...

  • 简书中markdown改变字体颜色

    原文地址:https://www.jianshu.com/p/c5ea545e4545 使用简书的markdown不能改变字体颜色真是一件头疼的事,不过找了很久总算找到一种可...

  • 120
    DataWhale-03-EM算法

    理论部分EM算法,全称Expectation Maximization Algorithm,译作最大期望化算法或期望最大算法,它是一种迭代算法,用于含有隐变量(hidden ...

  • DataWhale-02-朴素贝叶斯

    相关概念生成模型在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成...

  • JVM垃圾收集算法

    标记-清除算法:将所有需要回收的对象先进行标记,标记结束后对标记的对象进行回收,效率低,会造成大量碎片。 复制算法:将内存分为两块大小相等的空间,每次只用其中一块,若一块内存...

  • DataWhale-01-线性回归

    线性回归的概念 1、线性回归的原理 线性回归的一般形式: 有数据集,其中,其中n表示变量的数量,d表示每个变量的维度。 可以用以下函数来描述y和x之间的关系: 2、线性回归损...

  • 已经到实战(六)了

    Kafka实战(五) - 核心API及适用场景全面解析

    1 四个核心API ● Producer API允许一个应用程序发布一串流式的数据到一个或者多个Kafka topic。 ● Consumer API允许一个应用程序订阅一个...

  • 木东居士学习计划:第三周 数据分布(详实版)

    基本概念古典概率条件概率离散分布连续变量期望值 离散变量的概率分布二项分布伯努利分布泊松分布 连续变量的概率分布均匀分布正态分布指数分布伽马分布偏态分布贝塔分布威布尔分布卡方...

  • 120
    分布式日志收集框架 Flume

    1 需求分析 WebServer/ApplicationServer分散在各个机器上,然而我们依旧想在Hadoop平台上进行统计分析,如何将日志收集到Hadoop平台呢? 简...

  • for path in `hdfs dfs -ls /data/logs/gateway | awk '{print $8}'`
    do
    hive --database dbname -e "alter table gateway_analysis add PARTITION(dt='${path:0-8:8}') location '$path'"
    done
    ——————————————————————————————————————————
    每次执行建分区执行一次hive -e操作连接hive感觉会有些慢,语句全部生成好,单独执行一次hive -e应该会快一些。欢迎讨论。

    Hive外表批量添加分区

    简介 我们有一批日志数据存储在hdfs上,按天创建目录,如2018-07-31的日志hdfs路径为:/data/logs/gateway/20180731。现在要用hive分...

个人介绍
生活之所以叫生活就是因为,它区别于工作和学习,既然活于世,Just enjoy it