240 发简信
IP属地:广东
  • Resize,w 360,h 240
    机器学习的由来

    光阴似箭,岁月如梭。机器学习时间也将近大半年了,一直在思考为什么要学习这玩意。高数和线代一直是多少人的噩梦,讳莫如深的算法,加上spark、sc...

  • Resize,w 360,h 240
    从矩阵到奇异值分解

    矩阵行列式的几何意义 矩阵只是一个数表,行列式还要对这个数表按照规则进一步计算,最终得到一个实数、复数或者多项式 概括说来有两个解释: 一个解释...

  • 从数据中提取有用特征

    几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。 数值特征:这些特征通常为实数或整数,比如年龄 类别特征...

  • ML Pipelines

    pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预...

  • 从贝叶斯定理到最大似然估计

    昨天看到这样一道题,一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%。若一日第一件产品...

  • 图像数据源

    spark2.4开始支持image图片数据源操作 df的schema信息 如果是多层目录,而且需要获取目录名,可以将目录命为:cls=strin...

  • Resize,w 360,h 240
    ml之相关关系

    皮尔森相关性 样本相关与它代表的总体相关会存在一些误差。即使总体之间不存在相关,任然可能会获得一个非零相关,对于小样本来说尤其如此 当样本只有两...

  • spark sql快速入门

    常用的sql查询引擎 hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoen...

  • Hadoop小文件问题

    小文件过多,会消耗hdfs的namenode的内存内存消耗=文件数+目录数+block的数量