问题描述 我们知道Matrix Factorization系统关键是要把Matrix矩阵分解为两个矩阵因子W和U,但是怎么分解因子,是我们面对的主要问题,机器学习的目的就是要...
问题描述 Matrix Factorization推荐系统是非常高效而且又是端到端的解决方案,利用keras机器学习库,可以非常简单就能实现,实现之后我们也可以对矩阵分解推荐...
问题描述 Embedding层在机器学习中用的非常多,不问是NLP系统还是推荐系统,都会用到这个层,而且是放在最模型的最前面使用的,那么它到底有什么意义,今天我们就探讨一下。...
问题描述 在推荐系统中,最重要的原始数据就是User和Item组成的二维矩阵,每一项的值就代表着某个User对某个Item打分项。这个矩阵会非常大,我们估算一下,假如某个网站...
传统推荐算法 Bandit算法与系统推荐 在推荐系统里比较经典的问题,就是EE和用户冷启动问题 什么是EE,两个单词的简称,分别是exploit和explore前者代表挖矿收...
Spark Scalar使用scalar两个主要接口:他提供了最为完整的Spark接口,而且得益于JVM带来的性能优势,在生产环境大部分部署的大部分应用都适用Scalar。 ...
昨天在学习一维分类问题是,今天突然想到一个问题,我们在一位分类的问题是,非常看重的一点是否可分,比如同一类别的点,它的定义域是否都落在一起,只有大部分定义域都落在一个定义域里...
RNN 循环神经网络的基本知识 其实循环神经网络我对了好久都没有读懂,之前还研究过源代码,但是到后来没有多久又忘记了。今天在我已经非常熟悉CNN的情况下,我想再仔细研究一下R...
ImageNet Classification with Deep Convolutional NeuralNetwork利用深度卷积神经网络进行ImageNet分类 Abs...
在机器学习中,平均数表示的是所有样本的平均值,也是所有样本的中心点。平方差:所有样本到中心点距离的平方和标准差:平方差/n得到平均平方差,然后再开根号。 numpy里有这些函...
问题描述 主成分分析(PCA)和大数据降维SVD之间是有联系的,我们今天就看看他们之间到底什么关系,但是在没有理清楚他们之前关系之前,我们需要线看看PCA到底代表什么意思。 ...
大数据的理解 大数据定义数据被定义为过于巨大的数据集合,以至于变得难以使用传统技术来处理。大数据的大体现在三个方面: 样例比较大比如统计了10人的样本数据,比如有100万个图...
问题描述 就像你在测试的应用程序的性能特性所见的那样,你也能获得有关内存方面的类似信息。跟踪内存消耗可以告诉你有关数据处理方式或者把数据床底给学习算法的方式中可能发生的问题。...
问题描述 在机器学习中当我们比较集中算法之间的性能差异时,我们需要比较算法执行的时间,从而分析出算法的优劣,今天就学习这些小技巧。 用timeit做时间基线检测 我们要明白%...
python语言中用来处理机器学习的库最重要的就是Scikit-learn,简称sklearn。被大多数科学家所钟爱,包括了构建良好的学习算法、误差函数和测试例程。在skle...
问题描述 散点图展示数据的聚集,而不是趋势(如线图)或者离散值(如柱状图)。散点图的目的是帮助你看数据模式。 基本散点图演示 以下代码展示了如何用随机数创建散点图: 通过颜色...
问题描述 当我们想展示不同的数据在所有数据样本中的分布时,需要用直方图来展示。当然在数据量很大的时候,如果为每个数据样本都展示一个分布,数据量太大,而且不利于观察,我们通常的...
在机器学习中,对数据进行观察时,我们选择的图表类型决定了人们如何来观察数据之间的关联,因此从一开始选择合适的图表时非常重要的。如果你想展示不同的数据元素如何为总体做贡献,你真...
问题描述 当我们在机器学习的时候,首先会获取数据,然后会观察数据,通过对数据的观察,我们知道这些数据内部大概呈现什么关系,从而为接下里的模型选择做好参考准备。这就我们今天要学...