基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。用例说...
基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。用例说...
协同过滤推荐(Collaborative Filtering Recommendation) User-based CF: 基于User的协同过滤,通过不同用户对Item的评...
在写scrapy的spider类的parse方法的时候,有些链接需要提取出来继续爬取,这里scrapy提供了一些方法可以方便的实现这个功能,总结如下: 假设我们的目标a标签是...
因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。目前,被广泛的应用于广告预估模型中,相比...
MinMaxScaler作用是每一列,即每一维特征。将每一维特征线性地映射到指定的区间,通常是[0, 1]。MinMaxScaler计算数据集的汇总统计量,并产生一个MinM...
从源数据中提取特征指标数据,这是一个比较典型且通用的步骤,因为我们的原始数据集里,经常会包含一些非指标数据,如 ID,Description 等。为方便后续模型进行特征输入,...
QuantileDiscretizer(分位数离散化)将一列连续型的数据列转成分类型数据。通过取一个样本的数据,并将其分为大致相等的部分,设定范围。其下限为 -Infinit...
残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。它应符合模型...
机器学习 数据预处理之One-Hot Encoding 看到One-Hot-Encoding发现网上大多数说明都是来自于同一个例子,最后结果感觉出的好突兀,因此这里总结一下。...
众所周知,数据库的表都是单独存在的,但是当我们进行联合查询(多表查询)时,我们获得数据库返回的值时就好像在一张表里一样,这是因为在进行联合查询时数据库会生成一个临时表返回给我...
HDFS NameNode对文件块复制相关所有事物负责,它周期性接受来自于DataNode的HeartBeat和BlockReport信息,HDFS文件块副本的放置对于系统整...