implicit 库
ml 数据分析
保存只使用了 movielen 数据集的两个文件,特征分别如下图保存
数据提取函数 和 数据保存函数
- 读取使用的是 get_movielens() 函数
- 函数返回的值如下
电影:ndarray(属性)
一系列电影片名。
评级:csr_matrix(属性)
一个稀疏矩阵,其中行是movieId,列是userId,值是评级。
电影数据示例:
titles = ['' 'Toy Story (1995)' 'Jumanji (1995)' ... 'Tigerland (2000)' 'Two Family House (2000)' 'Contender, The (2000)']评级数据示例如下:
ratings = (1, 1) 5.0 (1, 6) 4.0 (1, 8) 4.0 (1, 9) 5.0 (1, 10) 5.0 (1, 18) 4.0 (1, 19) 5.0 (1, 21) 3.0 (1, 23) 4.0 (1, 26) 3.0 (1, 28) 3.0 (1, 34) 5.0 (1, 36) 5.0 (1, 38) 5.0 (1, 44) 5.0 (1, 45) 4.0 (1, 48) 4.0 (1, 49) 5.0 (1, 51) 5.0 (1, 56) 5.0 (1, 60) 4.0 (1, 65) 5.0 (1, 68) 3.0 (1, 73) 3.0 (1, 75) 5.0 : : (3952, 4790) 3.0 (3952, 4802) 5.0 (3952, 4816) 4.0 (3952, 4823) 3.0 (3952, 4831) 4.0 (3952, 4834) 4.0 (3952, 4858) 4.0 (3952, 4939) 3.0 (3952, 5049) 4.0 (3952, 5074) 4.0 (3952, 5087) 4.0 (3952, 5100) 4.0 (3952, 5205) 4.0 (3952, 5304) 4.0 (3952, 5333) 4.0 (3952, 5359) 5.0 (3952, 5405) 4.0 (3952, 5475) 5.0 (3952, 5602) 3.0 (3952, 5682) 3.0 (3952, 5812) 4.0 (3952, 5831) 3.0 (3952, 5837) 4.0 (3952, 5927) 1.0 (3952, 5998) 4.0电影名字数据不参与模型的训练,只在最后推荐输出时使用。
评级数据参与模型的训练,具体如何训练还要再看看