赛题任务:
以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,包括30w用户,近300w次点击,共36w多篇不同的新闻文章,同时每篇新闻文章对应的embedding向量表示,其中20w用户的点击日志数据是training data, 5w用户的点击日志数据作为testing data A, 5w用户的点击日志数据作为testing data B。预测测试集中所有用户下一次点击可能的新闻是什么,每个用户返回5篇文章。
赛题数据
train_click_log.csv: 训练集用户点击日志
test_click_log.csv: 测试集用户点击日志
articles.csv: 新闻文章信息数据表
articles_emb.csv: 新闻文章embedding向量表示
sample_submit.csv: 提交样例文件
特征字段
Field | Description |
---|---|
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击地区 |
click_referrer_type | 点击来源类型 |
article_id | 文章id,与click_article_id 相对应 |
category_id | 文章类型id |
created_at_ts | 文章创建时间戳 |
words_count | 文章字数 |
emb_1,emb_2,..,emb249 | 文章embedding向量表示 |
评价指标
MRR(Mean Reciprocal Rank): 首先对选手提交的表哥中的每个用户计算用户得分
赛题baseline
1.召回
本次Baseline :itemCF,给user推荐之前购买过的商品